AI资讯新闻榜单内容搜索-HAI

同一个模型，换个Harness排名跳了25位：智能体基础设施完全解剖

LangChain 只换了模型外面的基础设施——同一个模型、同一套权重——就从 TerminalBench 2.0 排行榜 30 名开外直接跳到了第 5 名。另一个独立研究项目让大模型自己优化这层基础设施，达到了 76.4% 的通过率，超过了所有人工设计的方案。

来自主题: AI技术研报

7627 点击 2026-04-13 10:13

AI医疗，华为全球首发！

华为联合南方医院及行业伙伴首次面向全球发布医院通用人工智能平台（Hospital AI Platform，以下简称“HAIP”）。该平台定位为医院专属“AI操作系统”，通过统筹全院算力、数据、模型资源，将分散的AI能力整合为统一数智化底座

来自主题: AI资讯

9998 点击 2026-04-12 16:27

Anthropic重磅更新 Advisor Strategy 上线！最强Opus做大脑，Sonnet疯狂搬砖

深夜，Anthropic官宣重磅更新：Claude「顾问策略」（Advisor Strategy）上线。这一架构的核心逻辑是——让智商最高的Opus 4.6退居幕后当「顾问」；让性价比极高的Sonnet 4.6或Haiku 4.5冲在前面当「执行者」。

来自主题: AI资讯

9358 点击 2026-04-10 16:16

同一个模型，换个Harness排名跳了25位：智能体基础设施完全解剖

LangChain 只换了模型外面的基础设施——同一个模型、同一套权重——就从 TerminalBench 2.0 排行榜 30 名开外直接跳到了第 5 名。另一个独立研究项目让大模型自己优化这层基础设施，达到了 76.4% 的通过率，超过了所有人工设计的方案。

来自主题: AI技术研报

9951 点击 2026-04-08 10:23

深度｜对话 LangChain 创始人：为什么 Manus 和 Claude Code 这么强？秘诀不在模型，而在顶级 Harness

在 AI 圈，模型至上论正在遭遇前所未有的挑战。当所有人都在屏息等待新模型再次刷新智力天花板时，AI 基础设施领军人物、LangChain 联合创始人 Harrison Chase 在最新对话中抛出了新预判：大模型正在沦为大宗商品，而决定 Agent 成败的，是那个包裹在模型外的 Harness 。

来自主题: AI资讯

10295 点击 2026-04-03 10:16

一个西方 VC 的中国 AI 考察笔记：深圳硬件让我震惊，看空中国软件

本文作者 José Maria Macedo 是加密行业老牌研究机构 Delphi Digital 的联合创始人，也是 Delphi Ventures 的创始合伙人。Delphi 的客户包括 Polychain、Pantera、Ark Invest 等顶级基金，最近还专门开设了 AI 研究线 Delphi Intelligence。

来自主题: AI资讯

7196 点击 2026-03-31 10:30

笑死！奥特曼和Claude创始人被迫合影，别人牵手他俩举拳，AI 圈最社死名场面诞生

在印度人工智能影响力峰会上，出现 AI 圈最尴尬的一次合影。印度总理莫迪举起 Sam Altman 和 Sundar Pichai 的手，其他大佬也纷纷效仿牵手，唯独 Altman 和 Anthropic CEO Dario Amodei 并肩站立。

来自主题: AI资讯

9929 点击 2026-02-20 18:41

o1之后下一个范式？隐式CoT大突破，让推理不再「碎碎念」

今天推荐一个 Implicit Chain-of-Thought（隐式推理）的最新进展 —— SIM-CoT（Supervised Implicit Chain-of-Thought）。它直击隐式 CoT 一直「扶不起来」的核心痛点：隐式 token 一旦 scale 上去，训练就容易塌缩到同质化的 latent 状态，推理语义直接丢失。

来自主题: AI技术研报

7697 点击 2026-02-02 09:31

LLM-in-Sandbox：给大模型一台电脑，激发通用智能体能力

大模型的能力正在被不同的范式逐步解锁：In-Context Learning 展示了模型无需微调即可泛化到新任务；Chain-of-Thought 通过引导模型分步推理来提升复杂问题的求解能力；近期，智能体框架则赋予模型调用工具、多轮交互的能力。

来自主题: AI技术研报

10968 点击 2026-01-30 16:05

DeepSeek-R1推理智能从哪儿来？谷歌新研究：模型内心多个角色吵翻了

过去两年，大模型的推理能力出现了一次明显的跃迁。在数学、逻辑、多步规划等复杂任务上，推理模型如 OpenAI 的 o 系列、DeepSeek-R1、QwQ-32B，开始稳定拉开与传统指令微调模型的差距。直观来看，它们似乎只是思考得更久了：更长的 Chain-of-Thought、更高的 test-time compute，成为最常被引用的解释。

来自主题: AI技术研报

7310 点击 2026-01-26 15:02