同一个模型,换个Harness排名跳了25位:智能体基础设施完全解剖
同一个模型,换个Harness排名跳了25位:智能体基础设施完全解剖LangChain 只换了模型外面的基础设施——同一个模型、同一套权重——就从 TerminalBench 2.0 排行榜 30 名开外直接跳到了第 5 名。另一个独立研究项目让大模型自己优化这层基础设施,达到了 76.4% 的通过率,超过了所有人工设计的方案。
LangChain 只换了模型外面的基础设施——同一个模型、同一套权重——就从 TerminalBench 2.0 排行榜 30 名开外直接跳到了第 5 名。另一个独立研究项目让大模型自己优化这层基础设施,达到了 76.4% 的通过率,超过了所有人工设计的方案。
2026年4月10日清晨,一名刚满20岁的年轻人,提着自制的燃烧弹,砸向了一栋价值2700万美元的豪宅。几个小时后,这名嫌疑人又出现在OpenAI的办公楼外,扬言要把整栋大楼烧成灰烬。
当企业真金白银开始从 ChatGPT 流向 Claude,Anthropic 打的早已不只是模型性能战,而是一场从工程师口碑、企业信任到「AI灵魂校准」的全面突围。
超声领域也有大模型了!
相信大家都能感觉到,进入2月以来,“上下文工程”、“Vibe Coding”的热度已经让位给了一个新名词:"harness engineering"。
T (R,O) Grasp 是一种基于物体 — 机器手空间关系建模的图扩散架构,具备跨智能体的统一表征能力。在 NVIDIA 40GB A100 GPU 上,该方法可实现 5 FPS 的推理速度和 50 grasp/s 的吞吐量,并在多种智能体上取得 94.83% 的平均抓取成功率,刷新了跨智能体灵巧抓取的 SOTA,具备与动态场景实时交互的能力。
Browser Use是Hermes Agent官方推荐的云端浏览器自动化提供商之一:
字节扣子悄悄升级了,全新上线2.5版本。
MiniMax M2.7 在今天正式开源。我们和华为昇腾、摩尔线程、沐曦、昆仑芯、NVIDIA,以及 Together AI、Fireworks、Ollama 等海内外芯片厂商、推理平台携手,在开源首日即完成模型接入与推理适配工作,推动全球 AI 生态繁荣发展。
Modus 以 8500 万美元 融资的消息却撬开了这块大陆,它引发的深远影响不仅仅关乎金钱的流动,而是深刻挑战了这个“稳固”的行业底层架构。本轮融资由 Lightspeed Venture Partners 领投,Garry Tan 等投资人参与,但更令人注目的是,这家公司没有走典型的 AI 路径