AI资讯新闻榜单内容搜索-模型

大佬深度解析：Coding Agent的底层运行逻辑是什么？

在本文中，我将探讨编码智能体（coding agents）及其智能体编排（agent harnesses）的整体设计：它们究竟是什么、工作原理如何，以及在实际应用中各组件是如何协同运作的。

来自主题: AI技术研报

7818 点击 2026-04-13 13:50

南大团队直击大模型高分神话：人类90分，最强模型仅49分

现有大模型评测分数日趋饱和，但与真实体验差距显著。南京大学傅朝友团队牵头，在Google Gemini评测团队邀约下推出视频理解新基准Video-MME-v2。凭借创新的分层能力体系与组级非线性评分，以及3300+人工时高质量标注，揭示模型与人类的巨大鸿沟（49vs90）、传统Acc指标虚高、以及「Thinking」并非总是增益等现象。

来自主题: AI技术研报

8008 点击 2026-04-13 13:48

软银攒局的日本“物理AI国家队” 能打破创新困局吗?

今日（4月12日）上午，软银、NEC等多家日企联合组建国家级AI产业联盟，发力物理AI。

来自主题: AI资讯

7026 点击 2026-04-13 11:22

同一个模型，换个Harness排名跳了25位：智能体基础设施完全解剖

LangChain 只换了模型外面的基础设施——同一个模型、同一套权重——就从 TerminalBench 2.0 排行榜 30 名开外直接跳到了第 5 名。另一个独立研究项目让大模型自己优化这层基础设施，达到了 76.4% 的通过率，超过了所有人工设计的方案。

来自主题: AI技术研报

7189 点击 2026-04-13 10:13

OpenAI惨遭反超！Anthropic狂吞70%新客户，Claude已开启「灵魂校准」

当企业真金白银开始从 ChatGPT 流向 Claude，Anthropic 打的早已不只是模型性能战，而是一场从工程师口碑、企业信任到「AI灵魂校准」的全面突围。

来自主题: AI资讯

10233 点击 2026-04-13 09:39

36.4万超声图文对！中国团队构建首个大规模超声专属数据集，让AI真正读懂临床诊断语义丨CVPR'26

超声领域也有大模型了！

来自主题: AI技术研报

9136 点击 2026-04-13 09:38

ICRA 2026｜NUS邵林团队提出T(R,O) Grasp：刷新跨智能体灵巧抓取SOTA，实现5FPS动态环境交互

T (R,O) Grasp 是一种基于物体 — 机器手空间关系建模的图扩散架构，具备跨智能体的统一表征能力。在 NVIDIA 40GB A100 GPU 上，该方法可实现 5 FPS 的推理速度和 50 grasp/s 的吞吐量，并在多种智能体上取得 94.83% 的平均抓取成功率，刷新了跨智能体灵巧抓取的 SOTA，具备与动态场景实时交互的能力。

来自主题: AI技术研报

6612 点击 2026-04-13 09:38

ICLR 2026｜隐式思考模型LRT：「隐式思维链」推理，更快更强！

近日，哈尔滨工业大学（深圳）联合深圳河套学院、Independent Researcher提出了隐式思考模型 LRT（Latent Reasoning Tuning），通过一个轻量级的推理网络，将大模型冗长的「思维链」压缩为紧凑的隐式向量表征，一次前向计算即可完成推理，无需逐 token 生成数千字的中间推理过程。

来自主题: AI技术研报

9971 点击 2026-04-13 09:35

MiniMax M2.7开源，携手全球伙伴加速AI生态繁荣

MiniMax M2.7 在今天正式开源。我们和华为昇腾、摩尔线程、沐曦、昆仑芯、NVIDIA，以及 Together AI、Fireworks、Ollama 等海内外芯片厂商、推理平台携手，在开源首日即完成模型接入与推理适配工作，推动全球 AI 生态繁荣发展。

来自主题: AI资讯

9812 点击 2026-04-12 22:21

AI医疗，华为全球首发！

华为联合南方医院及行业伙伴首次面向全球发布医院通用人工智能平台（Hospital AI Platform，以下简称“HAIP”）。该平台定位为医院专属“AI操作系统”，通过统筹全院算力、数据、模型资源，将分散的AI能力整合为统一数智化底座

来自主题: AI资讯

9646 点击 2026-04-12 16:27