AI资讯新闻榜单内容搜索-Benchmark

Agent评测的下半场：为什么需要一个「活的」Benchmark？

Claw-Eval-Live提出「活的」benchmark概念，通过信号采集与任务筛选，确保评测内容紧跟企业实际痛点，而非固定不变的题库。评测不仅关注结果，还追踪执行过程，从数据调用到状态变更，全面验证Agent的真实能力。

来自主题: AI技术研报

6703 点击 2026-05-11 16:08

0%完成率！Claude、GPT、Gemini 全灭，SWE-Bench作者新作把AI圈干沉默了

SWE-Bench 的创建者，刚刚又放出了一个地狱级新 benchmark。

来自主题: AI技术研报

11180 点击 2026-05-07 15:31

拒绝透露姓名，神秘世界模型 MotuBrain 却拿了两个世界第一

一款名为 MotuBrain 的神秘世界模型，悄无声息地登上两个国际 benchmark 的榜首，没有任何公司署名。如果只是单榜第一，这件事或许并不稀奇。但问题在于，它同时拿下的，是两个几乎代表行业「两个极点」的榜单：一个是衡量世界模型「是否真正理解和预测现实世界」的 WorldArena

来自主题: AI资讯

9580 点击 2026-04-21 23:33

字节Seedance 2.0发论文了，171人署名，吴永辉曾妍在列

现象级AI视频技术、字节Seedance 2.0在arXiv发论文了。晒了26页的Benchmark，和贡献者名单。170位团队成员全公开，署名和尊重都拉满了，不过嘛这就不怕……嘛？

来自主题: AI资讯

8932 点击 2026-04-17 15:18

ICLR 2026 | 让多模态模型学会主动说话：主动交互从训练到评估的完整方案

本文综合北京大学王选计算机研究所发布的 ProactiveVideoQA 和 MMDuet2 两篇论文，介绍视频多模态大模型如何实现 “主动交互”—— 在视频播放过程中自主决定何时发起回复，而非等待用户提问。ProactiveVideoQA 提出评估指标和 benchmark，MMDuet2 则通过强化学习训练方法实现了 SOTA 性能，无需精确的回复时间标注即可训练出及时、准确的主动交互模型。

来自主题: AI技术研报

9145 点击 2026-03-30 15:02

ClawCiv：OpenClaw的电竞排行榜来了

想象一下：你精心调教了两周的 OpenClaw，自信满满地跑了一组 Benchmark——结果发现全球排名 387 位，前面那位用的模型跟你一样，但分数比你高 40%。你想不想知道他到底配了什么 Skill？

来自主题: AI资讯

9457 点击 2026-03-29 13:09

Benchmark 5000万美元押注Gumloop ：下一个独角兽是让实习生也能造AI Agent

Gumloop 刚刚宣布完成 5000 万美元的 B 轮融资，由 Benchmark 领投，Nexus VP、First Round Capital、Y Combinator、Box Group、The Cannon Project 和 Shopify Ventures 参与跟投。

来自主题: AI资讯

9726 点击 2026-03-21 10:28

CVPR'26 | 以机器人为中心的ToM推理框架，从心智推理到决策行动

吉林大学&微软亚洲研究院等团队提出MindPower框架，让机器人像人一样理解他人想法并主动帮忙，构建了首个以机器人为中心的心智推理评测体系，通过六层推理链条，让AI不仅看懂场景，更能推断意图、做出决策、执行动作，显著提升助人能力。

来自主题: AI技术研报

6848 点击 2026-03-17 08:49

Legora、Mercor 都在用，Reducto 能成为独立的 LLM 数据入口吗？

Reducto 在去年 6 个月内接连完成分别由 Benchmark 与 a16z 领投的两轮融资，估值翻了 3 倍，达到 6 亿美元。我们认为，Reducto 切中了 AI 应用走向生产环境过程中的“精确数据摄取”瓶颈。

来自主题: AI资讯

10289 点击 2026-03-14 08:41

YC总裁转发、登顶Hacker News：SkillsBench揭开Agent技能扩展的残酷真相

近日，一篇名为《SkillsBench: Benchmarking How Well Agent Skills Work Across Diverse Tasks》的论文预印本引爆了海外 AI 社区，YC 总裁 Garry Tan 亲自转发，登顶 Hacker News（363 票 / 163 评论），霸榜 AlphaXiv #1，

来自主题: AI技术研报

7894 点击 2026-03-07 11:08