AI资讯新闻榜单内容搜索-benchmark

Sarah Guo：能被 Benchmark 衡量的工作，都不应该是你的创业方向

今年开年以来，不管是硅谷、还是国内的 AI 投资圈子，都不太敢投 AI 应用了。

来自主题: AI资讯

8349 点击 2026-06-12 10:14

我做了个测试 Claude API 中转站的 Skill，测完发现水太深了

根据我长期使用的观察，0.3 倍率说是用 Kiro 逆向出来的 Claude，2.0 倍率说是正经 Claude Max 号池接出来的。听起来后者肯定更靠谱。我一开始也这么想的。毕竟倍率差了快七倍，价格摆在那，总不至于拿假货糊弄人吧。

来自主题: AI资讯

9144 点击 2026-06-11 16:53

CVPR 2026｜LLM会写3D视觉代码吗？清华联合智源用GeoCodeBench给出答案

近日，来自清华大学智能产业研究院（AIR）的团队联合北京智源研究院（BAAI）、北京大学、南京大学等机构构建了一个基准：GeoCodeBench。这是一个面向 3D 几何计算机视觉的 PhD 级 coding benchmark，

来自主题: AI技术研报

8986 点击 2026-06-07 10:54

刚刚，国产预训练具身大模型开源了，让后训练不再是必选项！

2026 年初，国内具身智能赛道掀起了一波开源潮，越来越多团队开始公开自己的视觉-语言-动作（VLA）模型、数据集与训练框架。与此同时，行业竞争也逐渐集中到 benchmark 成绩、任务成功率以及跨任务泛化能力上，尤其是在标准化或已训练任务中的表现。

来自主题: AI技术研报

8229 点击 2026-05-29 09:19

24小时从零写一个GBA模拟器！GPT-5.5跑出53分登顶，Gemini得了0.8分，底部还有两家交白卷

Mechanize 发布了一项硬核测试：给前沿 AI coding agents 24 小时，用 Rust 从零写一个完整的 Game Boy Advance 模拟器，再和顶级开源模拟器 Mesen2 逐帧对比打分。

来自主题: AI技术研报

7991 点击 2026-05-18 16:48

Agent评测的下半场：为什么需要一个「活的」Benchmark？

Claw-Eval-Live提出「活的」benchmark概念，通过信号采集与任务筛选，确保评测内容紧跟企业实际痛点，而非固定不变的题库。评测不仅关注结果，还追踪执行过程，从数据调用到状态变更，全面验证Agent的真实能力。

来自主题: AI技术研报

6387 点击 2026-05-11 16:08

0%完成率！Claude、GPT、Gemini 全灭，SWE-Bench作者新作把AI圈干沉默了

SWE-Bench 的创建者，刚刚又放出了一个地狱级新 benchmark。

来自主题: AI技术研报

10235 点击 2026-05-07 15:31

拒绝透露姓名，神秘世界模型 MotuBrain 却拿了两个世界第一

一款名为 MotuBrain 的神秘世界模型，悄无声息地登上两个国际 benchmark 的榜首，没有任何公司署名。如果只是单榜第一，这件事或许并不稀奇。但问题在于，它同时拿下的，是两个几乎代表行业「两个极点」的榜单：一个是衡量世界模型「是否真正理解和预测现实世界」的 WorldArena

来自主题: AI资讯

9177 点击 2026-04-21 23:33

字节Seedance 2.0发论文了，171人署名，吴永辉曾妍在列

现象级AI视频技术、字节Seedance 2.0在arXiv发论文了。晒了26页的Benchmark，和贡献者名单。170位团队成员全公开，署名和尊重都拉满了，不过嘛这就不怕……嘛？

来自主题: AI资讯

8340 点击 2026-04-17 15:18

ICLR 2026 | 让多模态模型学会主动说话：主动交互从训练到评估的完整方案

本文综合北京大学王选计算机研究所发布的 ProactiveVideoQA 和 MMDuet2 两篇论文，介绍视频多模态大模型如何实现 “主动交互”—— 在视频播放过程中自主决定何时发起回复，而非等待用户提问。ProactiveVideoQA 提出评估指标和 benchmark，MMDuet2 则通过强化学习训练方法实现了 SOTA 性能，无需精确的回复时间标注即可训练出及时、准确的主动交互模型。

来自主题: AI技术研报

8827 点击 2026-03-30 15:02