AI资讯新闻榜单内容搜索-模型评测

世界模型迎来「真考场」：WorldArena 2.0 Challenge正式启动

WorldArena 1.0 的核心意义，在于将世界模型评测从 “好不好看” 推进到 “是否真的有用”。它不再只关注视频观感，而是把物理一致性、可控性、3D 准确性和具身任务功能性纳入统一评测框架，使许多看似流畅的生成结果第一次在机器人具身任务中接受检验。

来自主题: AI技术研报

9164 点击 2026-07-16 10:10

世界模型评测的最大盲区，被新基准MemoBench捅破了

来自哈佛大学、MIT、IBM、波士顿大学、谷歌、JHU、CMU 和 Kempner Institute 的研究者提出了一个新的诊断性基准：MemoBench。这是首个面向动态环境的「消失-重现」世界建模评测基准，并已被计算机视觉顶会 ECCV 2026 接收。其一作 Haoyu Chen 为哈佛大学计算科学与工程专业一年级硕士生，师从哈佛大学计算机科学助理教授 Yilun Du。

来自主题: AI技术研报

7990 点击 2026-07-06 12:24

达摩院发布世界模型评测基准，自家模型一个都没上榜......

达摩院联合高校推出WorldOlympiad评测基准，跳出传统视频“唯画质”的评价逻辑，以物理真实性、三维几何一致性、长时序交互保真度三大维度，搭配游戏、机器人、通用实景三大场景，打造一套全方位的视频世界模型评测体系。

来自主题: AI技术研报

9535 点击 2026-06-17 14:28

OpenAI科学家Noam Brown：AI的真正上限，可能根本没人测得起

随着大语言模型逐步进入复杂推理、自动化研究和网络安全等高难度任务，传统的模型评测方式正在面临新的挑战。

来自主题: AI资讯

7137 点击 2026-06-10 15:16

让机器人学会番茄炒蛋爆红网络的 Genesis AI，开源了自己的机器人「训练场」

真实世界需要 200 多个小时的模型评测任务，可以在仿真中不到 0.5 小时内完成。

来自主题: AI资讯

9007 点击 2026-05-29 10:30

国产大模型杀疯了！一手横测 MiniMax、DeepSeek V4、Kimi K2.6、MiMo 后，我找到了最能干活的 AI 牛马

从去年开始做这个账号以来，我其实写过不少测模型的文章。我相信也有很多朋友是因为看了我测评的文章关注我的。但从过年之后，真的就很少写模型评测的文章了。主要是我写文章的速度甚至一度跟不上模型发布的速度了。

来自主题: AI产品测评

11393 点击 2026-05-02 11:01

挤干大模型高分「水分」！最强模型仅49分，南大傅朝友发布Video-MME-v2

现有大模型评测分数日趋饱和，但与真实体验差距显著。南京大学傅朝友团队牵头，在 Google Gemini 评测团队邀约下推出视频理解新基准 Video-MME-v2。凭借创新的分层能力体系与组级非线性评分，以及 3300 + 人工时高质量标注，揭示模型与人类的巨大鸿沟（49 vs 90）、传统 Acc 指标虚高、以及 “Thinking” 并非总是增益等现象。

来自主题: AI技术研报

10964 点击 2026-04-13 15:01

南大团队直击大模型高分神话：人类90分，最强模型仅49分

现有大模型评测分数日趋饱和，但与真实体验差距显著。南京大学傅朝友团队牵头，在Google Gemini评测团队邀约下推出视频理解新基准Video-MME-v2。凭借创新的分层能力体系与组级非线性评分，以及3300+人工时高质量标注，揭示模型与人类的巨大鸿沟（49vs90）、传统Acc指标虚高、以及「Thinking」并非总是增益等现象。

来自主题: AI技术研报

8334 点击 2026-04-13 13:48

力压李飞飞团队登顶WorldScore，黑马Manifold AI领跑世界动作模型新范式

通用世界模型评测榜单 WorldScore 登顶、建立具身世界模型评测榜单 WorldArena 、发布通用世界模型 WorldScape 、发布世界-动作模型 WorldScape Policy，这家低调的世界模型创业公司 Manifold AI（流形空间）近期走出隐身模式频频出手，开始领跑世界-动作模型具身新路线。

来自主题: AI资讯

9110 点击 2026-04-04 11:03

林俊旸离职后，阿里Qwen3.5首次发新

今日，阿里千问最新旗舰模型预览版Qwen3.5-Max-Preview正式亮相，并登上全球大模型评测平台LMArena。在最新榜单中，该模型拿下1464分，进入第一梯队，同时带动阿里千问跻身全球大模型实验室前五、国内第一。

来自主题: AI资讯

8967 点击 2026-03-20 14:40