老黄吹的Cosmos 3，在一个北大团队做的榜单上拿了第一

8248点击 2026-06-04 09:13

刚刚过去的GTC Taipei上，最备受关注的，莫过于Cosmos 3。

这是一个完全开源的物理AI全模态模型。老黄表示，Cosmos 3在世界生成这项上，在Artificial Analysis、Physics-IQ、PAI-Bench、R-Bench四个开源榜单上均列第一。

老黄吹的Cosmos 3，在一个北大团队做的榜单上拿了第一

前三个bench都算业界比较眼熟的，而R-bench——我特意查了查，这个让Cosmos 3霸榜的榜单，竟出自一支北大团队。

这篇工作已被ICML 2026接收，名字叫《Rethinking Video Generation Model for the Embodied World》，来自北京大学、字节跳动Seed等机构的研究团队。

他们提出了面向具身世界的视频生成评测与数据基础设施：R-Bench+RoVid-X。

老黄吹的Cosmos 3，在一个北大团队做的榜单上拿了第一

值得注意的是，在作者列表里，字节Seedance 2.0的预训练负责人曾妍，也赫然在列。

R-Bench：专门给机器人视频生成请的“考官”

Cosmos 3是英伟达这次GTC Taipei的主角之一。

按老黄的说法，它是全球首个完全开源的物理AI全模态模型，基于一种mixture-of-transformers架构，能在一个模型里同时理解和生成文本、图像、视频、环境声音，乃至机器人的动作。

Nano和Super两个尺寸，都已经挂上了Hugging Face。

老黄吹的Cosmos 3，在一个北大团队做的榜单上拿了第一

换句话说，Cosmos 3要做的不是“拍出好看的视频”，而是给机器人、自动驾驶这些要在真实世界里干活的系统，生成“物理上说得通”的数据。

但问题它就来了。

一个模型生成的机器人视频，到底是不是“物理上说得通”，该用什么来衡量？

过去一年，视频生成的故事几乎都绕着同一个问题展开：谁能拍得更清晰、更稳定、更有电影感。

但在机器人场景里，画质好看是一回事，能不能用又是另一回事。

如果一个模型能生成逼真的机械臂，却让夹爪穿过物体；能让机器人看起来“动起来”，却无法完成抓取、放置、转身、协作等任务，那么它距离Physical AI需要的“世界模型”，仍然隔着一条鸿沟。

R-Bench的核心出发点，就是把视频生成模型从“视觉生成器”放到“物理世界模拟器”的语境下重新评估。

它不只看画面是否逼真，而是系统性衡量模型是否能生成符合具身任务逻辑和物理约束的视频。

老黄吹的Cosmos 3，在一个北大团队做的榜单上拿了第一

具体而言，R-Bench是一个以机器人为中心的视频生成评测基准，包含650个图像-文本评测样本，从5类任务能力和4类机器人形态两个维度构建。

在任务维度上，R-Bench覆盖操作执行、空间关系、多主体协作、长时规划和视觉推理；在机器人形态维度上，覆盖单臂、双臂、四足和人形机器人。

老黄吹的Cosmos 3，在一个北大团队做的榜单上拿了第一

这样的设计让R-Bench不再只问“视频像不像”，而是进一步追问：

机器人有没有真正接触到目标物体？
任务关键步骤是否完整出现？
多个物体或多个主体之间的关系是否合理？
机器人形态在运动过程中是否保持稳定？
长时序动作是否符合任务逻辑？

因此，R-Bench不只是一个排行榜，更可以作为机器人视频生成数据的“物理质量过滤器”：

它能够评估生成视频是否满足接触关系、动作顺序、形态稳定性和任务完成度等物理约束，从而帮助筛选出更符合物理规律、可用于具身智能训练的数据。

为了捕捉这些问题，R-Bench设计了一套可复现的自动化评测指标体系，能够识别机器人形态畸变、物体属性漂移、部件漂浮或穿模、无接触抓取、凭空出现物体、关键动作缺失等常见失败模式。

值得注意的是，R-Bench的自动打分，和人工评测的Spearman相关系数达到0.96。

老黄吹的Cosmos 3，在一个北大团队做的榜单上拿了第一

这意味着它不只是个自动跑分工具，在很大程度上对齐了人类对“物理合不合理”“任务完没完成”的判断。

榜单上还能看到什么？

在最新R-Bench Leaderboard中，Cosmos 3系列已经成为开源社区最亮眼的模型之一。

Cosmos3-Nano以0.584的综合得分位列RBench开源模型第一，Cosmos3-Super紧随其后，拿到0.581。

老黄吹的Cosmos 3，在一个北大团队做的榜单上拿了第一

放到整个榜单里看，这传递出两个信号。

一是以物理AI为目标训练的视频世界模型，已经开始在机器人图像到视频生成上展现竞争。

相比传统通用视频模型，它的优势不只在画质，更在于更接近具身智能需要的物理模拟与动作延展能力。

二是闭源商业模型综合能力仍然领先，但开源正在快速追赶。

对研究社区来说，这种“开源能打”的信号，比单个模型更强更重要。

老黄吹的Cosmos 3，在一个北大团队做的榜单上拿了第一

而比排名更有价值的，是RBench照出来的几处共性短板：

精细操作还是老大难。移动、转身这类大幅动作模型已经做得不错，但抓、捏、拧、插、放置这些对接触建模要求高的动作，最容易出错。

长时规划仍是弱项。视频看起来连贯，不代表任务逻辑正确，模型可能动作流畅却漏掉关键步骤，或者把顺序搞反。

通用知识和机器人数据没“合上”。纯通用视频有丰富的世界知识但缺机器人交互，纯机器人数据又往往规模有限、形态单一。

从这个角度看，R-Bench更像一面镜子，把视频模型在物理世界里的真实软肋照了出来。

RoVid-X：400万条机器人视频，开源了

发现了问题，下一步就是喂数据。这正是RoVid-X要解决的事。

团队已经在Hugging Face上开源了RoVid-X的重要子集（300万条机器人视频），上线后热度攀升很快——它在Datasets Trending 的Video模态大规模数据集中排名第一，在全部6.5万多个Video模态数据集的整体Trending里也位列第九。

这反映了RoVid-X作为面向机器人视觉/视频理解的大规模数据资源，在开源社区中的快速影响力。

数据集的完整版规模达到400万条机器人视频片段、1300+细粒度技能、1万+小时内容，分辨率720P，并附带RGB、深度、光流等多模态物理标注。

老黄吹的Cosmos 3，在一个北大团队做的榜单上拿了第一

和通用互联网视频不同，RoVid-X要让模型接触的是更接近真实的机器人交互过程：物体怎么被抓取、机械臂怎么接近目标、任务怎么被分解、动作和环境怎么共同形成物理约束。

这种数据对于视频世界模型尤其关键。因为物理理解不是简单靠提示词补出来的，而需要模型在大量交互数据中学习接触、顺序、力学关系和结构稳定性。

实验结果也显示，引入RoVid-X数据后，模型在具身任务中的表现能够获得稳定提升。

例如在Wan系列模型上，经过RoVid-X微调后，模型在操作执行、长时规划和空间理解等维度均有明显改善。

老黄吹的Cosmos 3，在一个北大团队做的榜单上拿了第一

这说明高质量、结构化的机器人视频数据，确实能够提升视频生成模型面向具身场景的可执行性与稳定性。

这项工作的意义，不只在于多了一个benchmark和一个dataset，而是把视频生成放进了物理AI的语境里重新审视。

过去视频生成更多服务于内容创作：广告、短片、特效。往后，它可能成为机器人训练、仿真环境构建和具身智能数据闭环的基础设施。

当模型开始理解接触、顺序、结构稳定性和动作后果，“生成一段看起来合理的视频”就在向“可用于物理世界推演的世界模拟引擎”靠近。

R-Bench和RoVid-X是在这个转向中补上两块关键拼图：一个回答“如何评估”，一个回答“如何训练”。

随着Cosmos 3等Physical AI视频世界模型进入R-Bench榜单并取得开源Top-1，具身视频生成的竞争也正在从单纯比拼视觉效果，转向更接近真实世界的物理理解和任务执行能力。

对于开源社区而言，这或许是一个更重要的信号：Physical AI的进展，不只属于闭源模型和商业系统，也可以建立在开放评测、开放数据和开放模型共同演化的基础之上。

按团队的规划，下一步还会去做从生成视频反推可执行动作的Inverse Dynamics Model，进一步打通视频生成、策略学习和真机部署之间的闭环。

视频生成模型的下一站，或许真的不只是拍电影，而是模拟、理解，并参与真实的物理世界。

团队背景

这支团队叫DAGroup，来自北京大学，负责人是周大权。

老黄吹的Cosmos 3，在一个北大团队做的榜单上拿了第一

周大权的履历，恰好踩在这次工作的题眼上。

他从2022年就开始做视频生成，是最早一批入场的人之一——

代表作MagicVideo是业界最早的隐空间扩散视频模型之一，后来还有MagicVideo-V2、StoryDiffusion、Magic-Me等一系列工作。

老黄吹的Cosmos 3，在一个北大团队做的榜单上拿了第一

在腾讯混元视频模型HunyuanVideo中，他带领了模型预训练与扩散算法设计团队。

更早之前，他在模型与硬件效率方向也颇有积累，Coordinate Attention曾被列为CVPR 2020最具影响力论文第2名。

老黄吹的Cosmos 3，在一个北大团队做的榜单上拿了第一

如今回到北大做助理教授，他把研究重心放到了机器人、AIGC和VLA上。

他自述，自己的研究始终带着一条“用最少的算力和内存，跑最强的算法”的主线。

除R-Bench/RoVid-X外，DAGroup还在推进HumanNet、StableVLA等多个具身与世界模型方向的开源项目。

论文地址：https://arxiv.org/abs/2601.15282

Project Page：https://dagroup-pku.github.io/ReVidgen.github.io/

GitHub地址：https://github.com/DAGroup-PKU/HumanNet

R-Bench Leaderboard：https://huggingface.co/spaces/DAGroup-PKU/Leaderboard

RoVid-X Dataset：https://huggingface.co/datasets/DAGroup-PKU/RoVid-X/

文章来自于"量子位"，作者 "听雨"。

关键词: AI新闻 , R-bench , R-Bench+RoVid-X , 具身智能榜单

AITNT资源拓展

根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考

微调

【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台，可以对大语言模型（LLM）和多模态图文模型（VLM）进行预训练和轻量级微调。XTuner 支持多种微调算法，如 QLoRA、LoRA 和全量参数微调。
项目地址：https://github.com/InternLM/xtuner

prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法，编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词，进而高质量的帮助用户通过AI解决问题。
项目地址：https://github.com/langgptai/LangGPT/blob/main/README_zh.md
在线使用：https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0