最新！英伟达Jim Fan预判机器人物理AI将迎大突破：直接抄LLM作业，答案就在视频模型

8277点击 2026-05-09 03:09

Jim Fan 在红杉资本 AI Ascent 最新观点，信息量极大，机器人物理AI很快就会迎来突破，答案就在视频模型，路径就是LLM的突破路径,Jim Fan把机器人的未来路线图比作文明游戏里的科技树，还剩三个成就要解锁,2040年就是终局

英伟达机器人研究负责人Jim Fan，在刚刚的Sequoia AI Ascent会上抛出了一个判断：

机器人的终局，已经开始了。

原视频自行搜索：

Robotics' End Game: Nvidia's Jim Fan

最新！英伟达Jim Fan预判机器人物理AI将迎大突破：直接抄LLM作业，答案就在视频模型

从2016年那台DGX-1说起

故事从2016年夏天讲起。

那天，OpenAI的办公室里走进一个穿亮皮夹克的人，扛着一块大金属托盘，上面刻着一行字：献给Elon和OpenAI团队，献给计算与人类的未来，我呈上世界第一台DGX-1。

那是Jim Fan第一次见到黄仁勋。作为当时OpenAI的第一个实习生，他第一时间冲上去在上面签了名。Andrej Karpathy也在场，名字就刻在旁边。

那台DGX-1如今即将进入计算机历史博物馆。

Jim Fan说，当时完全不知道自己签下的意味着什么。

后来，Ilya Sutskever有一句话总结了接下来发生的一切：如果你相信深度学习，深度学习也会相信你。

六年，三个阶段。GPT-3的预训练，InstructGPT的对齐微调，再到如今用强化学习做推理——这就是LLM从无到有的全部路径。

Jim Fan的核心论点，就是机器人可以完整复制这条路。

大平行：机器人抄LLM的作业

他把这套逻辑叫做"大平行"（The Great Parallel）。

语言模型的三步走：预训练学会语言规律，监督微调对齐到有用的任务，强化学习完成最后一公里。

机器人照搬，换个名字：

1.预训练从文本换成物理世界的下一帧状态预测

2.微调从语言任务对齐换成机器人动作对齐

3.最后一公里同样是强化学习

如果打不过，就加入。

他用一句话概括：这是一场有据可查的抄作业。

VLA死了，世界动作模型来了

过去三年，机器人领域被VLA（视觉语言动作模型）统治。π系列、Groot，都属于这一类。

VLA的逻辑是在VLM上接一个动作头。但Jim Fan指出，这类模型的本质其实是LVAS，参数量的大头都给了语言，视觉和动作排在后面。

这导致VLA对知识和名词的理解很强，但对物理规律和动词的理解不够。

他举了一个经典例子。在原始VLA论文里，有一个让机器人把可乐罐移到泰勒·斯威夫特照片上的演示。确实完成了，确实没见过泰勒·斯威夫特，确实泛化了。

但这不是机器人需要的那种预训练能力。

第二预训练范式是什么？

Jim Fan说，他一直以为会是某种很宏大的东西。结果答案是——AI视频生成。

Veo、Sora这类视频模型在生成过程中，实际上是在内部学习预测下一个物理世界状态。模型自己学会了重力、浮力、光照、反射、折射，没有任何物理方程被硬编码进去。物理规律是从像素预测中自然涌现的。

Veo 3甚至能做视觉规划，在像素空间里跑迷宫求解。

Jim Fan还展示了一个有趣的反例：Veo 3在解某个迷宫时发现，如果不看的话，几何可以省略。他把这叫做"物理幻觉"（physics slop）。

那么如何让世界模型对机器人有用？答案是动作微调。把对所有可能未来状态的叠加，坍缩到对真实机器人有意义的那一薄片。

这就催生了一种新模型：Dream Zero。

Dream Zero是英伟达提出的世界动作模型（WAM，World Action Model），它能提前预想几秒后的未来然后据此行动。电机动作本质上是高维连续信号，和像素本质相同，因此可以和视频帧同时解码。Dream Zero联合输出下一世界状态和下一动作，由此实现了对训练中从未出现过的任务和动词的零样本泛化。

机器人在执行任务时，可以可视化它正在"梦到"什么。视频预测准，动作就准；视频产生幻觉，动作就失败。视觉和动作因此成为同等重要的一等公民。

他当场宣布：VLA已死，世界动作模型长存。

数据战略：遥操作的末日倒计时

模型策略说完，Jim Fan转向数据策略。

过去三年是遥操作的黄金时代。VR头显、极致优化的低延迟流传输、看上去像中世纪刑具的复杂操控装置，全行业都在这上面投入巨大。

但遥操作有一个物理上限：每台机器人每天24小时。实际上可能只有3小时，因为机器人随时可能出问题。

有没有更好的方式？

一种改进是直接把机器人手戴在自己手上。这叫UMI（通用操控接口），思路出奇地简单：把机器人执行器戴在手上，人在正常操作的同时直接采集数据，机器人本体完全不参与采集过程。

UMI已经催生了两家独角兽公司，左手是Generalist，右手是Sunday。

英伟达去年在此基础上更进一步，设计了一套与五指灵巧机器人手一一对应的外骨骼，叫做Dex-OOI。效果对比明显：直接穿戴外骨骼采集数据，比遥操作快得多，成功率也更高。以此训练的策略可以在零遥操作数据的情况下完全自主运行。

但Jim Fan认为这还不够。

他打了个比方：开特斯拉或Waymo的人，在驾驶时都在为最大的物理数据飞轮做贡献，而且完全感觉不到，上传是个后台进程。相比之下，戴着UMI或数据穿戴设备还是太笨重，太有侵入感，远不如开车上班那样无缝。

机器人需要自己的FSD等价物。

数据采集需要退到后台，无感地捕捉人类灵巧操作在所有生活场景、所有有经济价值的劳动中的完整面貌。

EgoScale：用人类第一视角视频预训练灵巧手

英伟达的答案是全力押注人类以自我为中心的视角（egocentric）视频，配合手部位置追踪和密集语言标注。

这个项目叫EgoScale。99.9%的训练数据都来自人类第一视角视频。输出是一个端到端的策略，从摄像头像素直接映射到22自由度的高灵巧度机器人手。

预训练用了21000小时的野外人类第一视角数据，零机器人数据。动作微调阶段只收集了50小时高精度动捕数据手套数据，加4小时遥操作数据。4小时遥操作不到训练数据总量的0.1%。

EgoScale能泛化到高灵巧度任务：分拣扑克牌、操控注射器转移液体。未来也许真的能有机器人护士。

对于衬衫折叠这类任务，只需要测试时一次示范，就能学会不同的折叠策略。

这篇论文还发现了一个灵巧度的神经缩放定律：预训练投入时长与最优验证损失之间存在一个非常干净的数学关系，是对数线性的，这是原始语言模型神经缩放定律发表六年后，在机器人领域的复现。

把所有数据策略放在一张图上，X轴是与机器人硬件的对齐度，Y轴是可扩展性，从低到高依次是：遥操作、数据穿戴设备（可达数十万小时）、第一视角视频（如果能跑起FSD飞轮，一年内可达一千万小时）。

Jim Fan的预测：未来一两年，遥操作占比将下降到接近可忽略不计；会出现针对不同硬件和使用场景定制的数据穿戴设备组合；机器人训练的主食将变成第一视角视频。

遥操作，再见。

最后一公里：强化学习与神经物理引擎

数据策略还有一个外层问题。

所有AI前沿实验室都在花重金购买数百万个编程环境来做强化学习。机器人领域同样急需扩大环境规模。

在真实机器人上做强化学习是可行的。英伟达实验室用RL把某些任务推到接近100%的成功率，机器人可以连续执行数小时，比如自主组装GPU。

但没办法搭建一百万个环境，那需要一百万台真实机器人。

一种过渡方案：用iPhone拍照，通过3D场景扫描流水线提取所有物体，自动在经典物理引擎中重建，扫描后的物体都是可交互的，再用所谓"数字表亲"做无限增强。iPhone因此变成一个口袋里的世界扫描仪，这个流程叫做real-to-sim-to-real。

但这套方法依赖经典图形引擎。能不能更进一步？

Dream Dojo（英伟达提出的一个神经物理引擎）的答案是把视频世界模型变成一个完整的神经物理引擎。输入连续动作信号，实时输出下一帧RGB画面和传感器状态。所有画面都不是真实的，没有任何物理方程，没有任何图形引擎，完全数据驱动。Dream Dojo能学习不同机器人的运动机械特性。

新的后训练范式由此成型：大规模并行强化学习系统，几个真实机器人工作站，加上运行世界扫描的大量图形计算核心，再加上运行世界模型的大量推理算力。

这套逻辑用一个等式表达：算力 = 环境 = 数据。

文明科技树：三个成就，2040年终局

Jim Fan把机器人的未来路线图比作文明游戏里的科技树，还剩三个成就要解锁：

第一，通过物理图灵测试。在各种任务上，你无法分辨是人类在做还是机器人在做，单位能量输入对应单位劳动输出。他估计大约两到三年。

第二，物理API。整个机器人舰队可以像软件一样通过API和命令行配置，最终由某个强大的AI来统一调度。有了物理API，就能实现"原子打印机"——以Markdown设计文件为输入，输出完整组装好的产品；或者自动化科学发现的湿实验室，覆盖化学、生物和医学。

第三，物理自动研究。机器人开始自己设计、改进、制造下一代自己，超越人类能力所及。

这是不是太科幻？

2012年AlexNet第一次前向传播，那个模型勉强能分辨猫和狗。到2026年，AI圈已经在讨论自动化研究。14年。

再加14年，就是2040年。

技术进步不是线性的，是指数级的。2026年正好处于2012和2040的中间点。

Jim Fan的结论：他有95%的把握，在2040年之前，机器人将完成整条科技树。

他用一句话收尾：

如果你相信机器人，机器人也会相信你。

我们这一代人，生得太晚，来不及探索地球；生得太早，赶不上探索星空。但我们生得正是时候，解决机器人问题。

文章来自于微信公众号 "AI寒武纪"，作者 "AI寒武纪"

关键词: AI新闻 , Jim Fan , 物理AI , AI机器人 , 具身智能

AITNT资源拓展

根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考

微调

【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台，可以对大语言模型（LLM）和多模态图文模型（VLM）进行预训练和轻量级微调。XTuner 支持多种微调算法，如 QLoRA、LoRA 和全量参数微调。
项目地址：https://github.com/InternLM/xtuner