最新!英伟达Jim Fan预判机器人物理AI将迎大突破:直接抄LLM作业,答案就在视频模型

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
最新!英伟达Jim Fan预判机器人物理AI将迎大突破:直接抄LLM作业,答案就在视频模型
8277点击    2026-05-09 03:09

最新!英伟达Jim Fan预判机器人物理AI将迎大突破:直接抄LLM作业,答案就在视频模型


Jim Fan 在红杉资本 AI Ascent 最新观点,信息量极大,机器人物理AI很快就会迎来突破,答案就在视频模型,路径就是LLM的突破路径,Jim Fan把机器人的未来路线图比作文明游戏里的科技树,还剩三个成就要解锁,2040年就是终局


英伟达机器人研究负责人Jim Fan,在刚刚的Sequoia AI Ascent会上抛出了一个判断:


机器人的终局,已经开始了。


原视频自行搜索:


Robotics' End Game: Nvidia's Jim Fan


最新!英伟达Jim Fan预判机器人物理AI将迎大突破:直接抄LLM作业,答案就在视频模型


从2016年那台DGX-1说起


故事从2016年夏天讲起。


那天,OpenAI的办公室里走进一个穿亮皮夹克的人,扛着一块大金属托盘,上面刻着一行字:献给Elon和OpenAI团队,献给计算与人类的未来,我呈上世界第一台DGX-1。


那是Jim Fan第一次见到黄仁勋。作为当时OpenAI的第一个实习生,他第一时间冲上去在上面签了名。Andrej Karpathy也在场,名字就刻在旁边。


那台DGX-1如今即将进入计算机历史博物馆。


Jim Fan说,当时完全不知道自己签下的意味着什么。


后来,Ilya Sutskever有一句话总结了接下来发生的一切:如果你相信深度学习,深度学习也会相信你。


六年,三个阶段。GPT-3的预训练,InstructGPT的对齐微调,再到如今用强化学习做推理——这就是LLM从无到有的全部路径。


Jim Fan的核心论点,就是机器人可以完整复制这条路。


大平行:机器人抄LLM的作业


他把这套逻辑叫做"大平行"(The Great Parallel)。


语言模型的三步走:预训练学会语言规律,监督微调对齐到有用的任务,强化学习完成最后一公里。


机器人照搬,换个名字:


1.预训练从文本换成物理世界的下一帧状态预测


2.微调从语言任务对齐换成机器人动作对齐


3.最后一公里同样是强化学习


如果打不过,就加入。


他用一句话概括:这是一场有据可查的抄作业。


VLA死了,世界动作模型来了


过去三年,机器人领域被VLA(视觉语言动作模型)统治。π系列、Groot,都属于这一类。


VLA的逻辑是在VLM上接一个动作头。但Jim Fan指出,这类模型的本质其实是LVAS,参数量的大头都给了语言,视觉和动作排在后面。


这导致VLA对知识和名词的理解很强,但对物理规律和动词的理解不够。


他举了一个经典例子。在原始VLA论文里,有一个让机器人把可乐罐移到泰勒·斯威夫特照片上的演示。确实完成了,确实没见过泰勒·斯威夫特,确实泛化了。


但这不是机器人需要的那种预训练能力。


第二预训练范式是什么?


Jim Fan说,他一直以为会是某种很宏大的东西。结果答案是——AI视频生成。


Veo、Sora这类视频模型在生成过程中,实际上是在内部学习预测下一个物理世界状态。模型自己学会了重力、浮力、光照、反射、折射,没有任何物理方程被硬编码进去。物理规律是从像素预测中自然涌现的。


Veo 3甚至能做视觉规划,在像素空间里跑迷宫求解。


Jim Fan还展示了一个有趣的反例:Veo 3在解某个迷宫时发现,如果不看的话,几何可以省略。他把这叫做"物理幻觉"(physics slop)。


那么如何让世界模型对机器人有用?答案是动作微调。把对所有可能未来状态的叠加,坍缩到对真实机器人有意义的那一薄片。


这就催生了一种新模型:Dream Zero。


Dream Zero是英伟达提出的世界动作模型(WAM,World Action Model),它能提前预想几秒后的未来然后据此行动。电机动作本质上是高维连续信号,和像素本质相同,因此可以和视频帧同时解码。Dream Zero联合输出下一世界状态和下一动作,由此实现了对训练中从未出现过的任务和动词的零样本泛化。


机器人在执行任务时,可以可视化它正在"梦到"什么。视频预测准,动作就准;视频产生幻觉,动作就失败。视觉和动作因此成为同等重要的一等公民。


他当场宣布:VLA已死,世界动作模型长存。


数据战略:遥操作的末日倒计时


模型策略说完,Jim Fan转向数据策略。


过去三年是遥操作的黄金时代。VR头显、极致优化的低延迟流传输、看上去像中世纪刑具的复杂操控装置,全行业都在这上面投入巨大。


但遥操作有一个物理上限:每台机器人每天24小时。实际上可能只有3小时,因为机器人随时可能出问题。


有没有更好的方式?


一种改进是直接把机器人手戴在自己手上。这叫UMI(通用操控接口),思路出奇地简单:把机器人执行器戴在手上,人在正常操作的同时直接采集数据,机器人本体完全不参与采集过程。


UMI已经催生了两家独角兽公司,左手是Generalist,右手是Sunday。


英伟达去年在此基础上更进一步,设计了一套与五指灵巧机器人手一一对应的外骨骼,叫做Dex-OOI。效果对比明显:直接穿戴外骨骼采集数据,比遥操作快得多,成功率也更高。以此训练的策略可以在零遥操作数据的情况下完全自主运行。


但Jim Fan认为这还不够。


他打了个比方:开特斯拉或Waymo的人,在驾驶时都在为最大的物理数据飞轮做贡献,而且完全感觉不到,上传是个后台进程。相比之下,戴着UMI或数据穿戴设备还是太笨重,太有侵入感,远不如开车上班那样无缝。


机器人需要自己的FSD等价物。


数据采集需要退到后台,无感地捕捉人类灵巧操作在所有生活场景、所有有经济价值的劳动中的完整面貌。


EgoScale:用人类第一视角视频预训练灵巧手


英伟达的答案是全力押注人类以自我为中心的视角(egocentric)视频,配合手部位置追踪和密集语言标注。


这个项目叫EgoScale。99.9%的训练数据都来自人类第一视角视频。输出是一个端到端的策略,从摄像头像素直接映射到22自由度的高灵巧度机器人手。


预训练用了21000小时的野外人类第一视角数据,零机器人数据。动作微调阶段只收集了50小时高精度动捕数据手套数据,加4小时遥操作数据。4小时遥操作不到训练数据总量的0.1%。


EgoScale能泛化到高灵巧度任务:分拣扑克牌、操控注射器转移液体。未来也许真的能有机器人护士。


对于衬衫折叠这类任务,只需要测试时一次示范,就能学会不同的折叠策略。


这篇论文还发现了一个灵巧度的神经缩放定律:预训练投入时长与最优验证损失之间存在一个非常干净的数学关系,是对数线性的,这是原始语言模型神经缩放定律发表六年后,在机器人领域的复现。


把所有数据策略放在一张图上,X轴是与机器人硬件的对齐度,Y轴是可扩展性,从低到高依次是:遥操作、数据穿戴设备(可达数十万小时)、第一视角视频(如果能跑起FSD飞轮,一年内可达一千万小时)。


Jim Fan的预测:未来一两年,遥操作占比将下降到接近可忽略不计;会出现针对不同硬件和使用场景定制的数据穿戴设备组合;机器人训练的主食将变成第一视角视频。


遥操作,再见。


最后一公里:强化学习与神经物理引擎


数据策略还有一个外层问题。


所有AI前沿实验室都在花重金购买数百万个编程环境来做强化学习。机器人领域同样急需扩大环境规模。


在真实机器人上做强化学习是可行的。英伟达实验室用RL把某些任务推到接近100%的成功率,机器人可以连续执行数小时,比如自主组装GPU。


但没办法搭建一百万个环境,那需要一百万台真实机器人。


一种过渡方案:用iPhone拍照,通过3D场景扫描流水线提取所有物体,自动在经典物理引擎中重建,扫描后的物体都是可交互的,再用所谓"数字表亲"做无限增强。iPhone因此变成一个口袋里的世界扫描仪,这个流程叫做real-to-sim-to-real。


但这套方法依赖经典图形引擎。能不能更进一步?


Dream Dojo(英伟达提出的一个神经物理引擎)的答案是把视频世界模型变成一个完整的神经物理引擎。输入连续动作信号,实时输出下一帧RGB画面和传感器状态。所有画面都不是真实的,没有任何物理方程,没有任何图形引擎,完全数据驱动。Dream Dojo能学习不同机器人的运动机械特性。


新的后训练范式由此成型:大规模并行强化学习系统,几个真实机器人工作站,加上运行世界扫描的大量图形计算核心,再加上运行世界模型的大量推理算力。


这套逻辑用一个等式表达:算力 = 环境 = 数据。


文明科技树:三个成就,2040年终局


Jim Fan把机器人的未来路线图比作文明游戏里的科技树,还剩三个成就要解锁:


第一,通过物理图灵测试。在各种任务上,你无法分辨是人类在做还是机器人在做,单位能量输入对应单位劳动输出。他估计大约两到三年。


第二,物理API。整个机器人舰队可以像软件一样通过API和命令行配置,最终由某个强大的AI来统一调度。有了物理API,就能实现"原子打印机"——以Markdown设计文件为输入,输出完整组装好的产品;或者自动化科学发现的湿实验室,覆盖化学、生物和医学。


第三,物理自动研究。机器人开始自己设计、改进、制造下一代自己,超越人类能力所及。


这是不是太科幻?


2012年AlexNet第一次前向传播,那个模型勉强能分辨猫和狗。到2026年,AI圈已经在讨论自动化研究。14年。


再加14年,就是2040年。


技术进步不是线性的,是指数级的。2026年正好处于2012和2040的中间点。


Jim Fan的结论:他有95%的把握,在2040年之前,机器人将完成整条科技树。


他用一句话收尾:


如果你相信机器人,机器人也会相信你。


我们这一代人,生得太晚,来不及探索地球;生得太早,赶不上探索星空。但我们生得正是时候,解决机器人问题。



文章来自于微信公众号 "AI寒武纪",作者 "AI寒武纪"

AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
微调

【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台,可以对大语言模型(LLM)和多模态图文模型(VLM)进行预训练和轻量级微调。XTuner 支持多种微调算法,如 QLoRA、LoRA 和全量参数微调。

项目地址:https://github.com/InternLM/xtuner