LeCun的世界模型单GPU就能跑了

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
LeCun的世界模型单GPU就能跑了
6244点击    2026-03-24 17:25

LeCun世界模型最新进展,开源了一套极简训练方案,单GPU就能跑


这套方案叫LeWorldModel,它基于JEPA架构,实现像素输入直接预测未来,速度快到离谱,完整规划仅需1秒


LeCun的世界模型单GPU就能跑了


它能只看像素画面、不用复杂技巧、单GPU就能稳定训练,学会预测 “我做这个动作,世界会变成什么样”,用来帮机器人、智能体做规划和控制,又快又稳又好用。


LeCun的世界模型单GPU就能跑了


实际效果也很不错:


  • 速度飞起:规划速度比大模型方案快48倍,1秒内搞定。


  • 参数很小:只有1500万参数,所有训练与规划实验均在单张NVIDIA L40S显卡上完成,几小时即可训完


  • 控制很强:在推箱子、机械臂、导航等 2D/3D 任务里,超过之前的端到端方法,和大模型方案打得有来有回。


  • 懂物理: latent里藏着位置、角度等物理信息,还能识别 “不合物理” 的怪事(比如物体突然瞬移,它会觉得 “很意外”)


技术架构:把JEPA简化到本质


团队介绍,以往的JEPA方法通过启发式方法或技巧(例如EMA、停止梯度法、预训练表示、掩码或复杂的损失函数)来避免模型崩溃。


然而,这些技巧使得JEPA训练不稳定且难以进行。


LeCun的世界模型单GPU就能跑了


而LeWM的思路是把JEPA简化到本质:用编码器把图片变特征,用预测器根据动作猜下一个特征,再用高斯正则防止坍塌,全程端到端、极简稳定训练。


其架构只用到两个核心组件——编码器+预测器


编码器:把画面压缩成一小串数字(latent特征)


预测器:根据当前特征 + 你要做的动作,预测下一刻的特征


LeCun的世界模型单GPU就能跑了


最关键的创新在于,它只用了两个损失:


预测损失:让预测器尽量猜对下一帧的真实特征,用简单的MSE均方误差。作用是让模型学会世界的动态规律。


SIGReg正则损失:强制让所有特征向量服从标准高斯分布。作用是防止模型 “摆烂坍塌”(所有画面输出一样的特征)


所以最终的总损失 = 预测损失 + λ × SIGReg正则损失。


LeCun的世界模型单GPU就能跑了


正则化权重 λ是唯一需要调优的超参数,极大简化了训练流程,完全不需要以往的额外方法,这也是LeWM稳定、好用的根本原因。


实验结果:完胜此前JEPA方法


先放结论:LeWM完胜之前的端到端JEPA 方法(PLDM),和依赖大模型预训练的DINO‑WM打成平手甚至更强,同时训练更简单、速度更快、参数更小


团队在4个经典机器人/控制任务上进行测试,并与DINO-WM和PLDM这两种基于JEPA的最先进方法进行比较。


4个任务分别是Push-T(推箱子)、Reacher(机械臂够目标)、OGBench-Cube(3D 机械臂抓方块)、Two-Room(2D 导航)


LeCun的世界模型单GPU就能跑了


结果显示:


  • Push-T(推箱子):LeWM最强,成功率96%,比PLDM高18%,甚至超过带体感输入的DINO-WM;


  • Reacher(机械臂够目标):LeWM>PLDM,和DINO-WM接近;


  • OGBench-Cube(3D机械臂抓方块):LeWM略输DINO-WM,但依然很强;


  • Two-Room(2D导航):LeWM稍弱,但物理信息依然学得很好。


LeCun的世界模型单GPU就能跑了


在2D和3D任务中,LeWM缩小了与基于基础模型的世界模型(例如 DINO-WM)之间的差距,同时优于端到端基线PLDM。


值得注意的是,LeWM的规划速度比DINO-WM快48倍:不到1秒vs约47秒。


原因是LeWM能把观测数据缩小约200倍,AI预测未来时算得更快、更省力,让基于特征的世界规划几乎可以实时运行


LeCun的世界模型单GPU就能跑了


此外,LeWM是真懂物理。


模型把画面变成一串数字(latent),团队在训练好的LeWM后面,接入一个简单的小探测器,让它只靠latent数字,去预测机器人/方块的位置、方块的角度、机械臂指尖坐标。


结果位置预测几乎100%准确,角度预测也非常准,比之前的PLDM强很多,和大模型DINO差不多。


LeCun的世界模型单GPU就能跑了


为了直观展示LeWM的学习效果,团队还额外训练了一个用于可视化的小解码器,展示了三类画面:真实视频、模型 “看到”的还原视频、以及模型的未来预测视频。


LeCun的世界模型单GPU就能跑了


可以看到,LeWM不仅能准确理解当前场景,还能正确预测物体接下来的运动,真正抓住了环境的核心结构与变化规律。


不仅如此,它还能识别 “违反物理规律” 的怪事。


团队做了个实验,故意制造两种 “扰动场景”,看模型会不会觉得不对劲:


  • 视觉扰动:物体突然变色;


  • 物理扰动:物体直接瞬移到随机位置,违背物理定律。


模型面对“变色”的反应是平平无奇,而面对“物理违规”,惊讶值直接爆表。


LeCun的世界模型单GPU就能跑了


团队背景


一作Lucas Maes,加拿大AI研究院Mila的三年级博士生,导师是Damien Scieur。


目前在布朗大学担任访问研究员,与Randall Balestriero合作研究世界模型。


LeCun的世界模型单GPU就能跑了


其工作重点是通过各种方法改进JEPA ,包括基于梯度的规划、分层时间抽象、目标规范和物理理解。


Quentin Le Lidec,纽约大学柯朗数学研究所的博士后研究员,与Yann LeCun合作研究机器人世界模型。


目前的研究重点是利用人工智能解决物理世界中的问题,曾为Pinocchio、 Simple和stable-worldmodel等开源项目做出贡献。


LeCun的世界模型单GPU就能跑了


Damien Scieur,现任三星研究员,曾任普林斯顿大学博士后,主要方向是优化算法。


LeCun的世界模型单GPU就能跑了


Randall Balestriero,布朗大学计算机科学助理教授,长期深耕人工智能与深度学习领域。


LeCun的世界模型单GPU就能跑了


2013年起研究可学习信号处理,他参与的技术曾用于NASA火星车火星地震探测。


2021年获莱斯大学博士学位,后进入Meta AI做博士后,师从Yann LeCun。


项目主页:https://le-wm.github.io/

github地址:https://github.com/lucas-maes/le-wm

论文地址:https://arxiv.org/pdf/2603.19312v1


文章来自于“量子位”,作者 “听雨”。

AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
AI代理

【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务,如比较价格、添加购物车、回复各种社交媒体等。

项目地址:https://github.com/browser-use/browser-use


2
智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。

项目地址:https://github.com/Significant-Gravitas/AutoGPT


【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

3
RAG

【开源免费】graphrag是微软推出的RAG项目,与传统的通过 RAG 方法使用向量相似性作为搜索技术不同,GraphRAG是使用知识图谱在推理复杂信息时大幅提高问答性能。

项目地址:https://github.com/microsoft/graphrag

【开源免费】Dify是最早一批实现RAG,Agent,模型管理等一站式AI开发的工具平台,并且项目方一直持续维护。其中在任务编排方面相对领先对手,可以帮助研发实现像字节扣子那样的功能。

项目地址:https://github.com/langgenius/dify


【开源免费】RAGFlow是和Dify类似的开源项目,该项目在大文件解析方面做的更出色,拓展编排方面相对弱一些。

项目地址:https://github.com/infiniflow/ragflow/tree/main


【开源免费】phidata是一个可以实现将数据转化成向量存储,并通过AI实现RAG功能的项目

项目地址:https://github.com/phidatahq/phidata


【开源免费】TaskingAI 是一个提供RAG,Agent,大模型管理等AI项目开发的工具平台,比LangChain更强大的中间件AI平台工具。

项目地址:https://github.com/TaskingAI/TaskingAI