李飞飞等顶尖学者投身的创业方向——世界模型是 AI 的下一站吗?
「AI 是人类自诞生以来,唯一担得起『日新月异』这个词的技术领域,」在机器之心近日举办的 NeurIPS 2025 论文分享会圆桌讨论上,茶思屋科技网站总编张群英的开场感叹引发了在场专家们的共鸣。
这场由黄大年茶思屋总编主持,聚集了中科院自动化所、南京大学、北京通用人工智能研究院、极佳科技等机构专家的大讨论,直指目前 AI 领域最热门的方向——世界模型。最近一段时间,从谷歌 Genie 3 的发布到李飞飞的长文论述,世界模型、空间智能等概念正成为新的焦点。

四十多分钟的对话里,专家们围绕世界模型的定义、数据与架构方向、技术路径分歧,以及商业化前景展开了讨论。在一些议题上,大家的观点一致,不过在很多重要方向上有着明显不同的思考。看得出,面对这个正在快速发展的新兴领域,不论是技术还是评判标准,我们还有很多需要去探索、验证的。
首先,世界模型究竟是什么? 几位嘉宾从不同角度给出了自己的定义。
极佳科技联合创始人、首席科学家朱政认为,世界模型本质上是预测模型:「给定当前状态及动作序列,预测下一个状态。」他指出了世界模型的三大应用前景:为自动驾驶、具身智能等多模态任务提供更多数据、建立模型与世界的结合替代传统模拟器、以及最终成为端到端系统的一部分。
北京通用人工智能研究院具身机器人中心研究科学家贾宝雄则将世界模型理解为对 AI 对于环境状态的预测和判断。「从过去的简单游戏世界,到现在 3A 大作级的虚拟环境,世界模型正在逐渐走向对于高质量的状态的模拟。」
南京大学智能科学与技术学院准聘副教授、国家高层次青年人才范琦则从终极目标角度提出了一个宏大愿景:「世界模型的终极目标就是把世界 1:1 建模,目标可能要到原子级别。」但他也承认这几乎不可能,「我们并不需要如此精细的复刻,只需要依照目的进行建模,不同任务有不同的理想目标。」
如何构建世界模型?
在世界模型的发展中,一个核心悖论是:先有模型还是先有数据?世界模型的应用,经常与自动驾驶、具身智能等领域的合成数据 AI 训练相联系,但我们又该如何训练一个世界模型?
朱政以自动驾驶为例说明了这一困境:「自动驾驶公司积累了上亿公里数据,但 99% 都是晴天道路数据,真正危险的场景采集不到。」他提出了一个可行的路径:先用常见数据训练垂类模型,再生成更多 corner case 数据,通过迭代让世界模型越来越强。
贾宝雄从成本角度进行了思考:「有公司在构建世界模型时,采集数据的成本在千万级,这不是研究团队能够直接能做的事情。但对于不同形式的具身智能来说,数据是至关重要的。」他强调,对于具体的应用方向来说,我们可以通过特定的高质量数据来提升模型效果。
范琦则描绘了一个循环过程:「先有 0.1 的模型,生成 0.1 的数据,再用它来进一步训练模型。」他提出了「生成数据 + 真实数据」的混合模式,通过模型、产品、数据的循环推动发展。
在世界模型的技术实现路径上,专家们展现了明显分歧。
相比于视频内容的生成,贾宝雄的研究团队偏向融入物理信息的方法:「就算它是视觉模型,也要保持物理世界的一致性,比如重力。」
朱政则更加务实:「不论重渲染还是重预测,世界模型的构建很大程度上与需求有关。」如果是面向影视、游戏等方向,视频生成可能是更合适的方向。这可能是李飞飞 World Labs 使用生成 + 重建方式的理由。如果是面向消费者的通用的任务,我们可能不需要保持物理规律,甚至有时候创意是更为重要的,「如果要让一个人飞起来,现实不可能,但符合创作人意图。」
而且,随着生成能力的增强,世界模型对于物理规律的掌握、内容记忆的保持会越来越好,模型的最终形态可能是纯生成的,不需要重建。
范琦对此持不同意见:「终极目标可能是隐式的,但现在可能是显式 + 隐式一起。」他类比了大语言模型的情况,「大模型的记忆能力很不错,但是想要生成一整本书内容还是有很多错误,想要更好的生成(长序列的生成),会面临更多的挑战。所以到数据更加稀缺,更为复杂的世界模型上,想走到完全依赖隐式表征还有很长的路。」
架构之争:扩散 vs 自回归
在关于世界模型主流架构的讨论中,三位嘉宾发表了各自对扩散与自回归架构的看法。
朱政指出,从视觉角度来看,扩散模型更契合世界模型的发展方向。扩散模型从随机噪声中逐步还原图像、视频或音频,其本身就非常接近物理世界的生成方式。另外,从神经科学角度来看,人脑通过神经元从复杂噪声信号中解码世界的机制,与扩散模型通过去噪生成内容的过程类似。基于这两方面考虑,他认为扩散架构更适合世界模型。
贾宝雄观察到了技术融合的趋势,目前包括 OpenAI 在内正探索将不同架构在某些阶段统一起来,比如使用 token 化的扩散。
范琦点出了现在已经有扩散和自回归结合的工作。扩散模型擅长捕捉并建模现实世界的真实分布,但现实世界又是连续变化、具有因果关系的,仅靠扩散难以长期建模,因此还需自回归补足时序与逻辑上的连贯性。他举例说明,「扩散可以预测短时间(比如 2 秒)内的几十帧内容,而更长的连帧通过自回归连接。」总之,「无论黑猫白猫,能抓到老鼠的就是好猫。」
世界模型 ChatGPT 时刻还有多远?
最后,世界模型的「ChatGPT 时刻」何时到来?世界模型是否已经到了爆发前夜?这或许是大家最为关注的两个问题了。
贾宝雄没有直接给出个人判断,而是引用了一些业内人士的说法:世界模型的 ChatGPT 时刻可能需要三年左右出现。范琦强调关键在于数据,目前最困难的是缺乏高质量长视频数据。另外,视频生成时长大多在 5 到 10 秒,大厂的视频 Demo 也只能做到一分钟量级。因此,关于世界模型 ChatGPT 时刻何时到来,他认为时间可能要拉长一些。
在谈到世界模型是否成为新的爆点时,范琦则表示,随着语言模型发展至今,可能需要开拓其他研究方向以进一步推动人工智能进步。世界模型可能是现在以及未来十年新的爆发方向。
朱政回顾了极佳科技成立之初,外界对世界模型还很陌生。如今,随着李飞飞等领域领军人物的频频宣传,世界模型已经成为热点议题。不过,他指出世界模型存在着 ToB 和 ToC 两方面的商业化挑战,如 ToB 端按 token 收费时如何定义视频生成数据对用户的价值,ToC 端如何提升 token 等。
在这些挑战之外,朱政认为未来世界模型可能更需要训练强化学习 Agent 以及如何将 VLA(视觉 - 语言 - 动作)进化为 WLA(世界 - 语言 - 动作)。这些技术与商业难题需要业界与学界一起想办法解决。
写在最后
此次圆桌讨论在主持人的引导下,三位嘉宾围绕世界模型的发展时间表、数据瓶颈、技术架构以及商业化路径各抒己见,在分歧与共识中展现了这一领域的多元性与活力。
整体来看,世界模型正站在聚光灯下,既拥有巨大的发展潜力,也面临数据、算力和技术路线等多重挑战。可以预见,未来围绕模型架构、训练范式及应用场景的探索仍将持续,而这些探索本身也将成为推动世界模型迈向成熟的重要动力。
文章来自于微信公众号 “机器之心”,作者 “机器之心”
【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。
项目地址:https://github.com/Significant-Gravitas/AutoGPT
【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md