李飞飞站队LeCun，AGI全是炒作！80分钟重磅爆料出炉

9143点击 2025-11-17 16:39

世界模型，着实有点火！今天，李飞飞重磅访谈放出，从AI革命兴起到下一个智能前沿——具备空间智能的世界模型。一场访谈，可以窥见AI教母关于AI未来的深刻洞察。

二十年前，李飞飞主导创建的ImageNet，像一束火种，彻底点燃了深度学习的革命。

如今，AI热潮席卷全球，她坚信「世界模型」才是未来十年AI的下一个前沿。

就在今天，李飞飞在Lenny Rachitsky的新一期播客中，回顾了AI从寒冬如何走到了今天这一步。

李飞飞站队LeCun，AGI全是炒作！80分钟重磅爆料出炉

有趣的是，她揭秘了鲜为人知的AI发展的秘辛——

大概在九到十年前，自称AI公司的无异于「商业自杀」，因为没有人相信AI真正能用。

谁能想到，现如今每家公司都在争相自称是「AI公司」。

全程1小时20分钟访谈中，李飞飞还谈了自己对AI未来影响人类的看法，以及当前技术能走多远，为何对「世界模型」如此着迷，以及「世界模型」究竟是什么....

李飞飞站队LeCun，AGI全是炒作！80分钟重磅爆料出炉

在这场深度访谈中，李飞飞搭建了一座通往未来的阶梯，让我们得以一窥AI的下一个十年。

· 人工智能没有任何是「人为」的，无论AI现在/将来做什么，都取决于人类自身。

· 大数据+神经网络+GPU构成了现代AI的「黄金三件套」。

· 不仅仅是机器人，人类也是具身智能体，可以从空间智能+世界模型中收益。

· 机器人困境，在于数据。它更像自动驾驶汽车，而不是大语言模型。

· 每个人都在AI未来中扮演重要的角色。

李飞飞站队LeCun，AGI全是炒作！80分钟重磅爆料出炉

ImageNet出世，引爆AI革命

要洞见未来，必先理解过去。

在21世纪初，AI领域正处于漫长的「寒冬」。当时，AI更通常的叫法是「机器学习」。

机器学习的开端，是计算机编程和统计学习的结合。

这场「联姻」让科学家们意识到，仅仅依靠纯规则的程序，是无法让计算机具备强大的认知能力。

2000年，正在加州理工学院攻读博士学位的李飞飞，正式进入了AI这一领域，成为机器学习最早一代的研究者。

那时，她在加州理工上的第一门课，就叫「神经网络」。对此，她表示，「当时还真的是挺痛苦的」。

李飞飞站队LeCun，AGI全是炒作！80分钟重磅爆料出炉

那会儿还正是所谓「AI寒冬」的中间阶段：公众几乎不关注这块儿，资金投入少，不过学界里倒是有各种各样的想法在流动。

这里有两件事，让我的个人科研之路和现代AI的诞生走得特别近。

第一件事，就是「视角选择」，即从「视觉智能」来理解AI。

因为，人类本质上是高度依赖视觉的动物。我们很大一部的智能，其实是建立在视觉、感知、空间理解之上的，而不只是语言本身。

这正是李飞飞博士期间，与学生们锁定的「北极星」问题——物体识别。

另外一件事就是她发现了一大痛点：早年AI研究过于聚焦模型本身，但这些模型根本没有足够的数据来训练。

李飞飞突然意识到，人类学习和生物进化，本质上都是一个「大数据学习」的过程。

· 人类是靠大量的经验在学习；

· 动物也是在不断「体验世界」的过程中进化出来的。

于是，她和学生提出了一个大胆的猜想——要让AI真正「活」起来，一个被严重忽视、却极其关键的要素，就是「大数据」。

于是，2006-2007年，李飞飞和学生们开始了一项在当时看来近乎疯狂的「蛮力」工程——ImageNet。

李飞飞站队LeCun，AGI全是炒作！80分钟重磅爆料出炉

他们从互联网上搜集了1500万张图像，打上横跨22000个类别的精准标签。

之后，ImageNet数据集开源，并启动了年度挑战赛。

2012年，被业界公认为深度学习，也就是现代AI起步的关键时刻。

这一年，来自多伦多大学一组研究者，在Geoffrey Hinton带领下参加了ImageNet挑战赛。

令世界震惊的是，他们仅用2块英伟达GPU+ImageNet数据，训练出首个在大规模视觉任务上表现出色的神经网络——AlexNet。

它没有彻底解决问题，但向「物体识别」迈出了一大步。

李飞飞站队LeCun，AGI全是炒作！80分钟重磅爆料出炉

「大数据+神经网络+GPU」这三样技术，构成了现代AI的「黄金三件套」。

李飞飞称，那时候「AI」和「机器学习」这两个词是交替用的。

大概在2015年中到2016年中，硅谷大厂刻意避谈「AI」一词，他们并不确定，AI会不会是一个负面色彩的词。

一年后，再看到AI拐点之后，很多公司开始把自己定位成「AI公司」。

主持人问道，「我们离AGI大概还有多远？现有的技术路线能否抵达」？

李飞飞认为，在AI和AGI之间并没有清晰的科学界限，AGI更像是一个营销用语，而非严谨的科学术语。

对于AGI并没有统一定义，实现超级智能？还是赚足够的钱养活自己？

当初，李飞飞之所以进入这一领域，便是被一个问题打动：机器能不能像人一样去思考、去做事？

对于她来说，这才是AI的「北极星」目标。不论别人怎么称呼，她自己对「AI」这个名字已经很满意。

李飞飞站队LeCun，AGI全是炒作！80分钟重磅爆料出炉

AI新前沿：世界模型

在创办World Labs之前，李飞飞不止一次，公开宣称空间智能、世界模型的理念。

几天前的一篇万字长文，她直言，AI未来十年下一个前沿就是「空间智能」。

李飞飞站队LeCun，AGI全是炒作！80分钟重磅爆料出炉

李飞飞表示，「人类智能的核心，除了语言，还有空间智能」。

2020年底，GPT-2发布时，公众还未反应过来LLM有多么强大。

但在斯坦福，李飞飞和Percy Liang、Chris Batting等顶尖NLP研究者认为——这项技术会改变一切。

他们甚至成立了全球首个专门研究「基础模型」的研究中心，并发表了学术界第一篇系统性探讨基础性的论文。

因「视觉智能」出身，李飞飞当时就在想，除了语言，AI领域的发展还有很大的空间。

因为人类做成很多事，靠的并不只是语言，而是大量依赖的是自己的空间智能和对世界运作方式的理解。

她举了一个生动的「救火」例子，从侧面印证了，LLM再强也灭不了火、救不了人，设计不了大楼。

与此同时，李飞飞也在做大量的机器人研究。

后来她突然意识到：要把语言之外的那些智能、要把「具身AI」机器人、要把视觉智能全都串在一起，中间那个关键的「枢纽」（linchpin）便是「空间智能」。

从2022年起，李飞飞开始基于在机器人和计算机视觉领域的研究，开始将这一概念系统化。

2024年，她做了一场TED演讲，主题就是「空间智能」和「世界模型」。

李飞飞站队LeCun，AGI全是炒作！80分钟重磅爆料出炉

随后，她又创办了World Labs，world一词就写在了公司名字里，因为她相信「世界模型」和「空间智能」的重要性。

那么什么是世界模型？

用李飞飞的话来说，当你输入一张图或一句话，就能生成一个无限探索的3D世界。

它是一个「基础层」，人们可以在这个基础之上进行推理、进行交互，也可以用它来创造各种世界。

除了机器人，她还认为，「人类本身也是具身的智能体」，能力可以被AI大幅增强。

人类作为具身智能体，其实同样可以从世界模型和空间智能模型中获益匪浅，而不仅仅是机器人。

李飞飞举例道，仅凭Rosalind Franklin拍摄的2D X射线衍射照片，James Watson和Francis Crick在脑海中构建3D模型，发现了DNA双螺旋结构。

也就是说，没有「空间智能」，就没有这个发现。

世界模型Marble开放，制作时间缩短40倍

截至目前，Marble这个平台，就是李飞飞「世界模型」的集大成者。

在行业应用中，Marble深入了各个领域，其中包括电影与虚拟制片、游戏与互动内容、机器人模拟与训练等等。

李飞飞站队LeCun，AGI全是炒作！80分钟重磅爆料出炉

入口：https://marble.worldlabs.ai/

电影拍摄中，大量场景是虚拟的，需要先在电脑里搭一个3D世界。然而，传统的美术团队手工建模、摆灯光、调摄像机位，耗时又耗钱。

有了Marble，导演用几句描述，就生成一个可导航的世界。

不仅如此，虚拟摄像机可以自由走位，场景可以反复修改、扩展。

李飞飞提到，艺术家团队以及导演们称，「这让他们的制作时间缩短了40倍」。

在游戏与互动内容领域，开发者可以把Marble生成的世界导出到游戏引擎里，用作关卡原型、场景底稿，再在上面加逻辑、玩法、角色。

这让小团队也有机会做「大片级场景」，而不是被美术资源卡死。

当然，最重要的还是机器人模拟与训练。机器人要在现实世界工作，训练数据是个超级难题。

机器人是「物理系统」

苦涩的教训还需升级

苦涩的教训，为何在机器人身上行不通？

图灵奖得主Richard Sutton曾在Bitter Lesson一文中得出一个结论——

「更简单的模型+海量数据」会打败「更复杂的模型+少量数据」。

对于李飞飞来说，这不是苦涩，而是「甜蜜的教训」。

这也是我为什么要做ImageNet，因为我一直相信「大数据」在里面起着非常关键的作用。

她一针见血地指出，机器人的困境，始于数据。

一方面，在现实中，机器人数据极难搞到。

语言模型的数据，是现成的文本，输入也是文本，输出也是文本。

而机器人则不同，它要输出的是「动作」，在真实三维世界中运动、抓取、接触。

而人类大部分训练数据，只有视频，没有真实动作轨迹。由此，研究者需要通过远程遥操作、合成、模拟环境……等来收集数据。

另一方面，机器人是一个「物理系统」。它更像自动驾驶汽车，而不是大语言模型。

这意味着，要让机器人真正工作起来，不仅需要「脑子」（算法和模型），还需要「身体」（硬件本体），还需要合适的应用场景。

回顾自动驾驶汽车发展的历史，从2005年DARPA挑战赛到今天的Waymo，近20年过去了，还未完全搞定「不撞任何东西」的目标。

李飞飞称，「而自动驾驶汽车，其实还是一种相对简单的机器人」。

它本质上就是一个在2D路面上跑的金属盒子，它的目标「不要碰到任何东西」。

但机器人需要在3D世界里跑来跑去，目标恰恰是「要去触碰各种东西」。

所以，这条路肯定会很长，也会有很多不同的维度、不同的挑战，需要一起被一点一点解决。

她的态度不是「惨痛教训不成立」，而是机器人领域研究尚处早期阶段，数据问题、硬件问题、应用场景问题太多。

「多数据+大模型」一定很重要，但我们还远没到能「这条路必胜」的阶段。

在数据方面，研究者通过Marble用提示词生成各种房间、工厂、厨房、仓库场景，让机器人先在虚拟世界练习。

这正好呼应了李飞飞一开始的信念：

智能是大数据学来的，关键是如何给机器人足够多、足够多样的「世界经验」。

从研究者到创始人

开创「人生新战场」

在回顾自己一路的选择，李飞飞总结自己的判断标准，其实很朴素——

· 从普林斯顿拿到终身教职轨道，仍然决心去斯坦福

· 在学界风生水起，跑去谷歌云当首席科学家

· 回斯坦福之后，又拉起HAI，做跨学科、政策、社会影响

· 在大模型浪潮和世界模型机会出现时，又选择创业World Labs

李飞飞的个人经历，可以为AI行业里挑机会的年轻人提供一些借鉴。

好奇心和热情先行

不先问「哪里赚钱最多」，而是先问，「哪里的问题最让我睡不着觉？」

对「失败可能性」不过度放大

她当然知道创业有很多风险，但不会让这些风险压倒「使命感」。

非常看重人和团队

无论是去 SAIL、谷歌云，还是创立 World Labs，

她关注的都是：我会和谁一起做事？这群人是不是值得一起冲？

除了创业，李飞飞依然在推动另一个「慢而重要」的工程：斯坦福HAI（以人为本人工智能研究院）。

在AI这件事上，每个人都有角色。她说自己走到哪里，都会被问这些问题：

我是音乐家，AI会不会取代我？我是中学老师，AI会不会让我的工作没价值？

我是护士，AI会不会让我失业？我是农民，我还有什么角色？

而李飞飞回答非常坚定，是的，你在AI的未来里扮演着自己的角色。而且这个角色极其重要。

参考资料：

https://x.com/lennysan/status/1990121400578052423?s=20

文章来自于“新智元”，作者 “桃子好困”。

关键词: AI新闻 , 李飞飞 , 世界模型 , 人工智能

AITNT资源拓展

根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考

AI代理

【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务，如比较价格、添加购物车、回复各种社交媒体等。
项目地址：https://github.com/browser-use/browser-use

AI数据分析

【开源免费】DeepBI是一款AI原生的数据分析平台。DeepBI充分利用大语言模型的能力来探索、查询、可视化和共享来自任何数据源的数据。用户可以使用DeepBI洞察数据并做出数据驱动的决策。
项目地址：https://github.com/DeepInsight-AI/DeepBI?tab=readme-ov-file
本地安装：https://www.deepbi.com/
【开源免费】airda(Air Data Agent)是面向数据分析的AI智能体，能够理解数据开发和数据分析需求、根据用户需要让数据可视化。
项目地址：https://github.com/hitsz-ids/airda

智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的（AI Agents）项目。用户创建的智能体能够自动执行各种任务，从而让AI有步骤的去解决实际问题。
项目地址：https://github.com/Significant-Gravitas/AutoGPT

﻿【开源免费】MetaGPT是一个“软件开发公司”的智能体项目，只需要输入一句话的老板需求，MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色，包括产品经理 / 架构师 / 项目经理 / 工程师，MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址：https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法，编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词，进而高质量的帮助用户通过AI解决问题。
项目地址：https://github.com/langgptai/LangGPT/blob/main/README_zh.md
在线使用：https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0