李飞飞站队LeCun,AGI全是炒作!80分钟重磅爆料出炉

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
李飞飞站队LeCun,AGI全是炒作!80分钟重磅爆料出炉
9143点击    2025-11-17 16:39

世界模型,着实有点火!今天,李飞飞重磅访谈放出,从AI革命兴起到下一个智能前沿——具备空间智能的世界模型。一场访谈,可以窥见AI教母关于AI未来的深刻洞察。


二十年前,李飞飞主导创建的ImageNet,像一束火种,彻底点燃了深度学习的革命。


如今,AI热潮席卷全球,她坚信「世界模型」才是未来十年AI的下一个前沿。


就在今天,李飞飞在Lenny Rachitsky的新一期播客中,回顾了AI从寒冬如何走到了今天这一步。


李飞飞站队LeCun,AGI全是炒作!80分钟重磅爆料出炉


有趣的是,她揭秘了鲜为人知的AI发展的秘辛——


大概在九到十年前,自称AI公司的无异于「商业自杀」,因为没有人相信AI真正能用。 


谁能想到,现如今每家公司都在争相自称是「AI公司」。


全程1小时20分钟访谈中,李飞飞还谈了自己对AI未来影响人类的看法,以及当前技术能走多远,为何对「世界模型」如此着迷,以及「世界模型」究竟是什么....


李飞飞站队LeCun,AGI全是炒作!80分钟重磅爆料出炉

在这场深度访谈中,李飞飞搭建了一座通往未来的阶梯,让我们得以一窥AI的下一个十年。


· 人工智能没有任何是「人为」的,无论AI现在/将来做什么,都取决于人类自身。 


· 大数据+神经网络+GPU构成了现代AI的「黄金三件套」。 


· 不仅仅是机器人,人类也是具身智能体,可以从空间智能+世界模型中收益。 


· 机器人困境,在于数据。它更像自动驾驶汽车,而不是大语言模型。 


· 每个人都在AI未来中扮演重要的角色。


李飞飞站队LeCun,AGI全是炒作!80分钟重磅爆料出炉


ImageNet出世,引爆AI革命


要洞见未来,必先理解过去。


在21世纪初,AI领域正处于漫长的「寒冬」。当时,AI更通常的叫法是「机器学习」。


机器学习的开端,是计算机编程和统计学习的结合。


这场「联姻」让科学家们意识到,仅仅依靠纯规则的程序,是无法让计算机具备强大的认知能力。


2000年,正在加州理工学院攻读博士学位的李飞飞,正式进入了AI这一领域,成为机器学习最早一代的研究者。


那时,她在加州理工上的第一门课,就叫「神经网络」。对此,她表示,「当时还真的是挺痛苦的」。


李飞飞站队LeCun,AGI全是炒作!80分钟重磅爆料出炉


那会儿还正是所谓「AI寒冬」的中间阶段:公众几乎不关注这块儿,资金投入少,不过学界里倒是有各种各样的想法在流动。


这里有两件事,让我的个人科研之路和现代AI的诞生走得特别近。


第一件事,就是「视角选择」,即从「视觉智能」来理解AI。


因为,人类本质上是高度依赖视觉的动物。我们很大一部的智能,其实是建立在视觉、感知、空间理解之上的,而不只是语言本身。


这正是李飞飞博士期间,与学生们锁定的「北极星」问题——物体识别。


另外一件事就是她发现了一大痛点:早年AI研究过于聚焦模型本身,但这些模型根本没有足够的数据来训练。


李飞飞突然意识到,人类学习和生物进化,本质上都是一个「大数据学习」的过程。


· 人类是靠大量的经验在学习; 


· 动物也是在不断「体验世界」的过程中进化出来的。


于是,她和学生提出了一个大胆的猜想——要让AI真正「活」起来,一个被严重忽视、却极其关键的要素,就是「大数据」。


于是,2006-2007年,李飞飞和学生们开始了一项在当时看来近乎疯狂的「蛮力」工程——ImageNet。


李飞飞站队LeCun,AGI全是炒作!80分钟重磅爆料出炉


他们从互联网上搜集了1500万张图像,打上横跨22000个类别的精准标签。


之后,ImageNet数据集开源,并启动了年度挑战赛。


2012年,被业界公认为深度学习,也就是现代AI起步的关键时刻。


这一年,来自多伦多大学一组研究者,在Geoffrey Hinton带领下参加了ImageNet挑战赛。


令世界震惊的是,他们仅用2块英伟达GPU+ImageNet数据,训练出首个在大规模视觉任务上表现出色的神经网络——AlexNet。


它没有彻底解决问题,但向「物体识别」迈出了一大步。


李飞飞站队LeCun,AGI全是炒作!80分钟重磅爆料出炉


「大数据+神经网络+GPU」这三样技术,构成了现代AI的「黄金三件套」。


李飞飞称,那时候「AI」和「机器学习」这两个词是交替用的。


大概在2015年中到2016年中,硅谷大厂刻意避谈「AI」一词,他们并不确定,AI会不会是一个负面色彩的词。


一年后,再看到AI拐点之后,很多公司开始把自己定位成「AI公司」。


主持人问道,「我们离AGI大概还有多远?现有的技术路线能否抵达」?


李飞飞认为,在AI和AGI之间并没有清晰的科学界限,AGI更像是一个营销用语,而非严谨的科学术语。


对于AGI并没有统一定义,实现超级智能?还是赚足够的钱养活自己?


当初,李飞飞之所以进入这一领域,便是被一个问题打动:机器能不能像人一样去思考、去做事?


对于她来说,这才是AI的「北极星」目标。不论别人怎么称呼,她自己对「AI」这个名字已经很满意。


李飞飞站队LeCun,AGI全是炒作!80分钟重磅爆料出炉


AI新前沿:世界模型


在创办World Labs之前,李飞飞不止一次,公开宣称空间智能、世界模型的理念。


几天前的一篇万字长文,她直言,AI未来十年下一个前沿就是「空间智能」。


李飞飞站队LeCun,AGI全是炒作!80分钟重磅爆料出炉


李飞飞表示,「人类智能的核心,除了语言,还有空间智能」。


2020年底,GPT-2发布时,公众还未反应过来LLM有多么强大。


但在斯坦福,李飞飞和Percy Liang、Chris Batting等顶尖NLP研究者认为——这项技术会改变一切。


他们甚至成立了全球首个专门研究「基础模型」的研究中心,并发表了学术界第一篇系统性探讨基础性的论文。


因「视觉智能」出身,李飞飞当时就在想,除了语言,AI领域的发展还有很大的空间。


因为人类做成很多事,靠的并不只是语言,而是大量依赖的是自己的空间智能和对世界运作方式的理解。


她举了一个生动的「救火」例子,从侧面印证了,LLM再强也灭不了火、救不了人,设计不了大楼。


与此同时,李飞飞也在做大量的机器人研究。


后来她突然意识到:要把语言之外的那些智能、要把「具身AI」机器人、要把视觉智能全都串在一起,中间那个关键的「枢纽」(linchpin)便是「空间智能」。


从2022年起,李飞飞开始基于在机器人和计算机视觉领域的研究,开始将这一概念系统化。


2024年,她做了一场TED演讲,主题就是「空间智能」和「世界模型」。


李飞飞站队LeCun,AGI全是炒作!80分钟重磅爆料出炉


随后,她又创办了World Labs,world一词就写在了公司名字里,因为她相信「世界模型」和「空间智能」的重要性。


那么什么是世界模型?


用李飞飞的话来说,当你输入一张图或一句话,就能生成一个无限探索的3D世界。


它是一个「基础层」,人们可以在这个基础之上进行推理、进行交互,也可以用它来创造各种世界。


除了机器人,她还认为,「人类本身也是具身的智能体」,能力可以被AI大幅增强。


人类作为具身智能体,其实同样可以从世界模型和空间智能模型中获益匪浅,而不仅仅是机器人。


李飞飞举例道,仅凭Rosalind Franklin拍摄的2D X射线衍射照片,James Watson和Francis Crick在脑海中构建3D模型,发现了DNA双螺旋结构。


也就是说,没有「空间智能」,就没有这个发现。


世界模型Marble开放,制作时间缩短40倍


截至目前,Marble这个平台,就是李飞飞「世界模型」的集大成者。


在行业应用中,Marble深入了各个领域,其中包括电影与虚拟制片、游戏与互动内容、机器人模拟与训练等等。


李飞飞站队LeCun,AGI全是炒作!80分钟重磅爆料出炉

入口:https://marble.worldlabs.ai/


电影拍摄中,大量场景是虚拟的,需要先在电脑里搭一个3D世界。然而,传统的美术团队手工建模、摆灯光、调摄像机位,耗时又耗钱。


有了Marble,导演用几句描述,就生成一个可导航的世界。


不仅如此,虚拟摄像机可以自由走位,场景可以反复修改、扩展。


李飞飞提到,艺术家团队以及导演们称,「这让他们的制作时间缩短了40倍」。


在游戏与互动内容领域,开发者可以把Marble生成的世界导出到游戏引擎里,用作关卡原型、场景底稿,再在上面加逻辑、玩法、角色。


这让小团队也有机会做「大片级场景」,而不是被美术资源卡死。


当然,最重要的还是机器人模拟与训练。机器人要在现实世界工作,训练数据是个超级难题。


机器人是「物理系统」

苦涩的教训还需升级


苦涩的教训,为何在机器人身上行不通?


图灵奖得主Richard Sutton曾在Bitter Lesson一文中得出一个结论——


「更简单的模型+海量数据」会打败「更复杂的模型+少量数据」。


对于李飞飞来说,这不是苦涩,而是「甜蜜的教训」。


这也是我为什么要做ImageNet,因为我一直相信「大数据」在里面起着非常关键的作用。


她一针见血地指出,机器人的困境,始于数据。


一方面,在现实中,机器人数据极难搞到。


语言模型的数据,是现成的文本,输入也是文本,输出也是文本。


而机器人则不同,它要输出的是「动作」,在真实三维世界中运动、抓取、接触。


而人类大部分训练数据,只有视频,没有真实动作轨迹。由此,研究者需要通过远程遥操作、合成、模拟环境……等来收集数据。


另一方面,机器人是一个「物理系统」。它更像自动驾驶汽车,而不是大语言模型。


这意味着,要让机器人真正工作起来,不仅需要「脑子」(算法和模型),还需要「身体」(硬件本体),还需要合适的应用场景。


回顾自动驾驶汽车发展的历史,从2005年DARPA挑战赛到今天的Waymo,近20年过去了,还未完全搞定「不撞任何东西」的目标。


李飞飞称,「而自动驾驶汽车,其实还是一种相对简单的机器人」。


它本质上就是一个在2D路面上跑的金属盒子,它的目标「不要碰到任何东西」。 


但机器人需要在3D世界里跑来跑去,目标恰恰是「要去触碰各种东西」。 


所以,这条路肯定会很长,也会有很多不同的维度、不同的挑战,需要一起被一点一点解决。


她的态度不是「惨痛教训不成立」,而是机器人领域研究尚处早期阶段,数据问题、硬件问题、应用场景问题太多。


「多数据+大模型」一定很重要,但我们还远没到能「这条路必胜」的阶段。


在数据方面,研究者通过Marble用提示词生成各种房间、工厂、厨房、仓库场景,让机器人先在虚拟世界练习。


这正好呼应了李飞飞一开始的信念:


智能是大数据学来的,关键是如何给机器人足够多、足够多样的「世界经验」。


从研究者到创始人

开创「人生新战场」


在回顾自己一路的选择,李飞飞总结自己的判断标准,其实很朴素——


· 从普林斯顿拿到终身教职轨道,仍然决心去斯坦福 


· 在学界风生水起,跑去谷歌云当首席科学家 


· 回斯坦福之后,又拉起HAI,做跨学科、政策、社会影响 


· 在大模型浪潮和世界模型机会出现时,又选择创业World Labs


李飞飞的个人经历,可以为AI行业里挑机会的年轻人提供一些借鉴。


  • 好奇心和热情先行


不先问「哪里赚钱最多」,而是先问,「哪里的问题最让我睡不着觉?」


  • 对「失败可能性」不过度放大


她当然知道创业有很多风险,但不会让这些风险压倒「使命感」。


  • 非常看重人和团队


无论是去 SAIL、谷歌云,还是创立 World Labs,


她关注的都是:我会和谁一起做事?这群人是不是值得一起冲?


除了创业,李飞飞依然在推动另一个「慢而重要」的工程:斯坦福HAI(以人为本人工智能研究院)。


在AI这件事上,每个人都有角色。她说自己走到哪里,都会被问这些问题:


我是音乐家,AI会不会取代我?我是中学老师,AI会不会让我的工作没价值?


我是护士,AI会不会让我失业?我是农民,我还有什么角色?


而李飞飞回答非常坚定,是的,你在AI的未来里扮演着自己的角色。而且这个角色极其重要。


参考资料:

https://x.com/lennysan/status/1990121400578052423?s=20


文章来自于“新智元”,作者 “桃子 好困”。

AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
AI代理

【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务,如比较价格、添加购物车、回复各种社交媒体等。

项目地址:https://github.com/browser-use/browser-use


2
AI数据分析

【开源免费】DeepBI是一款AI原生的数据分析平台。DeepBI充分利用大语言模型的能力来探索、查询、可视化和共享来自任何数据源的数据。用户可以使用DeepBI洞察数据并做出数据驱动的决策。

项目地址:https://github.com/DeepInsight-AI/DeepBI?tab=readme-ov-file

本地安装:https://www.deepbi.com/

【开源免费airda(Air Data Agent)是面向数据分析的AI智能体,能够理解数据开发和数据分析需求、根据用户需要让数据可视化。

项目地址:https://github.com/hitsz-ids/airda

3
智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。

项目地址:https://github.com/Significant-Gravitas/AutoGPT


【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

4
prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。

项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md

在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0