空间智能,是AI的下一个前沿。
刚刚,AI教母李飞飞发表长文,首次系统性地解释了什么空间智能、为什么重要以及如何构建能够解锁它的世界模型。

文章里,李飞飞不仅提出了“真正具有空间智能的世界模型”必须具备的三个核心能力:
而且,还分享了World Labs在新一代任务函数、数据、模型架构与学习表示上面的进展,以及世界模型在创造力、机器人,甚至科学、医疗和教育等领域的潜力。
一经发出,点赞者众,疯传者广,都成热文热搜趋势了——
将空间智能融入世界模型(LWMs)有望推动大语言模型(LLMs)实现下一次质的飞跃。

一旦因果推理能力和能效达到相应水平,我们就将站在通往通用人工智能的拐点上。

好了,不多说了。接下来,我们一起看看李飞飞这篇从文字到世界(from words to worlds)的宣言吧。
以下是全文:

1950年,当计算机还只是自动化算术和简单逻辑时,艾伦·图灵提出了一个至今仍回荡的问题:机器能思考吗?
他能看到别人尚未看到的未来,需要非凡的想象力——那就是:智能或许有一天可以被“构建”,而非“诞生”。
这一洞见催生了一场持续至今的科学征程——人工智能(AI)。在我投身AI研究的25年中,图灵的愿景依然不断启发着我。但我们距离那一愿景有多近?答案并不简单。
今天,以大语言模型(LLM)为代表的前沿AI技术,已经开始改变人类获取与处理抽象知识的方式。 然而,它们仍然是“黑暗中的文字匠”:能言善辩,却无经验;知识丰富,却缺乏根基。
空间智能(spatial intelligence)将改变我们创造和交互现实与虚拟世界的方式——彻底革新叙事、创造力、机器人学、科学发现,以及更多领域。这,正是AI的下一个前沿。
自我进入这一领域以来,对视觉与空间智能的探索就一直是我的“北极星”。这也是我为何花费多年时间构建了 ImageNet——首个大规模视觉学习与评测数据集。
它与神经网络算法、现代算力(如GPU)一道,成为孕育现代AI的三大关键要素。也是为何我的斯坦福实验室在过去十年中,将计算机视觉与机器人学习相结合。
同样,这也是我与联合创始人Justin Johnson、Christoph Lassner、Ben Mildenhall一年前共同创建 World Labs的原因:为了第一次真正实现这一可能性。
在这篇文章中,我将解释什么是空间智能、为什么它重要、以及我们如何构建能够解锁它的“世界模型(world models)”——这种技术将深刻重塑创造力、具身智能与人类进步。
AI从未像今天这样令人振奋。以生成式AI为代表的模型,如LLM,已从研究室走向日常生活,成为数十亿人创作、生产与交流的工具。
它们展示了曾被认为不可能的能力:生成连贯的文本、成山的代码、逼真的图像,甚至短视频。 AI是否会改变世界?——从任何合理的定义来看,它已经做到了。
然而,仍有大量潜能未被触及。自动化机器人的愿景依然诱人却遥远;在疾病治疗、新材料发现、粒子物理等领域的研究加速梦仍未实现;
真正能够理解并赋能人类创作者的AI,无论是学习复杂分子化学概念的学生、构想空间的建筑师、构建世界的电影人,还是任何希望沉浸于虚拟体验中的人都仍未到来。
要理解为何这些能力依旧难以实现,我们需要回溯:空间智能是如何演化的?它又如何塑造了我们理解世界的方式?
视觉长期以来是人类智能的基石,但它的力量源自更为根本的东西。早在动物能筑巢、抚育后代、用语言交流或建立文明之前,那看似简单的“感知行为”:感受到一缕光、触到一种质感就已经悄然点燃了通向智能的进化旅程。
这种从外部世界汲取信息的能力,在感知与生存之间搭建起一座桥梁,而这一桥梁在漫长的进化中变得愈发复杂。
神经元层层叠加,形成能解释世界、协调生物与环境互动的神经系统。因此,许多科学家认为,“感知—行动”循环成为了智能进化的核心机制,也是自然孕育出我们这个物种的根基——一个能感知、学习、思考与行动的终极存在。
空间智能在我们与物理世界的互动中扮演着基础性的角色。每天,我们都在依赖它完成最平常的动作。
停车时想象车尾与路缘的距离;接住被抛来的钥匙;在人群中穿行而不碰撞;半睡半醒间准确地将咖啡倒进杯中。
在极端情况下,消防员穿行于坍塌建筑与浓烟之中,瞬间判断稳定性与生死抉择,通过肢体语言和本能默契沟通——这些都无可言传。而婴儿则在学会语言前的漫长时光里,通过玩耍与环境互动来认识世界。
这一切都在直觉中、自然而然地发生——一种机器至今未能获得的流畅能力。
空间智能同样是我们想象力与创造力的基石。讲故事的人在脑中构建出丰富的世界,并用各种视觉媒介将之传达给他人。
从原始洞穴壁画,到现代电影,再到沉浸式电子游戏。无论是孩子在沙滩上筑城堡,还是在电脑上玩《我的世界》,这种以空间为根基的想象构成了人与虚拟世界交互体验的基础。而在工业应用中,对物体、场景与动态交互环境的模拟则支撑着从工业设计、数字孪生到机器人训练等无数关键场景。
历史上那些塑造文明的关键时刻中,空间智能往往扮演着核心角色。
在古希腊,埃拉托色尼(Eratosthenes)通过对阴影的几何化思考完成了惊人的壮举——他在亚历山大测得太阳影子形成的7度角,并与赛恩(Syene)“正午无影”的现象进行对比,从而计算出了地球的周长。
哈格里夫斯(Hargreaves)发明的“珍妮纺纱机”同样源于空间洞察:他意识到只需将多个纺锤并列安装在一个机架上,一个工人就能同时纺出多股线,生产效率因此提高了八倍。
沃森(Watson)与克里克(Crick)揭示DNA结构的突破,也依赖于他们亲手搭建的三维分子模型——他们用金属板与铁丝不断调整、拼接,直到碱基对的空间排布完美契合。
在这些案例中,空间智能都推动了文明的进步——当科学家与发明家需要操纵物体、想象结构、在物理空间中推理时,这些能力是纯文字永远无法承载的。
空间智能(Spatial Intelligence)是支撑人类认知的脚手架。
无论是被动观察,还是主动创造,它都在默默发挥作用。
它驱动我们的推理与规划,即便是在最抽象的主题上。它同样塑造了我们与世界互动的方式——无论是语言交流,还是身体行动,无论是与他人,还是与环境本身。
虽然我们大多数人并不会每天像埃拉托色尼那样发现新的真理,但我们几乎时时刻刻都以同样的方式在思考通过感官去理解这个复杂世界,并依托对物理与空间规律的直觉认知,使其变得可理解。
遗憾的是,当今的AI还无法以这样的方式思考。
过去几年确实取得了巨大进步。多模态大语言模型(MLLMs),在文本之外又引入了大量多媒体数据进行训练,初步具备了空间感知能力:
它们可以分析图像、回答与之相关的问题,甚至生成超写实的图像与短视频。与此同时,借助传感器与触觉技术的突破,最先进的机器人已经能在严格受限的环境中开始操控物体与工具。
然而,坦率地说,AI的空间能力依然远未接近人类水平。其局限也显而易见:最先进的MLLM在估计距离、方向、大小等任务上,表现往往不比随机猜测好多少;它们无法“心智旋转”物体——即从新角度再现同一对象的形状;不会在迷宫中导航、识别捷径,或预测基本的物理规律;生成的视频虽然新奇炫目,却常在几秒钟后失去连贯性。
如今的顶级AI擅长阅读、写作、检索与模式识别,但当涉及对物理世界的表征或交互时,却存在根本性局限。
我们人类理解世界的方式是整体性的:不仅仅看到“眼前的东西”,还理解它们在空间上的关系、在语义上的意义、以及在现实中的重要性。
而这种通过想象、推理、创造与交互来理解世界的能力,正是空间智能的力量。
缺乏它,AI就与它所试图理解的物理现实脱节。它将无法真正安全地驾驶汽车、无法在家庭与医院中引导机器人、无法创造全新的沉浸式学习与娱乐体验、也无法加速材料科学与医学的发现。
哲学家维特根斯坦曾写道:“语言的边界就是我世界的边界”。我不是哲学家,但我知道,对AI而言,世界不止于语言。空间智能代表着超越语言的前沿。
它连接想象、感知与行动,为机器真正提升人类生活打开了新的可能:从医疗到创造力,从科学发现到日常辅助。
那么,我们该如何打造拥有空间智能的AI?
如何让模型具备:像埃拉托色尼那样的空间推理能力,像工业设计师那样的工程精度,像讲故事的人那样的创造性想象力,以及像应急救援人员那样与环境流畅互动的能力?
要实现这样的AI,我们需要比LLM更具雄心的体系:世界模型(World Models)。
这是一种全新的生成式模型,其在理解、推理、生成与交互方面的能力,将超越当今LLM所能触及的极限。它能够在语义、物理、几何与动态层面上,理解并生成复杂的虚拟或真实世界。
这一领域尚处于萌芽阶段,现有方法从抽象推理模型到视频生成系统不等。
World Labs成立于2024年初,正是基于这样一种信念:基础性方法仍在形成之中,而这将成为未来十年人工智能的决定性挑战。
在这个新兴领域中,最重要的是确立指导发展方向的核心原则。对于空间智能而言,我将“世界模型”定义为具备以下三项核心能力的系统:
1、生成性(Generative):世界模型能够生成具有感知、几何与物理一致性的世界
要实现空间理解与推理,世界模型必须能够生成自身的模拟世界。
它应能在语义或感知指令的引导下,生成无限多样、变化丰富的虚拟世界,同时保持几何、物理与动态上的一致性,无论这些世界是现实的还是虚拟的。
研究界目前正在探索,这些世界应当以隐式(implicit)还是显式(explicit)的几何结构形式表示。
除了强大的潜在表征(latent representations)之外,我认为通用世界模型的输出还应当允许生成显式、可观测的世界状态,以便适应不同的应用场景。尤其重要的是,模型对当下世界的理解必须与其过去的状态保持连贯一致——理解当前,就是理解它是如何演化而来的。
2、多模态(Multimodal):世界模型在设计上就是多模态的
正如人类与动物一样,世界模型应能处理多种形式的输入。在生成式AI领域中,这些输入被称为“提示词(prompts)”。
面对不完整的信息——无论是图像、视频、深度图、文本指令、手势还是动作,世界模型都应能预测或生成尽可能完整的世界状态。
这要求模型既要以真实视觉的精度处理图像输入,又能以同样的灵活性理解语义性指令。
如此一来,无论是智能体还是人类,都能通过多样的输入形式与模型就“世界”进行交流, 并以多样的方式接收输出。
3、交互性(Interactive):世界模型能根据输入动作输出下一个状态
最后,当动作(actions)和/或目标(goals)作为输入提示的一部分时,世界模型的输出必须包含世界的下一个状态。
这一状态可以是隐式的,也可以是显式的。当输入仅包含一个动作(有无目标皆可)时,世界模型应能生成与世界先前状态、预期目标状态(如有)、以及其语义意义、物理规律、动态行为相一致的输出。
随着空间智能世界模型在推理与生成能力上不断增强,我们可以想象,未来模型不仅能预测世界的下一个状态,还将能够基于该状态预测下一步行动。
这一挑战的规模,超越了AI以往所面临的一切。
语言是人类认知中纯粹生成的现象,而“世界”遵循的规则则复杂得多。
在地球上,例如:重力决定运动,原子结构决定光的颜色与亮度,无数物理定律约束着一切交互。
即使是最奇幻、最具创造性的世界,也由遵守物理与动态规律的空间对象与智能体构成。
要在模型中一致地协调这些——语义、几何、动力学与物理层面——需要全新的方法论。因为“世界”的维度远比语言这种一维的序列信号复杂得多。
要实现像人类一样具备普适空间智能的世界模型,必须跨越若干巨大的技术壁垒。
在World Labs,我们的研究团队正致力于这一目标的基础性突破。
以下是我们当前研究的几个方向示例:
显然,在完全释放空间智能的潜力之前,我们仍面临艰巨的挑战。但这项研究不仅仅是理论工作,它正成为新一代创造性与生产力工具的核心引擎。
在World Labs的进展令人鼓舞。我们最近向部分用户展示了Marble的早期版本——全球首个可通过多模态输入生成并保持一致性3D环境的世界模型,让用户与创作者能够探索、交互并在其中继续构建他们的创意世界。我们正全力以赴,努力尽快将其向公众开放。
Marble只是我们的第一步。随着研究的加速,科研人员、工程师、用户与商业领袖们都开始意识到这一方向的巨大潜能。下一代世界模型将使机器在空间智能上达到全新的层次,这将开启AI迄今仍普遍缺乏的核心能力,并真正让人工智能进入理解与创造世界的时代。
人工智能的发展动机至关重要。作为推动现代AI时代到来的科学家之一,我的动机始终十分明确:AI应当增强人类的能力,而非取而代之。
多年来,我一直致力于让AI的开发、部署与治理与人类需求保持一致。
当下关于“技术乌托邦”与“世界末日”的极端叙事比比皆是,但我依然持一种更务实的立场:AI是由人开发、被人使用、并由人治理的。
它必须始终尊重人的自主性与尊严。它的“魔力”在于拓展我们的能力,让我们变得更具创造力、更紧密相连、更高效并更有成就感。
空间智能正体现了这一愿景——一种能赋能人类创造者、照护者、科学家与梦想家的AI,使他们实现曾经不可能的目标。这一信念,正是我将空间智能视为AI下一个伟大前沿领域的根本原因。
空间智能的应用横跨不同的时间尺度。创作工具正在当下出现——World Labs的 Marble 已经让创作者与讲故事的人能够亲手掌握这种能力。
机器人领域则代表着中期的雄心目标,我们正致力于完善感知与行动之间的闭环。而最具变革意义的科学应用可能需要更长时间,但它们将深刻地促进人类的福祉。
在所有时间线中,有几个领域的潜力尤其突出,足以重塑人类的能力。要实现这些潜力,需要集体努力远超任何一个团队或公司的能力范围。
它需要整个AI生态系统的参与:研究者、创新者、创业者、企业家,乃至政策制定者,共同朝着一个愿景努力。而这个愿景,值得我们追求。以下是未来的图景:
“创意,是智慧的乐趣。”这是我最喜欢的爱因斯坦名言之一。
在人类发明文字之前,我们就会讲故事——把故事画在洞穴壁上,代代相传,并以共享的叙事建立文化。故事是人类理解世界、跨越时空连接彼此、探索“人之为人”的方式,也是我们在生活与爱中寻找意义的途径。
今天,空间智能有潜力彻底变革我们创作与体验叙事的方式,从娱乐到教育,从设计到建造,赋予它们更深远的影响力。
World Labs的Marble平台 将前所未有的空间表达能力与编辑控制权交到电影人、游戏设计师、建筑师及各类讲述者手中,让他们无需传统3D设计软件的繁复流程,就能快速创造、迭代、探索完整的三维世界。创造的行为依然是人类的核心活动——AI只是放大并加速创意实现的过程。这包括:
从昆虫到人类,动物都依赖空间智能来理解、导航并与世界交互。机器人也不会例外。
自该领域诞生以来,“具备空间感知的机器”就是人类的梦想,包括我在斯坦福研究实验室与学生、合作者共同进行的研究。正因如此,我对用 World Labs 构建的模型实现这一愿景感到异常兴奋。
除了创造性与机器人应用外,“空间智能”的深远影响还将延伸至更多能够增强人类能力、拯救生命、加速发现的领域。以下我将重点介绍三个具有深刻变
革潜力的方向。当然,空间智能的应用远不止于此,它的影响范围几乎遍及所有行业。
在科学研究中,具备空间智能的系统可以模拟实验、并行验证假设,并探索人类无法亲临的环境——从深海到遥远的行星。这项技术有望彻底变革气候科学、材料研究等领域的计算建模方式。通过将多维度模拟与真实世界数据采集相结合,这些工具能显著降低计算壁垒,拓展每一个实验室可观察与理解的边界。
在医疗领域,空间智能将重塑从实验室到病床的全过程。在斯坦福,我与学生及合作者多年来一直与医院、养老机构以及居家患者合作。这些经验让我深信空间智能在医疗领域的变革潜力。AI可以通过多维建模加速药物研发,通过辅助放射科医生识别影像中的模式来提升诊断质量;它还可支持环境感知式监护系统,在不取代人类关怀的前提下,为患者与护理人员提供持续支持。更不用说机器人在不同场景中帮助医护人员和患者的巨大潜力。
在教育领域,空间智能能够实现沉浸式学习,让抽象或复杂的概念变得可感知,并创造出符合人类大脑与身体学习方式的迭代体验。在AI时代,更快速、更高效的学习与技能重塑对于儿童与成人都至关重要。学生可以以多维方式探索细胞机器或“亲历”历史事件;教师可借助互动环境进行个性化教学;而外科医生、工程师等专业人士则能在高度逼真的仿真环境中安全地练习复杂技能。
跨越这些领域,可能性是无限的,但目标始终如一:让AI成为增强人类专长、加速人类发现、放大人类关怀的力量——而不是取代那份属于人的判断力、创造力与共情力。
过去十年间,人工智能已成为全球现象,在科技、经济乃至地缘政治层面都带来了转折。
然而,作为一名研究者、教育者和创业者,最令我振奋的仍是图灵七十五年前那道问题背后的精神。我依然与他共享那份好奇与惊叹——正是这份好奇,让我每天都为探索空间智能的挑战而充满动力。
人类历史上第一次,我们正站在这样一个时刻:有望构建出与物理世界高度契合的机器,让它们成为我们应对重大挑战的真正伙伴。
无论是加速疾病研究、革新故事叙述方式,还是在病痛、受伤或衰老的脆弱时刻给予支持,我们都正处于一场技术变革的门槛上,它将提升我们最珍视的生命价值。
这是一个关于更深刻、更丰富、更有力量的生活的愿景。
距自然在原始动物中首次显现空间智能的曙光已近五亿年,而我们有幸成为这一代技术创造者——可能即将赋予机器同样能力的人类,也有幸能将此能力用于全人类的福祉。
若没有空间智能,我们关于“真正智能机器”的梦想将永远不完整。
这场探索,是我的“北极星”。邀请你一同追寻它。
原文链接:https://drfeifei.substack.com/p/from-words-to-worlds-spatial-intelligence
文章来自于微信公众号 “量子位”,作者 “量子位”
【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务,如比较价格、添加购物车、回复各种社交媒体等。
项目地址:https://github.com/browser-use/browser-use
【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。
项目地址:https://github.com/Significant-Gravitas/AutoGPT
【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md
【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。
项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md
在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0