AI 已经能看懂图像、生成场景,甚至在虚拟环境中规划行动。
但当一个智能体真正进入空间之后,一个更关键的问题会出现:它看到的只是眼前一角,却必须理解整个世界。
门在身后,杯子被遮挡,沙发只露出一部分,刚才经过的区域已经离开视野。当前画面只能提供局部线索,无法支撑长期、稳定的空间理解与世界建模。
这意味着智能体不能只依赖瞬时观测,而必须在内部形成一个稳定、可更新、可推理的空间表征,来支持后续的推理与生成。
近日,来自中国科学院自动化研究所的研究者联合多所高校发布综述论文《Spatial Intelligence from a Cognitive Map Perspective: A Survey》,以认知地图(Cognitive Map)为核心视角,重新梳理了空间智能研究。论文将传统生物导航中的认知地图概念扩展为空间智能系统中的内部表征蓝图:它连接空间感知、空间推理与空间生成,使许多原本分散的研究方向能够在一个统一的机制框架下被理解与讨论。


图1:认知地图视角下的空间智能统一框架
空间智能相关研究快速发展。空间感知从二维图像识别走向三维场景理解;空间推理从局部关系与属性判断扩展到长时序导航、多视角推断和心理模拟;空间生成也从单个对象生成发展到室内外场景生成与世界状态模拟。
随着任务越来越长程、视角越来越多、环境越来越动态,若系统只处理当前输入,前一刻看到的结构、被遮挡区域、跨房间关系和对象状态变化都会在时间中断裂。
因此,从更底层看,这些看似不同的研究方向实际上正汇聚于一个共同需求:智能体需要一种统一的内部表征机制,负责把局部观察变成可积累的空间记忆,把跨视角线索整合成全局布局,并在后续推理、生成和行动中被反复调用。于是,空间智能的核心问题就可以表述为:系统如何构建、维护、调用并实现这样一张内部空间地图?
认知地图最早来自生物空间认知研究,用于描述生物体在环境中形成的内部表征。论文将这个概念扩展为现代空间智能系统中支撑感知、推理与生成的统一内部空间表征。具体来说,认知地图由智能体从局部、碎片化的观察中逐步构建,用于整合环境中的空间结构、对象关系与动态变化。基于这一内部表征,智能体可以开展推理与规划,并进一步将其转化为外部场景、模拟结果或交互行为,从而支撑感知、推理与生成之间的统一建模。
为了让这一概念更加可操作,论文提出认知地图应同时具有三种性质:抽象性、全局性和持久性。

图 2:认知地图的三种核心性质:抽象性、全局性与持久性。
这三种性质共同回答了 “认知地图为什么能够支撑空间智能” 这一问题。只有当一种表征同时具备抽象性、全局性和持久性时,它才能超越单纯描述空间的层面,真正支撑空间智能的发展。
更重要的是,从这一视角来看,认知地图的价值在于明确了空间智能系统的基本运作模式:该系统首先需将原始观测数据抽象为结构化表征,随后整合分布在不同时间维度和视角下的局部线索,形成全局连贯的空间布局,并持续维护这一表征以支持交互过程中的反复查询、更新与验证。
在这一框架下,空间感知、推理与生成可以看作围绕认知地图展开的三个连续过程:
感知阶段从原始传感输入中构建内部空间表征;推理阶段读取、操作并利用这一表征进行空间推断和决策;生成阶段则将内部表征外化为可见场景、三维环境或动态模拟结果。三者共同构成了空间信息在外部环境与内部系统中的循环路径。

图3:论文整体结构。空间智能被统一为认知地图的构建、推理与实现。
通过这种组织方式,认知地图从一个概念标签转化为分析空间智能的坐标系,让原本并列的感知、推理和生成任务成为围绕同一内部表征展开的不同阶段:地图被构建出来,被推理模块调用,并最终被实现为外部空间形式或预测结果。
论文首先讨论空间感知阶段,对应认知地图的构建过程。
在认知地图视角下,感知不仅需要从图像中检测物体或提取视觉特征,还要从局部、短暂、通常不完整的传感器数据中,形成一个具有抽象性和全局性的内部空间表征。这一阶段完成的是从物理世界传感数据到内部空间模型的转换,体现了从数据到认知的跃迁。
按照内部结构和信息组织方式,论文将认知地图的表征范式分为三类:


图 4:认知地图构建的三类表征方式:度量表征、关系表征和混合表征。
总体而言,认知地图从单一表征形式向度量与关系混合表征的发展演变,反映了空间智能向更加统一的内部表征体系发展的广泛趋势。
当认知地图构建完成后,其核心价值在于支持智能体进行复杂的空间推理,如路径规划、物体搜索、情境理解等。通过这一机制,空间信息得以被读取、处理,并最终转化为可执行的决策信号。空间推理可被视为由认知地图介导的推理过程,其核心要素在于推理模块如何访问、解读并利用其中编码的空间信息。
论文将基于认知地图的空间推理范式归纳为三类:


图 5:认知地图支持推理的三种范式:Embedding、Prompt 与 API。
从这一脉络看,空间推理能力不仅取决于模型本身,也取决于内部地图以何种方式参与推理,依赖于推理模块如何访问、解释和操作认知地图。
如果说感知是从外部世界到内部认知地图,那么生成可以被看作反向过程:从抽象、全局统一、持久维护的内部空间表征出发,实现或模拟具体的外部空间形式。在此阶段,生成不是凭空想象,而是将内部空间知识(如布局、关系、属性)外化为可见或可交互的空间结果,完成从抽象到具象的表达,论文将这一部分分为两类:


图 6:空间生成的两种范式:静态场景合成与动态世界模拟。
现有研究呈现从静态实现到动态模拟、从场景合成到世界建模的基本趋势,这一趋势表明认知地图正从空间组织先验演变为持久的生成性基础结构,不仅支持结构化场景合成,还能支持未来状态预测、连贯可交互世界的模拟。
在应用层面,论文根据智能体与系统之间的交互方式,将相关任务分为两类:开环空间认知和闭环空间交互。

图 7:基于智能体—系统交互方式的两类应用范式:开环空间认知与闭环空间交互。
从认知地图视角来看,空间智能的未来问题就不只是把地图做得更大,而是让它更懂语义、更能跨尺度、更能长期更新,并真正进入行动闭环。基于认知地图的核心特性与运作机制,论文总结了空间智能系统仍需突破的几个关键方向。
这篇综述从认知地图的视角重新梳理了空间智能的研究,并强调其背后共享的表征机制:空间信息如何被抽象、整合并持续维护,又如何进一步参与推理、决策和生成。由此,不同研究方向能够围绕同一个问题被重新比较:智能体如何构建和使用内部空间表征,将其转化为外部空间形式或行为结果。
从这一视角看,空间智能应走向一种更统一的系统形态。当认知地图的抽象性、全局性与持久性能够贯穿空间感知、推理与生成全过程,才能迈向真正类人甚至超过人类水平的空间智能。
作者信息:本文第一作者田雨萱,为中国科学院自动化研究所博士生,研究方向为空间智能,在 CVPR 等国际学术期刊会议上发表多篇论文,通讯作者为郑晓龙研究员。
文章来自于"机器之心",作者 "机器之心"。
【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务,如比较价格、添加购物车、回复各种社交媒体等。
项目地址:https://github.com/browser-use/browser-use
【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。
项目地址:https://github.com/Significant-Gravitas/AutoGPT
【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md
【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。
项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md
在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0