让AI像人类一样认知真实世界！UCLA谷歌强强联手，长时记忆+3D空间理解超越基线16.5%

8798点击 2025-06-04 10:08

想象一下，你在一个陌生的房子里寻找合适的礼物盒包装泰迪熊，需要记住每个房间里的物品特征、位置关系，并根据反馈调整行动。

这一系列过程依赖人类强大的空间-时间长时记忆。

如何让AI在3D环境中像人类一样思考，一直是具身智能领域的难题。

加州大学洛杉矶分校（UCLA）与谷歌研究院的研究团队带来了最新进展：3DLLM-MEM模型与3DMEM-BENCH基准，让AI首次具备在复杂3D环境中构建、维护和利用长时记忆的能力。

让AI像人类一样认知真实世界！UCLA谷歌强强联手，长时记忆+3D空间理解超越基线16.5%

挑战：3D环境中的记忆困境

现有大语言模型（LLMs）在文本理解中表现卓越，但当“进入”动态3D环境时却举步维艰。存在以下问题：

长时记忆断层在多房间任务中（如跨客厅、卧室、厨房寻找物品），模型难以关联不同时空的观察，常因“遗忘”关键信息导致任务失败。
空间表征缺失传统模型依赖稀疏或物体中心的表征，无法捕捉3D环境中复杂的几何关系（如家具布局、物体尺寸对比），而这些细节对任务成败至关重要（如判断礼物盒是否“太松”或“太大”）。
时空动态管理环境变化（如移动家具、使用物品）会导致记忆过时，但现有模型缺乏动态更新机制，难以区分“旧记忆”与“新状态”。

简单地说，模型无法像人类一样形成“认知地图”并灵活调用记忆的核心问题在于缺乏针对3D空间-时间的记忆建模。

突破：3DMEM-BENCH基准与3DLLM-MEM模型

让AI像人类一样认知真实世界！UCLA谷歌强强联手，长时记忆+3D空间理解超越基线16.5%

为系统评估具身智能的记忆能力，研究团队构建了3DMEM-BENCH——首个3D长时记忆评估基准。

其核心特点包括：

1.大规模与多样性

包含26,000+轨迹、1,860个具身任务（从简单物品收集到复杂跨房间推理），覆盖182个3D场景（平均每个场景18个房间）。

2.多维度评估

具身任务：要求模型执行跨房间动作链（如“在客厅找到泰迪熊，到卧室试装小盒子，再到厨房试装大盒子，最终返回客厅选择最合适的盒子”）。
时空问答（EQA）：测试空间关系推理（如“任务完成后，站在餐桌前，梳妆台在左侧还是右侧？”）。
场景描述：总结多房间记忆中的共性与差异（如“之前的房间有橱柜和床，当前房间独特之处在于整面墙的衣柜”）。

3.难度分级

任务分为简单（3房间）、中等（5房间）、困难（10房间），并包含“野外挑战”（从未见过的物体或场景），全面考察模型泛化能力。

4.对比现有基准

相较于ALFWorld、Behavior-1K等，3DMEM-BENCH首次聚焦“长时记忆”与“3D空间理解”的结合，填补了领域空白。

让AI像人类一样认知真实世界！UCLA谷歌强强联手，长时记忆+3D空间理解超越基线16.5%

针对记忆难题，研究团队提出3DLLM-MEM模型——一款双记忆系统驱动的具身智能体。

其设计灵感源自人类认知结构：

1.双记忆架构

工作记忆（Working Memory）：存储当前观察（如“当前房间的书架上有红色盒子”），容量有限但动态更新。
情景记忆（Episodic Memory）：以密集3D表征存储历史观察与交互（如“厨房的蓝色盒子太大，卧室的绿色盒子太小”），可扩展且包含时空位置信息。

2.记忆融合模块

工作记忆作为“查询”，从情景记忆中选择性提取与任务相关的特征（如“寻找合适礼物盒”时，重点关注曾见过的盒子尺寸、位置），通过注意力机制融合两者，既避免记忆过载，又确保关键信息不被遗漏。

3.动态更新机制

当环境变化（如移动盒子），模型自动更新情景记忆，确保记忆与当前状态一致。

让AI像人类一样认知真实世界！UCLA谷歌强强联手，长时记忆+3D空间理解超越基线16.5%

3DLLM-MEM的核心优势在于：通过“选择性记忆检索+时空特征融合”，模型在复杂环境中既能聚焦任务关键信息，又能维持记忆效率。

验证：超越基线16.5%的记忆能力

让AI像人类一样认知真实世界！UCLA谷歌强强联手，长时记忆+3D空间理解超越基线16.5%

在3DMEM-BENCH上的实验表明，3DLLM-MEM显著优于现有方法。

1.具身任务成功率

在最具挑战性的“野外困难任务”中，3DLLM-MEM成功率达27.8%，远超基线模型（如“最近记忆”仅5%，“检索增强记忆”仅10.6%）。
在“野外任务”整体成功率上，3DLLM-MEM达32.1%，比最强基线高16.5%。

2.时空推理能力

在EQA任务中，3DLLM-MEM在“空间关系”“跨房间对比”等子任务上准确率超60%，而传统3D-LLM因上下文限制，准确率不足10%。

3.记忆效率

3DLLM-MEM模型通过“动态融合”机制，仅需处理与当前任务相关的记忆片段，计算成本比“全记忆存储”降低，同时保持高推理精度。

典型案例包括：在“准备早餐”任务中，3DLLM-MEM模型先在厨房寻找咖啡机未果，转而利用记忆中“餐厅有茶壶”的信息，调整策略煮茶完成任务，体现了灵活的记忆调用与任务规划能力。

尽管3DLLM-MEM已实现重大突破，研究团队也指出其局限性：目前模型依赖模拟器的高层动作预设，未来需与底层导航和控制结合。

论文连接: https://arxiv.org/abs/2505.22657

项目主页: https://3dllm-mem.github.io

文章来自于“量子位”，作者“3DLLM团队”。

让AI像人类一样认知真实世界！UCLA谷歌强强联手，长时记忆+3D空间理解超越基线16.5%

关键词: 3DMEM-BENCH , 模型训练 , AI 3D , 3DLLM-MEM

AITNT资源拓展

根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考

AI代理

【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务，如比较价格、添加购物车、回复各种社交媒体等。
项目地址：https://github.com/browser-use/browser-use

智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的（AI Agents）项目。用户创建的智能体能够自动执行各种任务，从而让AI有步骤的去解决实际问题。
项目地址：https://github.com/Significant-Gravitas/AutoGPT

﻿【开源免费】MetaGPT是一个“软件开发公司”的智能体项目，只需要输入一句话的老板需求，MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色，包括产品经理 / 架构师 / 项目经理 / 工程师，MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址：https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md