想象一下,你在一个陌生的房子里寻找合适的礼物盒包装泰迪熊,需要记住每个房间里的物品特征、位置关系,并根据反馈调整行动。
这一系列过程依赖人类强大的空间-时间长时记忆。
如何让AI在3D环境中像人类一样思考,一直是具身智能领域的难题。
加州大学洛杉矶分校(UCLA)与谷歌研究院的研究团队带来了最新进展:3DLLM-MEM模型与3DMEM-BENCH基准,让AI首次具备在复杂3D环境中构建、维护和利用长时记忆的能力。
现有大语言模型(LLMs)在文本理解中表现卓越,但当“进入”动态3D环境时却举步维艰。存在以下问题:
简单地说,模型无法像人类一样形成“认知地图”并灵活调用记忆的核心问题在于缺乏针对3D空间-时间的记忆建模。
为系统评估具身智能的记忆能力,研究团队构建了3DMEM-BENCH——首个3D长时记忆评估基准。
其核心特点包括:
1.大规模与多样性
包含26,000+轨迹、1,860个具身任务(从简单物品收集到复杂跨房间推理),覆盖182个3D场景(平均每个场景18个房间)。
2.多维度评估
3.难度分级
任务分为简单(3房间)、中等(5房间)、困难(10房间),并包含“野外挑战”(从未见过的物体或场景),全面考察模型泛化能力。
4.对比现有基准
相较于ALFWorld、Behavior-1K等,3DMEM-BENCH首次聚焦“长时记忆”与“3D空间理解”的结合,填补了领域空白。
针对记忆难题,研究团队提出3DLLM-MEM模型——一款双记忆系统驱动的具身智能体。
其设计灵感源自人类认知结构:
1.双记忆架构
2.记忆融合模块
工作记忆作为“查询”,从情景记忆中选择性提取与任务相关的特征(如“寻找合适礼物盒”时,重点关注曾见过的盒子尺寸、位置),通过注意力机制融合两者,既避免记忆过载,又确保关键信息不被遗漏。
3.动态更新机制
当环境变化(如移动盒子),模型自动更新情景记忆,确保记忆与当前状态一致。
3DLLM-MEM的核心优势在于:通过“选择性记忆检索+时空特征融合”,模型在复杂环境中既能聚焦任务关键信息,又能维持记忆效率。
在3DMEM-BENCH上的实验表明,3DLLM-MEM显著优于现有方法。
1.具身任务成功率
2.时空推理能力
在EQA任务中,3DLLM-MEM在“空间关系”“跨房间对比”等子任务上准确率超60%,而传统3D-LLM因上下文限制,准确率不足10%。
3.记忆效率
3DLLM-MEM模型通过“动态融合”机制,仅需处理与当前任务相关的记忆片段,计算成本比“全记忆存储”降低,同时保持高推理精度。
典型案例包括:在“准备早餐”任务中,3DLLM-MEM模型先在厨房寻找咖啡机未果,转而利用记忆中“餐厅有茶壶”的信息,调整策略煮茶完成任务,体现了灵活的记忆调用与任务规划能力。
尽管3DLLM-MEM已实现重大突破,研究团队也指出其局限性:目前模型依赖模拟器的高层动作预设,未来需与底层导航和控制结合。
论文连接: https://arxiv.org/abs/2505.22657
项目主页: https://3dllm-mem.github.io
文章来自于“量子位”,作者“3DLLM团队”。
【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务,如比较价格、添加购物车、回复各种社交媒体等。
项目地址:https://github.com/browser-use/browser-use
【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。
项目地址:https://github.com/Significant-Gravitas/AutoGPT
【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md