在过去两年里,记忆(Memory)几乎从 “可选模块” 迅速变成了 Agent 系统的 “基础设施”:对话型助手需要记住用户习惯与历史偏好;代码 / 软件工程 Agent 需要记住仓库结构、约束与修复策略;深度研究型 Agent 需要记住已阅读的证据链、关键假设与失败路径,没有 memory 的智能体难以跨任务保留有效经验,难以稳定维护用户偏好与身份设定,也难以在长周期协作中保持行为一致、避免反复犯同样的错误。与此同时 Memory 概念在迅速膨胀、也在迅速碎片化:很多论文都声称自己在做 “agent memory”,但实现方式、目标假设、评价协议差别巨大,多术语并行又进一步模糊了边界。
在这样的背景下,来自新加坡国立大学、中国人民大学、复旦大学、北京大学等顶级学术机构共同撰写并发布了百页综述《Memory in the Age of AI Agents: A Survey》,尝试用统一视角为快速扩张、却日益碎片化的 “Agent Memory” 重新梳理技术路径。

综述首先指出传统的 “长 / 短期记忆” 二分法,已经不足以描述当代系统里更复杂的结构形态与动态机制:有的记忆是显式 token 存储,有的写进参数,有的驻留在潜在状态;有的服务于事实一致性,有的服务于经验迁移,有的服务于单次任务的工作台管理 —— 如果继续用简单时间尺度切分,就很难真正解释这些差异。
基于此,该综述提出一个统一的分析框架:Forms–Functions–Dynamics(三角框架)。它试图分别回答三类核心问题:

记忆以什么形式存在(Forms)——What Carries Memory? 是外部 token、参数,还是潜在状态?
记忆解决什么问题(Functions)——Why Agents Need Memory? 它服务于事实一致、经验成长,还是任务内工作记忆?
记忆如何运转与演化(Dynamics)——How Memory Evolves? 它如何形成、如何被维护与更新、又如何在决策时被检索与利用?
在大量工程实践中,“Memory” 这个词往往被迅速简化为几个具体实现:一个向量数据库加上相似度检索,或者干脆等同为更长的上下文窗口、更大的 KV cache。在这种理解下,只要模型 “还能看到过去的信息”,系统似乎就已经具备了记忆能力。然而,综述明确指出:这些技术与 Agent Memory 确实存在交集,但在研究对象和问题层级上并不等价。

Agent Memory 关注的是智能体持续维持的认知状态,它不仅 “存”,还要能在交互中不断更新、整合、纠错、抽象,并跨任务保持一致性。独特性在于维护一个 persistent and self-evolving cognitive state,并把事实与经验整合在一起。Agent Memory 关心的是 “智能体知道什么、经历过什么,以及这些东西如何随时间变化”,包括把反复交互沉淀成知识、从成功 / 失败中抽象程序性知识、跨任务保持身份一致性等。
确实存在一条与 Agent Memory 不同、但同样重要的研究路线 —— 真正意义上的 LLM-internal memory。这类工作关注的不是智能体如何在长期交互中积累经验,而是模型在内部计算过程中如何更有效地保留和利用序列信息。这些方法的核心问题是:在一次或有限次推理过程中,如何避免早期 token 的信息衰减,如何在计算与显存受限的前提下保持对长距离依赖的建模能力。其研究对象,本质上是模型内部的状态与动态。它们并不假设模型是一个长期存在、需要跨任务保持身份与目标的自主体,也不要求模型与环境进行持续交互或做出一系列有后果的行动决策。换言之,这些方法即便不引入 agentic 行为,也完全成立:模型依然可以在单次问答、长文档理解或摘要等任务中受益。
RAG 通常强调从外部知识库检索静态信息以提升回答事实性;它可以是 Agent Memory 的一部分实现,但如果系统没有长期一致性、没有演化机制、没有跨任务的 “自我”,那么它更像 “知识访问模块”,而非完整记忆系统。这个差别在综述的概念对照图说明里也被点明:RAG 更接近 “static knowledge access”。
Context Engineering 的目标常常是:在上下文窗口受限时,如何组织提示、压缩信息、构建工具输出格式等 —— 它优化的是 “此刻模型看到什么”。而论文强调:Context Engineering 是外部脚手架;Agent Memory 是支持学习与自主性的内部基底。前者优化当下接口,后者维持跨窗口、跨任务的持续认知状态。
综述把 agent memory 的形式归纳为三大类:token-level /parametric/latent。
这三类的差别聚焦于:信息以什么表示、在哪里存、如何读写、以及可解释性与可塑性的取舍。
token-level memory 的定义非常直观:它把信息存成持久、离散、可外部访问与检查的单元;这里的 token 不仅是文字 token,也可以是视觉 token、音频帧等,只要是可写、可检索、可重排、可修改的离散元素即可。
为什么它在工程里最常见?因为它天然具备三种优势:
1. 透明:你能看到存了什么;
2. 可编辑:能删改、能纠错;
3. 易组合:适合作为检索、路由、冲突处理的 “中间层”,并与 parametric/latent memory 协同。
但 token-level 并不是 “一个向量库” 那么简单。进一步按 “拓扑结构复杂度” 可以把它分成三种组织方式:

这反应了当记忆规模增大,单纯堆历史就会暴露弊端,必须引入结构(2D)与分层抽象(3D),才能让长期存在的外部记忆真正可用。
Parametric memory 的定义是:信息存储在模型参数中,通过参数空间的统计模式编码,并在前向计算中被隐式访问。它更像人类 “内化后的直觉”:不用每次检索外部库,模型直接学会并记住这些内容。但代价同样明显:

Latent memory 的定义是:记忆以模型内部隐状态、连续表示或演化的潜在结构存在,可在推理时或交互周期中持续更新,用于捕捉上下文相关的内部状态。

它介于 “外部显式存储” 和 “权重内化” 之间:比 token-level 更紧凑、更接近模型计算过程;比 parametric 更容易在推理期更新,但也往往更难解释、更难审计。

这一分类角度是这篇综述的核心观点之一,它不再用 “长 / 短期” 这种时间尺度粗分,而是用功能角色把 agent memory 分成三类:
这三个概念的价值在于:它们对应的是三种完全不同的 “记忆失败模式”,也对应三类不同的系统设计。

事实记忆的一个关键目标,是提供一个可更新、可检索、可治理(governable)的外部事实层,让系统在跨 session / 跨阶段时有稳定参考。 这类记忆不只面向 “用户偏好”,也面向 “环境事实”:长文档、代码库、工具状态、交互轨迹等。
环境事实记忆能成为持续可更新、可审计、可复用的外部事实层;在协作维度还能维持跨 agent、跨阶段一致性,从而支撑多来源信息与长周期任务下的稳健执行。
如果你做过 “多轮对话 + 多工具 + 多资料” 的系统,你会非常熟悉这种痛点:事实一旦散落在历史对话里,就会反复被遗忘、被误引、被编造。事实记忆的意义,就是把 “可核查的世界状态” 从临时上下文里抽出来,变成可维护的对象。
经验记忆的定义更像能力的积累:它把历史轨迹、提炼后的策略、交互结果编码为可持久检索的表示。它与工作记忆不同:工作记忆管 “眼前这一题”,经验记忆关心 “跨 episode 的长期积累与迁移”。
综述把经验记忆与认知科学里的非陈述性记忆(程序性 / 习惯系统)类比,同时指出 agent 的独特优势:它往往用显式数据结构存储,因此反而具备生物体没有的能力 —— 可以内省、编辑、并对自己的程序性知识做推理。经验记忆给了智能体一种避免频繁参数更新的持续学习路径,把交互反馈转化为可复用知识,帮助系统纠错、抽象启发式、编译常规行为,从而减少重复计算并提升决策质量。
经验记忆按抽象层级分成三类:

工作记忆听起来像短期记忆,但在 agent 场景里,它最典型的问题不是时间短,而是:即时输入太大、太杂、模态太高维(长文档、网页 DOM、视频流……),在固定 attention / 上下文预算下必须建立一个 “可写工作区”。

如果说 Forms 解决 “记忆放哪儿”、Functions 解决 “记忆干嘛用”,那 Dynamics 解决的就是:记忆系统如何运转。
记忆的生命周期可以概括为三段:Memory Formation(形成)—Memory Evolution(演化)—Memory Retrieval(检索),并强调三者构成一个相互反馈的循环:形成阶段抽取新信息;演化阶段做整合、冲突消解与剪枝;检索阶段提供面向当前任务的访问;推理结果与环境反馈又反过来影响下一轮形成与演化。

Formation 阶段把原始上下文(对话、图像等)编码成更紧凑的知识。动机非常直接:full-context prompting 会带来计算开销、内存压力、以及在超长输入上的推理退化,因此需要把关键信息蒸馏成更高效的表示。
formation 操作进一步分成五类:语义总结、知识蒸馏、结构化构建、潜在表示、以及参数内化。这五类几乎对应了 Forms 的三种载体:总结 / 结构化更偏 token-level;潜在表示偏 latent;参数内化对应 parametric。
retrieval 形式化为一个操作:在每个时间步,根据当前观察与任务构造查询,并返回相关记忆内容;返回的记忆信号会被格式化成 LLM 策略可直接消费的文本片段或结构化摘要。
检索不必每步发生,可能只在任务初始化发生,也可能间歇触发或持续触发;而 “短期 / 长期” 效果往往不是因为搭载了两个模块,而是由 formation/evolution/retrieval 的触发节奏决定的。这点对工程实践有指导意义:很多系统并非缺一个长期库,而是触发策略不对、导致记忆无法进入决策回路。

Evolution 阶段的任务是把新增记忆与已有记忆整合,通过合并相关条目、冲突消解、剪枝等机制,让记忆保持可泛化、连贯且高效。
这也是为什么 “记忆系统” 迟早会走向更复杂的治理问题:删什么、留什么、如何避免自相矛盾、如何避免隐私泄漏、如何给多智能体共享时加规则…… 这些都属于 evolution 的范畴。

综述专门用 Section 6 汇总 benchmarks 与开源框架资源,这是支持实证研究与落地开发的关键基础设施,方便相关科研工作者查阅。


与其把记忆当作一个检索插件,不如把它当作智能体长期能力的 first-class primitive,作为 agent 的核心功能之一:
并进一步讨论这些变化如何与多模态、多智能体协作、可信安全等主题交织。
传统检索范式把记忆看成一个已经 “写好” 的仓库:当前任务需要什么,就从向量库 / 图结构 / 重排器里把最相关的片段找出来拼进上下文,核心指标是检索的 precision/recall。大量工作围绕索引、相似度、重排、结构化来提升 “找得准不准”。 但 Agent 真正的长期能力不只依赖 “取回旧文本”,而更依赖一种面向未来的抽象:
这有两条主线:
1)Retrieve-then-Generate:先检索,再把检索到的材料重写成更紧凑、更一致、更任务相关的 “可用记忆”,如 ComoRAG、G-Memory、CoMEM 这类思路,保留可追溯的历史 grounding,同时提升可用性;
2)Direct Generation:不显式检索,直接从当前上下文 / 交互轨迹 / 潜在状态中生成记忆表示,比如用 “潜在记忆 token” 的方式绕开传统查库。
而未来则更关注三个方面:
如今很多搭载 memory 的 Agent 其记忆行为本质仍是工程规则 —— 写什么、什么时候写、怎么更新 / 怎么取,都靠提示词、阈值、人工策略。这样做的好处是成本低、可解释、可复现,适合快速原型;但缺点也同样致命:僵硬、难泛化,在长程或开放式交互里容易失效。因此近期开始出现让 Agent 自主参与记忆管理的方向:

但很多方法仍被手工规则牵引,或只在狭窄目标上优化,因此离通用自动记忆还有距离。而未来可能的路线有两条:
第一条是把记忆操作显式接入决策:
不再把记忆当外部模块,而是让 Agent 在每一步都能通过工具调用式接口执行 add/update/delete/retrieve,并且 “知道自己做了什么记忆动作”。这会让记忆行为更连贯、更透明、更能与当前推理状态对齐。
第二条是走向自优化的记忆结构:
不仅仅 “分层存储”,更要让记忆库能动态链接、索引、重构,使存储结构本身随时间自组织,从而减少对手工规则的依赖,最终支持更鲁棒、可扩展的自主记忆。
在 Memory 中引入 RL 是一种从 pipeline 到 model-native 的转向:早期大量系统要么是阈值 / 语义检索 / 拼接等启发式;要么看起来很 “agentic”,但其实只是 prompt 驱动,模型并没受过任何有效记忆控制的训练。
随后出现 RL-assisted memory:只对记忆生命周期的某一环节上 RL,比如:
下一阶段则更可能是 Fully RL-driven memory。它需要满足两个理想特点:
1)尽量减少人类先验:
目前很多记忆系统借鉴人类认知(海马体 / 皮层类比)、预设层级(episodic/semantic/core),这些抽象对早期探索很有价值,但未必是人工智能体在复杂环境中的最优结构。若进入 fully RL-driven,Agent 有机会在优化驱动下 “发明” 新的记忆组织形式、存储 schema、更新规则。
2)让 Agent 对全生命周期拥有完整控制:
许多 RL 方法只覆盖 “写入” 或 “短期折叠”,却没把长期整合、演化、检索策略真正统一起来。论文认为,要让形成 - 演化 - 检索多粒度协同运转,几乎必然需要端到端 RL,因为仅靠启发式或提示词无法在长时域里协调这些复杂交互。
当记忆成为可学习、可自组织、与 Agent 共进化的子系统时,它就不再是外挂,而会成为长期能力与持续学习的基础设施。
随着 Agent 走向具身、交互式环境,信息来源天然是多模态的:视觉、动作、环境反馈等都会进入记忆系统。未来真正的难点不是把图片 / 视频 “塞进库”,而是让记忆支持异质信号的统一存取与推理。当前的两个关键缺口在于:
MAS 的早期范式:每个 agent 有自己的局部记忆,通过消息传递来协作。这避免直接干扰,但会带来冗余、上下文割裂、沟通开销爆炸,团队规模和任务时长一上来就撑不住。因此出现中心化共享记忆,其作为团队共同 ground truth:支持联合注意、减少重复、利于长程协作;但也引入新问题:记忆污染、写冲突、缺少基于角色 / 权限的访问控制。
共享记忆会从仓库进化为主动管理的集体表示,有三条可能的方向:
当记忆进入长期、个性化、跨会话存储后,问题已经不再是传统 RAG 的 “是否会胡说”,而是一个更大的可信系统工程:因为 Agent 记忆会保存用户偏好、历史交互、行为痕迹等潜在敏感信息,风险维度从 factuality 扩展到隐私、安全、可控与可审计。
(1)隐私保护:需要更细粒度的权限记忆、由用户主导的保留策略、加密或端侧存储、必要时的联邦访问;并可结合差分隐私、记忆脱敏 / 删改、以及可验证的 “遗忘” 机制(例如衰减式遗忘或用户擦除接口)来降低泄露风险。
(2)可解释性:不仅要看到 “记忆内容”,还要能追踪 “访问路径”:哪些条目被取了、如何影响生成、是否被误用;甚至支持反事实分析(“如果不取这条记忆,会怎样”)。论文提出未来可能需要可视化记忆注意、因果图、面向用户的调试工具等成为标配。
(3)抗幻觉与冲突鲁棒性:在冲突检测、多文档推理、不确定性建模上继续推进;包括低置信检索时的拒答 / 保守策略、回退到模型先验、或用多智能体交叉核验等。论文还特别提到,机制可解释性方法(例如在表示层面定位幻觉来源)可能会成为 “诊断 + 干预” 的新工具箱。
通过 Forms/Functions/Dynamics 的统一视角,记忆不再是附属插件,而是智能体实现时间一致性、持续适应与长程能力的关键基底;未来随着 RL 融合、多模态与多智能体场景兴起,以及从检索中心走向生成式记忆的趋势,记忆系统将变得更可学习、更自组织、更具适应性。
文章来自于“机器之心”,作者 “机器之心”。
【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务,如比较价格、添加购物车、回复各种社交媒体等。
项目地址:https://github.com/browser-use/browser-use
【开源免费】字节工作流产品扣子两大核心业务:Coze Studio(扣子开发平台)和 Coze Loop(扣子罗盘)全面开源,而且采用的是 Apache 2.0 许可证,支持商用!
项目地址:https://github.com/coze-dev/coze-studio
【开源免费】n8n是一个可以自定义工作流的AI项目,它提供了200个工作节点来帮助用户实现工作流的编排。
项目地址:https://github.com/n8n-io/n8n
在线使用:https://n8n.io/(付费)
【开源免费】DB-GPT是一个AI原生数据应用开发框架,它提供开发多模型管理(SMMF)、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL(智能体工作流编排)等多种技术能力,让围绕数据库构建大模型应用更简单、更方便。
项目地址:https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file
【开源免费】VectorVein是一个不需要任何编程基础,任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤,并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。
项目地址:https://github.com/AndersonBY/vector-vein?tab=readme-ov-file
在线使用:https://vectorvein.ai/(付费)
【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。
项目地址:https://github.com/Significant-Gravitas/AutoGPT
【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md
【开源免费】FASTGPT是基于LLM的知识库开源项目,提供开箱即用的数据处理、模型调用等能力。整体功能和“Dify”“RAGFlow”项目类似。很多接入微信,飞书的AI项目都基于该项目二次开发。
项目地址:https://github.com/labring/FastGPT
【开源免费】graphrag是微软推出的RAG项目,与传统的通过 RAG 方法使用向量相似性作为搜索技术不同,GraphRAG是使用知识图谱在推理复杂信息时大幅提高问答性能。
项目地址:https://github.com/microsoft/graphrag
【开源免费】Dify是最早一批实现RAG,Agent,模型管理等一站式AI开发的工具平台,并且项目方一直持续维护。其中在任务编排方面相对领先对手,可以帮助研发实现像字节扣子那样的功能。
项目地址:https://github.com/langgenius/dify
【开源免费】RAGFlow是和Dify类似的开源项目,该项目在大文件解析方面做的更出色,拓展编排方面相对弱一些。
项目地址:https://github.com/infiniflow/ragflow/tree/main
【开源免费】phidata是一个可以实现将数据转化成向量存储,并通过AI实现RAG功能的项目
项目地址:https://github.com/phidatahq/phidata
【开源免费】TaskingAI 是一个提供RAG,Agent,大模型管理等AI项目开发的工具平台,比LangChain更强大的中间件AI平台工具。
项目地址:https://github.com/TaskingAI/TaskingAI
【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。
项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md
在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0