最近很火的Hindsight,基于图谱的「Agent记忆栈」解耦事实与信念

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
最近很火的Hindsight,基于图谱的「Agent记忆栈」解耦事实与信念
7297点击    2025-12-19 10:28

在上一篇文章中,我们系统梳理了AI Agent 记忆机制的全景综述AI Agent最新「Memory」综述 |多所顶尖机构联合发布今天我将带您了解一项最近很火的Agent记忆项目「HINDSIGHT」


参数量不再是长上下文任务的唯一真理。Vectorize.io与Virginia Tech最近发布的记忆架构HINDSIGHT证明了这一点:通过重构记忆的拓扑结构,一个仅有20B参数的开源模型在LongMemEval基准测试中达到了83.6%的准确率,而全上下文(Full-Context)的GPT-4o仅为60.2%。


最近很火的Hindsight,基于图谱的「Agent记忆栈」解耦事实与信念


传统的RAG正在撞上“认知模糊”的墙。简单的Vector Store无法区分观测事实(Facts)与推断信念(Beliefs)。HINDSIGHT放弃了扁平化的检索增强,转而构建了一个包含TEMPR(时序实体图谱检索)和CARA(自适应推理)的四网络记忆基质(Substrate)。本文将带您解构这套让Agent真正具备“后见之明”的工程架构,以及从部署到实践的具体细节。


最近很火的Hindsight,基于图谱的「Agent记忆栈」解耦事实与信念


为什么现在的Agent记忆还不够好?


现在的AI记忆系统(如MemGPT, Zep等)面临的三大核心痛点:


  • 证据与推论不分:AI很难分清“客观事实”(比如:今天下雨了)和“主观推论”(比如:我觉得今天适合睡觉)。在传统数据库里,它们只是两段平等的文本。
  • 时间与因果的断裂:传统的向量检索(Vector Search)擅长找语义相似的话,但对时间顺序和因果关系很不敏感。如果您问“在他辞职之前发生了什么?”,向量检索往往会失效。
  • 缺乏“性格”的一致性:AI的回答往往取决于当下的Prompt,很难维持一个长期稳定的价值观或性格。上一秒它可能表现得很严谨,下一秒因为检索到了不同的片段就变得随性。


HINDSIGHT的出现,正是为了解决这些问题。它提出了一套完整的认识论(Epistemic)架构


记忆的大脑解剖:四大逻辑网络


HINDSIGHT并没有把所有记忆一股脑丢进一个大桶里,而是模仿人类的认知结构,将记忆库划分为四个逻辑网络。这种分类非常关键,它决定了AI如何调用这些信息。


最近很火的Hindsight,基于图谱的「Agent记忆栈」解耦事实与信念


HINDSIGHT的架构图:完整工作流


1. 世界网络(World Network, W})


这里存储的是客观事实


  • 内容:独立于AI视角的外部世界信息。
  • 例子:“Alice在Google工作”,“Python是一种编程语言”。
  • 作用:作为推理的基准事实,不随AI的心情改变。


2. 经验网络(Experience Network,B)


这里存储的是AI的自传体记忆


  • 内容:以第一人称记录的AI自身的经历、行动或给出的建议。
  • 例子:“我在上周二向Alice推荐了优胜美地国家公园”。
  • 作用:区分“我知道什么”和“我做过什么”。


3. 意见网络(Opinion Network,O)


这是HINDSIGHT最独特的地方,它存储AI的主观判断


  • 内容:带有置信度评分(Confidence Score)的主观信念。
  • 例子:“Python是数据科学最好的语言(置信度:0.85)”。
  • 特点:这个网络是动态的,置信度会随着新证据的出现而增强或减弱。


4. 观察网络(Observation Network,S)


这里存储的是合成后的实体摘要


  • 内容:从零散事实中提炼出的、关于某个人或物的客观侧写。
  • 例子:“Alice是一位专注于机器学习的Google软件工程师”。
  • 作用:避免每次回答关于Alice的问题时,都要去遍历成百上千条原始聊天记录。


核心操作机制:Retain、Recall与Reflect


拥有了存储结构只是第一步,HINDSIGHT设计了三个核心操作来管理这些记忆的生命周期:Retain(留存)Recall(召回) 和 Reflect(反思)


最近很火的Hindsight,基于图谱的「Agent记忆栈」解耦事实与信念


操作一:Retain(留存)


当您与AI对话时,HINDSIGHT的TEMPR组件会接管数据流,执行一套复杂的“消化”过程。


步骤1:叙事性事实提取(Narrative Fact Extraction)


大多数系统会把对话切成一个个碎片,但HINDSIGHT拒绝这么做。它使用LLM将几个回合的对话压缩成一个完整的叙事性事实


最近很火的Hindsight,基于图谱的「Agent记忆栈」解耦事实与信念


  • 碎片化提取(旧模式)
  • “Bob建议叫Summer Vibes。”
  • “Alice不喜欢。”
  • “他们选了Beach Beats。”
  • 叙事性提取(新模式)
  • “Alice和Bob讨论播放列表的名字。Bob建议‘Summer Vibes’,但Alice想要更独特的。最终且他们达成一致,选定了‘Beach Beats’。”


这种方式保留了因果关系语境,避免了断章取义。


步骤2:实体消解与图谱构建


系统会自动识别文本中的实体(人、地、物),并将它们链接起来,构建一个时间实体记忆图(Temporal Entity Memory Graph)。 这个图谱包含四种链接类型,权重各不相同:


  • 实体链接(Entity Links):连接所有提及“Alice”的记忆。
  • 时间链接(Temporal Links):连接时间上相邻的事件,权重随时间距离衰减。
  • 语义链接(Semantic Links):连接含义相似的记忆(基于向量余弦相似度)。
  • 因果链接(Causal Links):连接有因果关系的事件(如“因为A,导致B”),这类链接权重很高,利于推理。


操作二:Recall(召回)


这是 HINDSIGHT 区别于普通 RAG 的技术深水区。在检索阶段,它采用了一套四路并行检索(Four-way Parallel Retrieval) 策略,确保不错过任何线索。


1. 语义检索(Semantic Retrieval)


  • 原理:使用向量数据库(HNSW索引),寻找概念上相似的内容。


最近很火的Hindsight,基于图谱的「Agent记忆栈」解耦事实与信念


  • 场景:您问“怎么做番茄炒蛋”,它能找到“西红柿炒鸡蛋”的菜谱。


2. 关键词检索(Keyword Retrieval)


  • 原理:使用BM25算法进行精确文本匹配。


最近很火的Hindsight,基于图谱的「Agent记忆栈」解耦事实与信念


  • 场景:您问特定错误代码“Error 503”,它能精准定位,而不是找到一堆无关的“错误”讨论。


3. 图检索(Graph Retrieval)


  • 原理:利用“激活扩散”算法。从语义匹配的节点出发,沿着实体和因果链向外探索。


最近很火的Hindsight,基于图谱的「Agent记忆栈」解耦事实与信念


  • 场景:您问“Alice最近怎么样?”,系统不仅找到Alice的记录,还会顺着关系链找到她最近参与的项目变化,即使那个项目记录里没提Alice的名字。


4. 时间图检索(Temporal Graph Retrieval)


  • 原理:专门解析“上周”、“2024年6月”等时间词,将其转化为具体的时间范围,并在图谱中筛选该时间段的事件。


最近很火的Hindsight,基于图谱的「Agent记忆栈」解耦事实与信念


  • 场景:您问“去年夏天我们讨论了什么?”,它能精准锁定时间范围内的记忆。


最后的融合:RRF与Reranking


这四路检索的结果会被汇总,通过倒数排名融合(RRF)算法进行打分


最近很火的Hindsight,基于图谱的「Agent记忆栈」解耦事实与信念


再经过一个Cross-Encoder模型进行精细重排序,最终根据您设定的Token预算(Token Budget),贪婪地填充最相关的信息。


操作三:Reflect(反思)


Reflect(反思)操作由CARA组件执行,负责利用召回的记忆进行推理,并生成新的意见。这里包含了两个极具工程价值的细节:行为参数的语言化背景合并


最近很火的Hindsight,基于图谱的「Agent记忆栈」解耦事实与信念


A.从数学参数到自然语言提示(Verbalization)


最近很火的Hindsight,基于图谱的「Agent记忆栈」解耦事实与信念


B.背景合并(Background Merging)


随着时间推移,用户可能会提供关于 Agent 的新设定,这往往会导致新旧信息的冲突(例如:Agent 之前说自己生于 1990 年,现在用户设定为 1995 年)。


为了避免“精神分裂”,CARA 引入了 Background Merging 机制。


最近很火的Hindsight,基于图谱的「Agent记忆栈」解耦事实与信念


工程优化:异步观察生成


在实际部署中,如果每次收到新信息都要实时更新所有相关的实体摘要(Observation),系统的写入延迟(Write Latency)将无法接受。这是所有记忆系统面临的性能瓶颈。


HINDSIGHT 采用了一种后台异步处理(Background Processing) 的架构模式来解决这一挑战:


最近很火的Hindsight,基于图谱的「Agent记忆栈」解耦事实与信念


这种架构决策体现了HINDSIGHT在实时交互性长期记忆质量之间的平衡。


实验数据


研究者们在LongMemEvalLoCoMo两个高难度的长程记忆基准上进行了测试。


最近很火的Hindsight,基于图谱的「Agent记忆栈」解耦事实与信念


LongMemEval表现


在包含大量干扰信息的长对话(Setting)中:


  • 全上下文GPT-4o:准确率60.2%。
  • HINDSIGHT (仅用20B开源模型):准确率83.6%
  • HINDSIGHT (配合Gemini-3):准确率飙升至91.4%


关键点:即使是参数量很小的20B模型,只要用了HINDSIGHT架构,在记忆准确性上也能完全碾压没有任何记忆架构的顶尖大模。这证明了架构优于参数规模


LoCoMo表现


最近很火的Hindsight,基于图谱的「Agent记忆栈」解耦事实与信念


这是一个更贴近真实人类对话的数据集,包含长达35个会话的跨度。


  • 在此之前最好的开源系统(Memobase)准确率为75.78%。
  • HINDSIGHT (OSS-20B) 达到了83.18%
  • HINDSIGHT (Gemini-3) 达到了89.61%,在开放域问答上更是拿到了95.12% 的高分。


动手实践:构建一个具有“时间感”的个人助理


我根据论文的GitHub动手构建了一个基于Hindsight的长期个人助理 (Long-term Personal Assistant, LPA)


1.部署与架构


Hindsight提供docker、pip、npm三种部署方式,我使用了docker完整部署。


最近很火的Hindsight,基于图谱的「Agent记忆栈」解耦事实与信念


后端LLM选择了Deepseek(通过OpenAI兼容协议连接),数据库采用PostgreSQL (pg0/pgvector)。


最近很火的Hindsight,基于图谱的「Agent记忆栈」解耦事实与信念


客户端方面,编写了一个轻量级的Python CLI程序。不像传统的Chatbot需要复杂的Prompt Engineering来维护上下文,这里的客户端代码极其简单,因为它把所有的“记忆压力”都甩给了Hindsight API。


最近很火的Hindsight,基于图谱的「Agent记忆栈」解耦事实与信念


2.记忆植入与“时间旅行”


最核心的测试点是时间感知。为了模拟真实的长期相处,我编写了一个脚本向系统植入了过去两周的模拟数据:


最近很火的Hindsight,基于图谱的「Agent记忆栈」解耦事实与信念


  • 10天前(上周):启动了“Atlas项目”,去了健身房(并且明确记录了“讨厌练腿”)。
  • 3天前(本周):生病在家看电影,开始读科幻小说。


这里利用了Hindsight的 retain 接口,不仅传入文本,还精确指定了过去的 timestamp,让Agent误以为它真的陪伴了我们两周。


3.结果


测试:当发送:“我上周做了什么?” Hindsight精准地输出了“本周生病”和“读沙丘”的近期记录。


最近很火的Hindsight,基于图谱的「Agent记忆栈」解耦事实与信念


4.其余内容


这个项目非常丰富,您如果用docker部署还能看到一个前端的控制面板


最近很火的Hindsight,基于图谱的「Agent记忆栈」解耦事实与信念


由于时间原因包括文章之前提到的“参数配置Agent的性格”都没来得及仔细研究,感兴趣您可以亲自实践部署一下。欢迎加群一起讨论。


总结


HINDSIGHT的核心启示在于:记忆不应该只是一个“查找表”,它必须参与到推理的过程中来。


通过将客观事实与主观信念分离,并引入时间图谱和性格参数,HINDSIGHT让AI第一次拥有了类似人类的认知清晰度。它知道什么是真的(World),知道自己做过什么(Experience),也知道自己相信什么(Opinion),并且这一切都是可以追溯、可以进化的。


正如论文标题所言:Hindsight is 20/20(事后诸葛亮,眼光独到)。回过头看,这或许就是AI记忆本该有的样子。


文章来自于“AI修猫Prompt”,作者 “AI修猫Prompt”。

AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
AI工作流

【开源免费】字节工作流产品扣子两大核心业务:Coze Studio(扣子开发平台)和 Coze Loop(扣子罗盘)全面开源,而且采用的是 Apache 2.0 许可证,支持商用!

项目地址:https://github.com/coze-dev/coze-studio


【开源免费】n8n是一个可以自定义工作流的AI项目,它提供了200个工作节点来帮助用户实现工作流的编排。

项目地址:https://github.com/n8n-io/n8n

在线使用:https://n8n.io/(付费


【开源免费】DB-GPT是一个AI原生数据应用开发框架,它提供开发多模型管理(SMMF)、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL(智能体工作流编排)等多种技术能力,让围绕数据库构建大模型应用更简单、更方便。

项目地址:https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file



【开源免费】VectorVein是一个不需要任何编程基础,任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤,并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。

项目地址:https://github.com/AndersonBY/vector-vein?tab=readme-ov-file

在线使用:https://vectorvein.ai/付费

2
智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。

项目地址:https://github.com/Significant-Gravitas/AutoGPT


【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

3
RAG

【开源免费】graphrag是微软推出的RAG项目,与传统的通过 RAG 方法使用向量相似性作为搜索技术不同,GraphRAG是使用知识图谱在推理复杂信息时大幅提高问答性能。

项目地址:https://github.com/microsoft/graphrag

【开源免费】Dify是最早一批实现RAG,Agent,模型管理等一站式AI开发的工具平台,并且项目方一直持续维护。其中在任务编排方面相对领先对手,可以帮助研发实现像字节扣子那样的功能。

项目地址:https://github.com/langgenius/dify


【开源免费】RAGFlow是和Dify类似的开源项目,该项目在大文件解析方面做的更出色,拓展编排方面相对弱一些。

项目地址:https://github.com/infiniflow/ragflow/tree/main


【开源免费】phidata是一个可以实现将数据转化成向量存储,并通过AI实现RAG功能的项目

项目地址:https://github.com/phidatahq/phidata


【开源免费】TaskingAI 是一个提供RAG,Agent,大模型管理等AI项目开发的工具平台,比LangChain更强大的中间件AI平台工具。

项目地址:https://github.com/TaskingAI/TaskingAI

4
免费使用GPT-4o

【免费】ffa.chat是一个完全免费的GPT-4o镜像站点,无需魔法付费,即可无限制使用GPT-4o等多个海外模型产品。

在线使用:https://ffa.chat/

5
prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。

项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md

在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0