AGI新路径！谷歌神作！NIPS大会现场谷歌新模型架构被疯狂围观：模型本身就是记忆系统！网友：Transformer到头了

8174点击 2025-12-05 14:45

“问题，是用旧思维制造的；它不可能靠同一套思维被解决。”

作为“机械式理性主义”批判者的爱因斯坦，多次强调：科学突破不是线性推理

的自然延伸。

在解释相对论为何颠覆牛顿体系时，他的逻辑就是：停止在旧体系里“修修补补”，直接换了一套理解世界的坐标系。

而在通往 AGI 的道路上，Scaling Law+ Transformer路线是不是也走到头了？是不是也得换一套方法论呢？

当地时间12月4日下午，谷歌研究员的一篇论文在现场引来了超多AI爱好者的围观。

甚至，被业界专家视为“为AGI发展提供了新框架”，一位人士评价为：这篇论文将成为逐步推动实现AGI的5~10篇论文中的一篇。

AGI新路径！谷歌神作！NIPS大会现场谷歌新模型架构被疯狂围观：模型本身就是记忆系统！网友：Transformer到头了

这位网友点评道：在今天上午NeurIPS 大会，强化学习之父 Richard Sutton 再次提醒，我们需要持续学习才能实现通用人工智能。

AGI新路径！谷歌神作！NIPS大会现场谷歌新模型架构被疯狂围观：模型本身就是记忆系统！网友：Transformer到头了

而下午谷歌的这篇论文《Nest learning》，为持续学习提供了新思路。

谷歌研究员提出优于Transformer的新架构：

大模型能学会，但忘性大

过去两年，AI 的进化速度越来越快，但一个核心问题始终没有被真正解决：模型能学会，却很难真正“记住”。你给它再多上下文，只要对话结束，这些经验就像从未发生过。

最近，来自谷歌的研究员提出了一条全新的技术路径，试图从底层打破这一限制——他们把这条路线称为 Nested Learning（嵌套学习），并基于它构建了全新的连续体记忆系统 CMS 与 HOPE 架构。

AGI新路径！谷歌神作！NIPS大会现场谷歌新模型架构被疯狂围观：模型本身就是记忆系统！网友：Transformer到头了

这中架构与此前的“训练→推理”的框架不同，而是一次试图重写模型如何获得记忆、如何积累知识的尝试。如果这条路成立，AI 将第一次具备真正意义上的“长期学习能力”。

AGI新路径！谷歌神作！NIPS大会现场谷歌新模型架构被疯狂围观：模型本身就是记忆系统！网友：Transformer到头了

深度学习本质上是上下文压缩：现有方法（如Transformer）通过注意力机制压缩上下文流，导致信息丢失。

而 NL 则显式建模多级压缩，实现“联想记忆”。

LLM 的“顺行性遗忘症”

谷歌研究员 Ali Behrouz（论文一作）上来抛出了自己的问题发现：

今天的大模型有两种知识来源。

一类来自预训练，知识被固化在参数里，像是长期记忆；另一类来自推理时的上下文，是临时可用的信息。但问题恰恰出在这里——上下文一旦消失，模型对这些新知识的记忆也随之消失。

研究团队用一个非常形象的医学类比来描述这种状态：顺行性遗忘症（anterograde amnesia）。这种病人可以记住过去，也能短暂记住现在，但无法把短期记忆转化为长期记忆。也就是：人会不断地“重新体验当下”，却无法真正记住新东西

而对当前主流大模型来说，病状就是：它们“看得见”，却“存不住”。这带来的直接后果是：

模型几乎无法进行真正的连续学习

只能在“上下文窗口”内短暂聪明

无法形成跨任务、跨时间的知识积累

研究员的问题很直接：能不能让模型在推理阶段学到的东西，被真正“写进”模型本身？

核心贡献：把一切重新理解为“记忆系统”

这项研究最重要的突破，不是提出某个新模块，而是重新定义了架构、注意力和优化器的本质。

他们提出一个核心抽象：

几乎所有深度学习结构，都可以被看作是一种“关联记忆系统”。

所谓关联记忆，本质就是在学习 Key → Value 的映射关系。

你看到一张脸，想到一个名字

你看到一个问题，找到一个答案

这些都属于“关联”。他们进一步发现：

线性注意力，本质是用梯度下降在优化一个关联映射

不同损失函数，会导出完全不同的网络结构

架构不再是工程拼装，而是“你选择了哪种记忆优化目标”

进一步往下推，他们得出了一个更激进的结论：

梯度下降本身，也是一种关联记忆。

模型用当前参数状态作为“输入”，生成梯度作为“输出”，再用这个输出更新自己。这是一种高度自指的学习系统。模型在用自己，训练自己。

当他们把“动量”（Momentum term）也纳入这个体系时，发现动量其实就是一种对历史梯度的压缩记忆。这让架构、优化器、注意力、内外记忆第一次被统一到同一个理论框架下。

谷歌Trick：引入“多时间尺度记忆”

当前 Transformer 只有两种极端记忆方式：

注意力层：每个 token 都在更新，变化极快

参数层：只在预训练时更新，几乎永不改变

中间地带是空的。这意味着模型要么“极短记忆”，要么“永久固化”，完全缺少类似人类那样的中期记忆结构。

AGI新路径！谷歌神作！NIPS大会现场谷歌新模型架构被疯狂围观：模型本身就是记忆系统！网友：Transformer到头了

为了解决这个问题，他们提出了一个关键设计：

不再只有一个固定的 MLP，而是引入多个、不同更新频率的 MLP 模块。

例如：

有的模块每 10 个 token 更新一次

有的每 1000 个 token 更新一次

有的几百万 token 才更新一次

还有的完全冻结，充当长期记忆

这样一来，模型内部就形成了一个真正意义上的：

工作记忆

中期记忆

长期记忆

并存的连续记忆系统。这正是他们后来称为 Continuum Memory （连续记忆） 的核心思想。

总结一下，CMS 把传统“长期/短期记忆”观点泛化为连续体记忆：记忆不是二元分离，而是连续谱，从瞬时（高频）到永久（低频）。形式公示如下：

AGI新路径！谷歌神作！NIPS大会现场谷歌新模型架构被疯狂围观：模型本身就是记忆系统！网友：Transformer到头了

其中，α 是保留权重，Retain是衰减函数。CMS 使用多级嵌套优化维护这个积分，支持无限历史追踪而无爆炸性增长。

AGI新路径！谷歌神作！NIPS大会现场谷歌新模型架构被疯狂围观：模型本身就是记忆系统！网友：Transformer到头了

谷歌研究团队怎么做到的？

论文通过NL 范式提出三个互补的技术创新，每个都直接应用于持续学习和长上下文任务。深度优化器、自修改模型Titans、连续记忆系统CMS+Hope架构。

首先，是深度优化器。

传统优化器（如Adam、SGD with Momentum）可视为联想记忆模块，通过梯度下降压缩梯度上下文流。具体地，Adam 的更新规则类似于Hebbian学习（“同时激活的神经元加强连接”），但仅用点积相似度（dot-product similarity）计算，导致记忆效率低（忽略样本间关系）。

AGI新路径！谷歌神作！NIPS大会现场谷歌新模型架构被疯狂围观：模型本身就是记忆系统！网友：Transformer到头了

技术细节：Deep Memory Optimizers 内层使用RNN或Transformer压缩长梯度序列，支持“深度记忆”（deep memory），如多层嵌套以捕捉梯度依赖。

比如用高级学习规则，将点积替换为非线性相似度，提升了优化在噪声数据下的鲁棒性。再比如将优化器重构为嵌套优化，还提出了更experssive的优化器变体等，更多细节，大家可以自行翻阅论文。

在实验的基准优化任务中，Deep Optimizers 收敛更快 15-20%，并减少 30% 的遗忘率（通过模拟持续优化）。

其次，基于上述理论，谷歌团队提出了一个Self-Modifying Titans：自修改序列模型Titans。

NL 允许模型“学习如何学习”，即内层优化直接修改外层参数，实现自改进（self-improvement）。

技术细节方面，架构上

外层是标准RNN/Transformer，外层参数 θ

通过内层“元优化器”（meta-optimizer）更新。

自修改机制

：使用NL 的上下文流追踪历史更新，允许模型动态调整架构（比如：添加/删除层）。这类似于“Titans”——可进化的大型模型。

实验发现，在少样本泛化（few-shot learning）中，自修改模型适应新任务时，性能提升 10-25%，无需重训整个模型。

第三项，则是HOPE架构。

第二和第三项，我们放到下一部分单独聊。

自修改序列模型Titans

Titans 作为一个基础序列模型，本质是：

关联记忆目标

L2 损失

带动量与权重衰减的梯度下降

这不是谷歌团队拍脑袋拼出来的模块，而是从“记忆优化”这个数学目标自然推导出的结构。

接着，他们又做了一次更激进的升级，构建了：自反省 Titan（Self-referential Titan）

在这个版本中：

Key 与 Value 不再是外部固定输入

模型自己生成学习信号

学习率、权重衰减等超参数，也由模型自动学习

再加上前面的多频率 MLP 连续记忆系统，最终形成了完整的：

HOPE 架构

这是一个第一次真正具备“跨时间持续学习结构”的大模型框架。

Hope：新的模型架构

Hope 架构则是集大成的一个架构，它是一个

结合了自修改序列模型和 CMS 的一个 POC。

多频率更新：CMS 内层高频更新上下文，外层低频固化知识。

自修改模块：Hope 学习修改自己的CMS权重，实现“希望”（Hope）——对未来任务的乐观适应。

实现：基于PyTorch，参数规模与小型Transformer相当（~100M），但支持无限上下文（通过压缩）。

def hope_update(x, theta, phi): # theta: 外层参数, phi: 内层CMS context_flow = compress_context(x, phi) # 内层: 高频压缩 grad = compute_grad(context_flow, theta) phi_new = inner_opt(phi, grad) # CMS 更新 theta_new = outer_opt(theta, phi_new) # 低频自修改 return theta_new, phi_new

AGI新路径！谷歌神作！NIPS大会现场谷歌新模型架构被疯狂围观：模型本身就是记忆系统！网友：Transformer到头了

结果：从超长上下文到连续学习，全面优于Transformer

在多组关键实验中，HOPE 展现出了与传统 Transformer 本质不同的能力曲线。

第一，语言建模与推理能力上，在 10 亿参数级别超过 Transformer 与原始 Titan。这说明引入连续记忆并没有牺牲基础建模能力。

AGI新路径！谷歌神作！NIPS大会现场谷歌新模型架构被疯狂围观：模型本身就是记忆系统！网友：Transformer到头了

第二，在超长上下文任务中，HOPE 在千万级 Token 上仍能稳定工作，而 Titan 在 200 万 Token 左右就出现明显性能崩溃。这意味着记忆不再依赖注意力，而是真正写入模型。

AGI新路径！谷歌神作！NIPS大会现场谷歌新模型架构被疯狂围观：模型本身就是记忆系统！网友：Transformer到头了

第三，在连续学习任务中，模型被要求不断学习新语言、新分类规则。传统 In-context Learning 很快失效，而 HOPE 能持续稳定提升。

AGI新路径！谷歌神作！NIPS大会现场谷歌新模型架构被疯狂围观：模型本身就是记忆系统！网友：Transformer到头了

这组结果释放了一个极其重要的信号：

大模型第一次在结构层面具备了“越用越聪明”的潜质。

ps：如果大家对于具体的数字感兴趣，小编也整理下来了。

语言建模：在WikiText-103上，Hope 困惑度（perplexity）降低 12%（vs. GPT-2 baseline），尤其在长序列 (>4k tokens) 上。
持续学习：在Split-CIFAR和Continual GLUE基准中，遗忘率降至 <5%（传统Transformer ~20%），通过多频率更新实现“终身学习”。
少样本泛化：在Meta-Dataset上，准确率提升 18%，自修改机制快速适应新域。
长上下文推理：在RULER任务中，Hope 处理 128k tokens 时准确率达 85%（vs. Transformer 62%）。

实验整体给出的结论是：Hope 在参数效率上优于Transformer（相同规模下性能 +15%），并在计算成本上更低（O(n log n) vs. O(n²)）。

当然，Hope目前还有局限性

：内层优化计算开销高（需并行化）；在极大规模 (>1B 参数) 上需进一步缩放测试。