有人把 Claude Mythos 的架构逆向出来了

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
有人把 Claude Mythos 的架构逆向出来了
5722点击    2026-04-20 09:46

有人把 Claude Mythos 的架构逆向出来了


Anthropic 没有公开 Claude Mythos 的架构。但研究社区没有等。


Kye Gomez,Swarms 框架的作者,发布了 OpenMythos——一个用 PyTorch 从头实现的 Claude Mythos 疑似架构重建项目。发布不到 24 小时,GitHub 已经有 175 个 Star,39 个 Fork。


这不是微调,不是 prompt 工程。是在说:我们根据公开研究推断出了 Mythos 的架构,然后把它完整实现了一遍。


有人把 Claude Mythos 的架构逆向出来了

Kye Gomez (@KyeGomezB) 在 X 上宣布发布 OpenMythos,173K 浏览量


01 先说结论


这个项目的核心主张是:Claude Mythos 很可能是一个「循环深度变换器」(Recurrent-Depth Transformer,RDT)


不是更多层,不是更多参数。是同一批层,反复运行多次。


标准的 Transformer 会把 32 层、48 层、96 层叠在一起,每一层参数不同,依次往下走一遍。RDT 不这样——它把中间的一块「循环块」重复运行 T 次,每次用的是完全一样的权重。


推理深度不靠参数堆出来,靠循环次数撑出来。


这意味着什么?Parcae 研究的测试结果:一个 770M 参数的循环模型,达到了 1.3B 参数固定深度模型的同等质量。同样的任务,参数量少了 40%


02 Claude Mythos 被怀疑是什么


在理解 OpenMythos 之前,先说一下背景。


Claude Mythos 是 Anthropic 的新模型。它在很多任务上的表现让研究者感到困惑:它对从未见过的新问题的处理方式,和以前的 Claude 有质的不同。不是更快地记起训练数据,而是更像是「在想」。


Sigrid Jin、rosinality 等研究者陆续发帖:Mythos 的行为模式高度符合循环深度变换器的理论预测。尤其是两个特征让人印象深刻:


第一,系统性泛化。把 Mythos 放到训练分布之外的新组合问题上,它不会像传统 Transformer 那样逐渐退化,而是在某个节点「突然」就会了。研究者把这个现象叫做三阶段 grokking:记忆 → 分布内泛化 → 分布外泛化。这第三个阶段,标准 Transformer 做不到,循环 Transformer 有理论证明可以做到。


第二,深度外推。在 5 跳推理链上训练,在 10 跳推理链上测试——标准 Transformer 失败,循环 Transformer 成功(只要在推理时多跑几个循环)。这直接对应了 Mythos 处理多步数学和长链规划时不需要显式 chain-of-thought 的观察。


有人把 Claude Mythos 的架构逆向出来了

OpenMythos GitHub 主页:175 Stars,39 Forks,MIT 许可证


03 三段架构:Prelude、循环块、Coda


OpenMythos 实现的架构分三段:


输入

[Prelude] — 标准 Transformer 层,只跑一次

[Recurrent Block] — 循环 T 次(推理时可变)
↑__________↓ 每次循环都会重新注入原始输入信号 e

[Coda] — 标准 Transformer 层,只跑一次

输出


循环块的更新公式:


h_{t+1} = A·h_t + B·e + Transformer(h_t, e)


其中 h_t 是第 t 次循环后的隐藏状态,e 是 Prelude 编码的原始输入,AB 是可学习的注入参数。


关键细节:每次循环都会重新注入原始输入 e。这是防止模型在循环中「漂移」的机制——即使循环了七次,模型始终记得它最初在处理什么问题。没有这个 e 的重注入,多次循环会把隐藏状态推向与原始输入无关的方向。


有人把 Claude Mythos 的架构逆向出来了

OpenMythos 发布时附带的架构图:Prelude → Recurrent Block(×7 loops)→ Coda


04 隐式的链式思维


这是整个架构里最反直觉的一点。


标准的 chain-of-thought 是「输出中间步骤」:模型把 step 1 的结果写成 token,再把 step 2 的结果写成 token,一步步把推理过程可视化出来。


循环 Transformer 不这样。它的每次循环,等价于 chain-of-thought 的一步,但这一步是在连续的潜在空间里发生的,不输出任何 token


Saunshi 等人在 2025 年已经形式化证明了这一点:一个运行 T 次循环的循环模型,等价地模拟了 T 步的 chain-of-thought 推理,但全部发生在单次前向传播内部。


更有意思的是:连续潜在空间里的「思维步骤」,可以同时编码多条可能的推理路径。它不需要在 step 1 就提交一个具体的方向,而是可以在多条路径上并行探索,在循环过程中逐渐收敛。这接近于对推理空间做某种形式的宽度优先搜索,而不是一条走到底的贪心路径。


有人把 Claude Mythos 的架构逆向出来了

循环深度变换器(RDT)三段架构示意:Prelude 编码输入,Recurrent Block 反复循环推理,Coda 解码输出


05 让循环模型稳定训练


循环深度变换器有一个工程上的大麻烦:训练极不稳定


有两个主要失败模式:残差爆炸(h_t 跨循环无限增长)和 loss spike(训练中途突然发散)。


OpenMythos 采用了来自 Parcae 架构(Prairie 等,2026)的解决方案,用动力系统的角度来理解这个问题。把循环简化成一个线性时不变系统,这个系统是否稳定,完全取决于矩阵 A 的谱半径 ρ(A):



  • ρ(A) < 1 → 稳定,收敛

  • ρ(A) ≥ 1 → 不稳定,发散


Parcae 的解决方案是:把谱半径 < 1 的约束直接烧进参数化设计里。用 A := Diag(-exp(log_A)) 强制负值,配合 ZOH 离散化方案,无论学习率多高,ρ(A) < 1 总是成立。


OpenMythos 在代码里把这个检查暴露了出来:


A = model.recurrent.injection.get_A()
print(f"Spectral radius ρ(A) max: {A.max().item():.4f} (must be < 1)")


有人把 Claude Mythos 的架构逆向出来了

Parcae(Prairie 等,2026):为循环语言模型建立稳定训练方法和规模律,同等质量参数量减半


06 MoE:深度之外的宽度


循环机制解决了推理深度的问题,但没有解决知识广度的问题。用同一批权重处理代码、数学、文学、法律……这批权重要覆盖的东西太多了。


OpenMythos 的猜测是:Mythos 的循环块里每个 FFN 层都是稀疏的 MoE(混合专家)


具体设计:每个 FFN 被切分成很多小专家(每个只有正常 FFN 的 1/m 大小);一个路由器每次只激活 top-K 个专家处理当前 token;少数几个共享专家(shared experts)始终激活,吸收跨领域通用知识——语法、基础推理、通用上下文。


估计激活比例大约是 5%。这意味着 Mythos 可以持有数千亿的总参数量,而每次推理只激活其中一小部分。


关键的组合效应:随着隐藏状态在循环中演进,路由器在每次循环时可能选择不同的专家子集。每次循环不只是在用同样的权重重复计算——路由决策不同,激活的专家不同,实际上是在用不同的「专家组合」处理同一个问题的不同推理阶段。MoE 提供宽度,循环提供深度。


07 停机问题:过度思考


更多循环不是总是更好。


超过某个深度之后,过度的循环会让隐藏状态漂离正确答案,预测质量开始下降。这叫「过度思考」(overthinking)问题。


解决方案来自 Universal Transformer(2018)的 ACT(自适应计算时间)停机机制:每个位置学一个标量停机信号,动态决定什么时候停止循环。处理难的 token 多循环几次,处理简单的 token 早点停。


OpenMythos 的猜测是:Mythos 几乎肯定有某种版本的停机机制。不可能对所有输入都跑最大循环次数——这需要一个学到的「答案已收敛」信号。ACT 机制还让循环 Transformer 在某些假设下变成图灵完备的,这对它能处理的问题类型有深远含义。


08 规模律:更少参数,更好效果


Parcae 为循环模型建立了第一套可预测的规模律:


对于固定的 FLOP 预算和固定的参数量,增加平均循环次数、减少 token 数量,比最少循环 + 更多数据的效果更好。最优循环次数和最优 token 数都遵循幂律,指数在不同规模下保持一致。


推理时的规律:更多循环带来更好质量,但服从预测性的饱和指数衰减——收益真实存在但递减。这和 chain-of-thought 的推理时规模律几乎一模一样。


实验数字:770M 参数的循环模型,在相同训练数据上,达到了 1.3B 参数固定深度 Transformer 的下游质量


如果 Mythos 在这套规模律下训练,它的「能力」有相当大的比例来自循环深度而非参数量。Anthropic 从未公布 Mythos 的参数数量,这或许是原因之一——公布参数量不能反映实际的计算深度。


09 对我们意味着什么


OpenMythos 是一个 disclaimer 写得很清楚的项目:「这是独立的社区重建,基于公开研究和推测,与 Anthropic 无关。」


但这件事本身值得认真对待,原因有几个。


第一,研究社区围绕 Mythos 架构形成了相当强的共识。循环深度变换器不是一个新想法,Universal Transformer(2018)就提出了原型,但直到最近的一系列论文(Saunshi 2025、Prairie 2026),理论和工程上的难题才陆续被解决。公开证据从多个方向指向同一个架构类。


第二,循环推理有一个深刻的工程含义:推理时的计算量可以根据问题难度动态调整。简单的问题少循环几次,复杂的问题多循环几次,在同一个批次里混合处理,吞吐量理论上可以提高 2-3 倍。对于部署规模的模型,这不是学术上的细节。


第三,这条路线和「更大的模型 = 更强」的直觉不同。它说的是:同样的参数可以循环利用,推理深度可以在推理时动态控制。这对 AI 能力提升的路径有重要含义——不一定需要无限堆参数,但需要更聪明地利用有限的参数。


我在看完这个项目之后想了一个比喻:标准 Transformer 像一条流水线,每个工人做完自己的工序把零件传给下一个;循环 Transformer 像一个人反复审读同一份文稿,每次阅读都加深理解。七次循环,越来越接近答案。


参数数量不是这里最重要的东西。思考的次数,才是。


相关链接

• OpenMythos 源码: github.com/kyegomez/OpenMythos

• Parcae 论文博客: sandyresearch.github.io/parcae

• 原始帖子: x.com/KyeGomezB/status/2045659150340723107


文章来自于"深思SenseAI",作者 "深思SenseAI"。

AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
微调

【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台,可以对大语言模型(LLM)和多模态图文模型(VLM)进行预训练和轻量级微调。XTuner 支持多种微调算法,如 QLoRA、LoRA 和全量参数微调。

项目地址:https://github.com/InternLM/xtuner

2
prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。

项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md

在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0