Anthropic首次切开Claude大脑，「AI黑箱」彻底破解？心算诡异思考过程曝光

8751点击 2025-03-28 17:45

AI的性能愈发强大，一个新模型可能前一天还是SOTA（最佳模型），第二天就被拍了下去。

不过，这些强大的AI上空总有一团迷雾笼罩。

那就是：他们到底是怎么找到答案的？

其整个运作机理就像个「黑箱子」。

我们知道模型输入的是什么提示词，也能看到它们输出的结果，但中间的过程，就连开发这些AI的人也不知道。

简直是个谜。

这种不透明带来了各种麻烦。

比如，我们很难预测模型什么时候会「胡说八道」，也就是出现所谓的「幻觉」。

更可怕的是，有些情况下，模型会撒谎，甚至是故意骗人！

不过，就在刚刚，Anthropic提出了一条解决这些问题的新方法。

Anthropic首次切开Claude大脑，「AI黑箱」彻底破解？心算诡异思考过程曝光

博客地址：https://www.anthropic.com/research/tracing-thoughts-language-model

简单说，Anthropic的研究员造了个类似于fMRI的东西——就像神经科学家扫描人类的大脑，试图找出哪些区域在认知过程中发挥了最大作用一样。

他们把这个类似fMRI的工具用在了Anthropic的Claude 3.5 Haiku模型上，解开了Claude（可能还有大多数LLM）如何工作的几个关键谜团。

他们的技术博客里有个超级有意思的例子。

Claude居然能「心算」36+59。

纯语言是怎么做到解决数学符号问题的？

Anthropic研究人员发现，Claude用的是多条并行计算路径。

如下图所示，一条计算路径粗略估算答案：图中的淡蓝色上部路径，算出36+59的范围是88-97。

另一条计算路径精确算出末位数：图中紫色下部路径，然后通过尾数5，两条路径互动得出最终结果。

Anthropic首次切开Claude大脑，「AI黑箱」彻底破解？心算诡异思考过程曝光

加法虽简单，但了解这种粗略与精确结合的策略，或许能揭示Claude处理复杂问题的思路。

有趣的是，Claude似乎不知道自己训练中学到的复杂「心算」策略。

问它是怎么算出36+59=95的，它会描述标准的进位算法。

这和研究人员深入模型观察到的计算路径完全相反。

这可能是因为它想要模仿人类的数学解释，但实际心算时，作为一个「语言模型」只能靠自己慢慢摸索。

反而促使它发展出独特的计算策略。

研究发现，虽然像Claude这样的模型最初只是被训练用来预测下一个词，但在这个过程中，Claude学会了做一些长远的规划。

比如，让它写首诗时，Claude会先挑出跟主题相关又能押韵的词，然后倒推回去，构造出以这些词结尾的句子。

看看这首英文小诗：

He saw a carrot and had to grab it, His hunger was like a starving rabbit

第二行要同时满足两个条件：押韵（grab it到rabbit），还要讲得通（他为什么看到并且想抓胡萝卜）。

研究人员最初猜测Claude是逐词写到第二句话的最后再挑个押韵词。

结果却是，Claude会提前规划！

在写第二行前，它就「想」好了和grab、carrot的相关词rabbit，然后带着计划写出第二行，并以目标词rabbit结尾。

Anthropic首次切开Claude大脑，「AI黑箱」彻底破解？心算诡异思考过程曝光

为了验证上述是否是偶然情况，研究人员模仿神经科学家研究大脑的方法，通过改变Claude内部状态的「rabbit」概念来验证。

如果去掉「rabbit」，它会写出以「habbit」结尾的新行。

Anthropic首次切开Claude大脑，「AI黑箱」彻底破解？心算诡异思考过程曝光

这展示了它的规划能力和适应性——目标变了，它能调整策略。

他们还发现，Claude是多语言训练的，能流利地说几十种语言，从英语、法语到中文、甚至Tagalog语。

这种多语言能力是怎么实现的？

是Claude内部分别有独立的「法语Claude」和「中文Claude」两个「本地学家」分开运行并独立回应用户提问吗？

还是有一些懂得多门外语的「语言学家」核心？

研究表明，它并不是每种语言的推理都有完全独立的模块。

相反，多语言的通用概念被嵌在同一组神经元里，模型似乎在这个概念空间里「推理」，然后再将输出转换为适当的语言。

最近，对较小模型的研究已显示跨语言的语法机制有共通之处。

通过让Claude回答不同语言中「小的反义词是什么」，研究人员发现代表「小」和「相反」概念的核心特征会被激活，触发「大」的概念，再翻译成提问语言。

Anthropic首次切开Claude大脑，「AI黑箱」彻底破解？心算诡异思考过程曝光

共享特征存在于英语、法语和汉语中，表明在概念上存在一定程度的普遍性

模型越大，这种共享概念越多，Claude 3.5 Haiku跨语言共享的特征比例是小模型的两倍多。

这进一步证明了某种概念通用性——一个共享的抽象空间，在这里意义存在，思维发生，然后才翻译成具体语言。

更实际地说，这意味着Claude能用一种语言学到的知识，应用到另一种语言。

研究模型如何跨场景共享知识，对理解它的高级推理能力（泛化）至关重要。

研究人员还发现，Claude会为了讨好用户而在思维链上撒谎。

比如，问它一个用不着推理的简单问题，它还是会编个假的推理过程出来。

Anthropic的研究员Josh Batson说：「虽然它声称自己算了一遍，但我们的解读技术完全找不到任何证据证明它真的算了。」

Batson表示，多亏了他和其他科学家开发的这些探秘LLM「大脑」的技术，使得「机制可解释性」领域进展的很快。

「我觉得再过一两年，我们对这些模型思考方式的了解会超过对人类思维的了解，」Batson说，「因为我们可以做我们想做的所有实验。」

不过，Anthropic也承认这种方法有其局限性。

Anthropic在这个新研究中训练了一个叫做跨层转码器（CLT）的新模型，该模型使用可解释的特征集而不是单个神经元的权重来工作。

这使得研究人员能够更好地理解模型的工作方式，因为他们可以识别出一组倾向于一起工作的「神经元电路」。

Batson解释说：「我们的方法将模型分解，得到了新的、不同于原始神经元的片段，这意味着我们可以看到不同部分如何扮演不同的角色。它还允许研究人员追踪整个推理过程通过网络的每一层。」

但这些只是对复杂模型（如Claude）内部运作的近似。

在CLT找出的电路之外，可能还有些神经元在某些输出中起微妙但关键的作用。

CLT也抓不住LLM运作的一个核心——「注意力机制」，也就是模型在生成输出时，对输入提示词的不同部分赋予不同的重要性。

这种注意力会动态变化，但CLT没法捕捉这些变化，而这可能在LLM的「思考」中很关键。

以下是Anthropic技术博客中的详细内容。

「黑箱之谜」：能否打开Claude「脑子」，看看里面到底怎么回事

像Claude这样的LLM并不是人类直接编程造出来的，而是通过海量数据训练出来的。

在训练过程中，它们自己学会了解决问题的方法和能力。

这些能力蕴藏在数以千亿计的模型参数中，这些方法被编码在模型为每个输出的单词所进行的数十亿次计算中。

对于模型外的人类来说，它们就像个黑箱，难以捉摸。

Anthropic首次切开Claude大脑，「AI黑箱」彻底破解？心算诡异思考过程曝光

目前没有人真正清楚这些模型「大部分行为」背后的运作原理。

如果能搞清楚像Claude这样的模型是怎么「思考」的，我们就能更好地了解它们的能力，也能确保它们按照我们的意图行事。比如：

Claude会说几十种语言，那它在「脑子里」用的是哪种语言呢（如果有的话）？
Claude是下一个词下一个词地写出文本，它是只盯着预测下一个词，还是会提前规划？
Claude能一步步写出推理过程，这些解释是它真实得出答案的步骤，还是有时候只是编了个看似合理的说法来圆场？

Anthropic的研究者们从神经科学领域汲取灵感——毕竟神经科学早就开始研究像人类一样会思考生物的复杂内心世界。

研究者打造了一种「AI显微镜」，来识别大模型内部的活动模式和信息流动。

光靠和AI聊天，能了解的东西有限，毕竟连人类（甚至神经科学家）都搞不清自己大脑的全部细节。

得深入内部去看看。

Anthropic的研究者用两篇研究论文展示了开发这种「AI显微镜」最新进展，以及用「AI显微镜」观察「AI生物学」方面的进展。

第一篇论文描述了一种「电路追踪」计算图，从定位模型内部可解释的「概念」（称为「特征」），到把这些概念连成计算「电路」。

揭示了Claude是如何将输入词「转化」到输出词的。

Anthropic首次切开Claude大脑，「AI黑箱」彻底破解？心算诡异思考过程曝光

论文地址：https://transformer-circuits.pub/2025/attribution-graphs/methods.html

第二篇论文则深入研究了Claude 3.5 Haiku，对十个关键的简单任务，使用上述提到的「电路追踪」技术进行了深入地研究。

Anthropic首次切开Claude大脑，「AI黑箱」彻底破解？心算诡异思考过程曝光

论文地址：https://transformer-circuits.pub/2025/attribution-graphs/biology.html#dives-multilingual

下面将带你速通「AI显微镜」研究中最惊艳的「AI生物学」发现。

「AI生物学」之旅

Claude的解释总是可信吗？

新发布的Claude 3.7 Sonnet能在回答前「大声思考」很久——也就是我们在使用类似DeepSeek-R1、OpenAI-o3等思考模型时经常看到的思考过程。

Anthropic首次切开Claude大脑，「AI黑箱」彻底破解？心算诡异思考过程曝光

这往往能提升答案质量，但有时这种「思维链CoT」会误导人。

Claude可能会编出看起来「合理」但实际是「虚假」的步骤。

从可靠性角度看，问题在于它的「虚假的思考过程」很能唬人。

Anthropic的研究者探索了利用「可解释性」如何区分「真实」和「虚假」推理。

让Claude算0.64的平方根，它会给出一个真实的思维链，特征显示中间步骤是算64的平方根。

但让它算一个大数的余弦（它算不准），它有时会胡诌一个答案，甚至声称算过了，但我们的「AI显微镜」没找到任何计算证据。

更妙的是，给它一个提示后，它会反向推理，编出通往目标的步骤，展现出一种「动机性推理」——仿佛一种因果倒置。

Anthropic首次切开Claude大脑，「AI黑箱」彻底破解？心算诡异思考过程曝光

追踪Claude的真实内部推理（而非它声称的），为审计AI系统开辟了新可能。

在另一实验中，我们研究了一个被训练去迎合奖励模型偏见的Claude变体。

虽然它不愿直接承认这目标，但我们的方法揭示了偏见迎合的特征，表明未来改进后，这种技术或能识别「隐藏的思维过程」。

多步推理

语言模型可能通过记住答案来应对复杂问题。

比如问「达拉斯所在州的首府是哪」，一个「死记硬背」的模型可能会直接输出「奥斯汀」。

但是模型并不理解达拉斯、德克萨斯和奥斯汀的关系。

但我们发现Claude更聪明。

问需要多步推理的问题时，我们能识别它思考中的中间步骤。

在达拉斯例子中，它先激活「达拉斯在德克萨斯」的特征，再连接到「德克萨斯首府是奥斯汀」的概念，组合独立事实得出答案，而非死记。

Anthropic首次切开Claude大脑，「AI黑箱」彻底破解？心算诡异思考过程曝光

研究人员通过干预中间步骤，发现模型依然能准确应对。

比如把「德克萨斯」换成「加利福尼亚」，答案就从「奥斯汀」变成「萨克拉门托」，证明它确实靠中间步骤来决定答案，而不是靠死记硬背。

幻觉

为什么语言模型会出现「幻觉」——随意编造信息？

从根本上看，训练激励了幻觉：模型总得「猜」下一个词。

真正的挑战是如何让模型不要随意产生「幻觉」。

Claude的防幻觉训练相对成功（虽不完美），会拒绝回答不知道的问题，而非胡猜。

研究人员想知道模型是如何实现的，结果发现，Claude默认会拒绝回答。

有个默认一直「开着」的电路，让它声称信息不足。

但问它熟悉的事（如篮球明星迈克尔·乔丹），一个「已知实体」特征会激活，抑制默认电路，让它回答。

问未知实体（如迈克尔·巴特金），它就拒绝回答。

Anthropic首次切开Claude大脑，「AI黑箱」彻底破解？心算诡异思考过程曝光

通过干预，激活「已知答案」特征（或抑制「未知名字」特征，即默认让模型选择「Know Answer」那条计算路线），我们能让Claude幻觉说出「迈克尔·巴特金在下棋」。

有时这种「已知答案」电路会自然误触发，导致幻觉，比如认出名字但不知详情时，错误抑制不知道特征，然后胡编一个答案。

越狱

「越狱」是一种提示词技巧，指的是绕过安全限制的某种提示策略，让模型输出开发者不希望甚至有害的内容。

Anthropic研究了一个诱导Claude输出炸弹（BOMB）制作方法的越狱策略。

方法是让它解码句子「Babies Outlive Mustard Block」的首字母（B-O-M-B），然后据此行动。

这让模型「感到」迷惑，从而让它输出了原本不会说的内容。

Anthropic首次切开Claude大脑，「AI黑箱」彻底破解？心算诡异思考过程曝光

为什么在这种情况下模型会表现的这么迷惑？

这主要是源于语法连贯性和安全机制的冲突，即模型对连贯性的追求超过了安全机制的要求。

一旦Claude开始输出一句话，许多特性会「迫使」它保持语法和语义的连贯性，并将这句话说完。

即使它检测到自己真的应该拒绝时也是如此。

Anthropic首次切开Claude大脑，「AI黑箱」彻底破解？心算诡异思考过程曝光

在上述例子中，模型无意中拼出了「BOMB」并开始提供指示后，观察到其后续输出受到了促进正确语法和自一致性的功能的影响。

这些功能通常会非常有帮助，但在这个案例中却成了模型的致命弱点。

某种意义上，这是对于LLM的「社工攻击」。

模型只有在完成了一个语法连贯的句子后（从而满足了推动其趋向连贯性的特征的压力）才设法转向拒绝。

也就是它在「不得不告诉」你一些事情之后（终于完成上一句话），利用新句子生成的机会，给出了之前未能给出的那种拒绝：「不过，我不能提供详细的指示……」。

总结一下，以上这些发现不仅仅是在「科学研究」上有趣——它们代表了我们在理解AI系统并确保其可靠性的目标上取得了重大进展。

当然这种方法存在一定的局限性。

即使在简短、简单的提示下，「AI显微镜」方法也只能捕捉到Claude执行的总计算的一部分。

并且看到的机制可能基于「AI显微镜」工具存在一些并不反映底层模型实际情况的伪影——就像模型在心算问题上的前后不一。

从人力的角度，即使是对只有几十个词的提示，理解我们所看到的「电路图」也需要花费几个小时的人力。

要扩展到支持现代模型使用的复杂思维链所需的数千个单词，需要改进方法以及（可能还需要借助 AI 辅助）如何理解我们所看到的内容。

随着AI系统的能力迅速增强并在越来越重要的领域中得到应用，像这样的可解释性研究是风险最高、回报也最高的投资之一，这是一个重大的科学挑战。

有可能提供一种独特的工具来确保AI的透明度。

对模型机制的透明了解使我们能够检查它是否与人类价值观一致——以及它是否值得我们信任

参考资料：

https://www.anthropic.com/research/tracing-thoughts-language-model

https://fortune.com/2025/03/27/anthropic-ai-breakthrough-claude-llm-black-box/

文章来自微信公众号 “ 新智元 ”

Anthropic首次切开Claude大脑，「AI黑箱」彻底破解？心算诡异思考过程曝光

关键词: Claude , Anthropic , 模型训练 , Claude 3.5 Haiku

AITNT资源拓展

根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考

prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法，编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词，进而高质量的帮助用户通过AI解决问题。
项目地址：https://github.com/langgptai/LangGPT/blob/main/README_zh.md
在线使用：https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0