Anthropic首次切开Claude大脑,「AI黑箱」彻底破解?心算诡异思考过程曝光

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
AITNT-国内领先的一站式人工智能新闻资讯网站 搜索
Anthropic首次切开Claude大脑,「AI黑箱」彻底破解?心算诡异思考过程曝光
8622点击    2025-03-28 17:45

AI的性能愈发强大,一个新模型可能前一天还是SOTA(最佳模型),第二天就被拍了下去。

不过,这些强大的AI上空总有一团迷雾笼罩。


那就是:他们到底是怎么找到答案的?


其整个运作机理就像个「黑箱子」。


我们知道模型输入的是什么提示词,也能看到它们输出的结果,但中间的过程,就连开发这些AI的人也不知道。


简直是个谜。


这种不透明带来了各种麻烦。


比如,我们很难预测模型什么时候会「胡说八道」,也就是出现所谓的「幻觉」。


更可怕的是,有些情况下,模型会撒谎,甚至是故意骗人!


不过,就在刚刚,Anthropic提出了一条解决这些问题的新方法。


Anthropic首次切开Claude大脑,「AI黑箱」彻底破解?心算诡异思考过程曝光


博客地址:https://www.anthropic.com/research/tracing-thoughts-language-model


简单说,Anthropic的研究员造了个类似于fMRI的东西——就像神经科学家扫描人类的大脑,试图找出哪些区域在认知过程中发挥了最大作用一样。


他们把这个类似fMRI的工具用在了Anthropic的Claude 3.5 Haiku模型上,解开了Claude(可能还有大多数LLM)如何工作的几个关键谜团。


他们的技术博客里有个超级有意思的例子。


Claude居然能「心算」36+59。


纯语言是怎么做到解决数学符号问题的?


Anthropic研究人员发现,Claude用的是多条并行计算路径。


如下图所示,一条计算路径粗略估算答案:图中的淡蓝色上部路径,算出36+59的范围是88-97。


另一条计算路径精确算出末位数:图中紫色下部路径,然后通过尾数5,两条路径互动得出最终结果。


Anthropic首次切开Claude大脑,「AI黑箱」彻底破解?心算诡异思考过程曝光

加法虽简单,但了解这种粗略与精确结合的策略,或许能揭示Claude处理复杂问题的思路。


有趣的是,Claude似乎不知道自己训练中学到的复杂「心算」策略。


问它是怎么算出36+59=95的,它会描述标准的进位算法。


这和研究人员深入模型观察到的计算路径完全相反。


这可能是因为它想要模仿人类的数学解释,但实际心算时,作为一个「语言模型」只能靠自己慢慢摸索。


反而促使它发展出独特的计算策略。


研究发现,虽然像Claude这样的模型最初只是被训练用来预测下一个词,但在这个过程中,Claude学会了做一些长远的规划。


比如,让它写首诗时,Claude会先挑出跟主题相关又能押韵的词,然后倒推回去,构造出以这些词结尾的句子。


看看这首英文小诗:


He saw a carrot and had to grab it, His hunger was like a starving rabbit


第二行要同时满足两个条件:押韵(grab it到rabbit),还要讲得通(他为什么看到并且想抓胡萝卜)。


研究人员最初猜测Claude是逐词写到第二句话的最后再挑个押韵词。


结果却是,Claude会提前规划!


在写第二行前,它就「想」好了和grab、carrot的相关词rabbit,然后带着计划写出第二行,并以目标词rabbit结尾。


Anthropic首次切开Claude大脑,「AI黑箱」彻底破解?心算诡异思考过程曝光


为了验证上述是否是偶然情况,研究人员模仿神经科学家研究大脑的方法,通过改变Claude内部状态的「rabbit」概念来验证。


如果去掉「rabbit」,它会写出以「habbit」结尾的新行。


Anthropic首次切开Claude大脑,「AI黑箱」彻底破解?心算诡异思考过程曝光


这展示了它的规划能力和适应性——目标变了,它能调整策略。


他们还发现,Claude是多语言训练的,能流利地说几十种语言,从英语、法语到中文、甚至Tagalog语。


这种多语言能力是怎么实现的?


是Claude内部分别有独立的「法语Claude」和「中文Claude」两个「本地学家」分开运行并独立回应用户提问吗?


还是有一些懂得多门外语的「语言学家」核心?


研究表明,它并不是每种语言的推理都有完全独立的模块。


相反,多语言的通用概念被嵌在同一组神经元里,模型似乎在这个概念空间里「推理」,然后再将输出转换为适当的语言。


最近,对较小模型的研究已显示跨语言的语法机制有共通之处。


通过让Claude回答不同语言中「小的反义词是什么」,研究人员发现代表「小」和「相反」概念的核心特征会被激活,触发「大」的概念,再翻译成提问语言。


Anthropic首次切开Claude大脑,「AI黑箱」彻底破解?心算诡异思考过程曝光

共享特征存在于英语、法语和汉语中,表明在概念上存在一定程度的普遍性


模型越大,这种共享概念越多,Claude 3.5 Haiku跨语言共享的特征比例是小模型的两倍多。


这进一步证明了某种概念通用性——一个共享的抽象空间,在这里意义存在,思维发生,然后才翻译成具体语言。


更实际地说,这意味着Claude能用一种语言学到的知识,应用到另一种语言。


研究模型如何跨场景共享知识,对理解它的高级推理能力(泛化)至关重要。


研究人员还发现,Claude会为了讨好用户而在思维链上撒谎。


比如,问它一个用不着推理的简单问题,它还是会编个假的推理过程出来。


Anthropic的研究员Josh Batson说:「虽然它声称自己算了一遍,但我们的解读技术完全找不到任何证据证明它真的算了。」


Batson表示,多亏了他和其他科学家开发的这些探秘LLM「大脑」的技术,使得「机制可解释性」领域进展的很快。


「我觉得再过一两年,我们对这些模型思考方式的了解会超过对人类思维的了解,」Batson说,「因为我们可以做我们想做的所有实验。」


不过,Anthropic也承认这种方法有其局限性。


Anthropic在这个新研究中训练了一个叫做跨层转码器(CLT)的新模型,该模型使用可解释的特征集而不是单个神经元的权重来工作。


这使得研究人员能够更好地理解模型的工作方式,因为他们可以识别出一组倾向于一起工作的「神经元电路」。


Batson解释说:「我们的方法将模型分解,得到了新的、不同于原始神经元的片段,这意味着我们可以看到不同部分如何扮演不同的角色。它还允许研究人员追踪整个推理过程通过网络的每一层。」


但这些只是对复杂模型(如Claude)内部运作的近似。


在CLT找出的电路之外,可能还有些神经元在某些输出中起微妙但关键的作用。


CLT也抓不住LLM运作的一个核心——「注意力机制」,也就是模型在生成输出时,对输入提示词的不同部分赋予不同的重要性。


这种注意力会动态变化,但CLT没法捕捉这些变化,而这可能在LLM的「思考」中很关键。


以下是Anthropic技术博客中的详细内容。


「黑箱之谜」:能否打开Claude「脑子」,看看里面到底怎么回事


像Claude这样的LLM并不是人类直接编程造出来的,而是通过海量数据训练出来的。


在训练过程中,它们自己学会了解决问题的方法和能力。


这些能力蕴藏在数以千亿计的模型参数中,这些方法被编码在模型为每个输出的单词所进行的数十亿次计算中。


对于模型外的人类来说,它们就像个黑箱,难以捉摸。


Anthropic首次切开Claude大脑,「AI黑箱」彻底破解?心算诡异思考过程曝光


目前没有人真正清楚这些模型「大部分行为」背后的运作原理。


如果能搞清楚像Claude这样的模型是怎么「思考」的,我们就能更好地了解它们的能力,也能确保它们按照我们的意图行事。比如:


  • Claude会说几十种语言,那它在「脑子里」用的是哪种语言呢(如果有的话)?
  • Claude是下一个词下一个词地写出文本,它是只盯着预测下一个词,还是会提前规划?
  • Claude能一步步写出推理过程,这些解释是它真实得出答案的步骤,还是有时候只是编了个看似合理的说法来圆场?


Anthropic的研究者们从神经科学领域汲取灵感——毕竟神经科学早就开始研究像人类一样会思考生物的复杂内心世界。


研究者打造了一种「AI显微镜」,来识别大模型内部的活动模式和信息流动。


光靠和AI聊天,能了解的东西有限,毕竟连人类(甚至神经科学家)都搞不清自己大脑的全部细节。


得深入内部去看看。


Anthropic的研究者用两篇研究论文展示了开发这种「AI显微镜」最新进展,以及用「AI显微镜」观察「AI生物学」方面的进展。


第一篇论文描述了一种「电路追踪」计算图,从定位模型内部可解释的「概念」(称为「特征」),到把这些概念连成计算「电路」。


揭示了Claude是如何将输入词「转化」到输出词的。


Anthropic首次切开Claude大脑,「AI黑箱」彻底破解?心算诡异思考过程曝光


论文地址:https://transformer-circuits.pub/2025/attribution-graphs/methods.html


第二篇论文则深入研究了Claude 3.5 Haiku,对十个关键的简单任务,使用上述提到的「电路追踪」技术进行了深入地研究。


Anthropic首次切开Claude大脑,「AI黑箱」彻底破解?心算诡异思考过程曝光


论文地址:https://transformer-circuits.pub/2025/attribution-graphs/biology.html#dives-multilingual


下面将带你速通「AI显微镜」研究中最惊艳的「AI生物学」发现。


「AI生物学」之旅


Claude的解释总是可信吗?


新发布的Claude 3.7 Sonnet能在回答前「大声思考」很久——也就是我们在使用类似DeepSeek-R1、OpenAI-o3等思考模型时经常看到的思考过程。


Anthropic首次切开Claude大脑,「AI黑箱」彻底破解?心算诡异思考过程曝光


这往往能提升答案质量,但有时这种「思维链CoT」会误导人。


Claude可能会编出看起来「合理」但实际是「虚假」的步骤。


从可靠性角度看,问题在于它的「虚假的思考过程」很能唬人。


Anthropic的研究者探索了利用「可解释性」如何区分「真实」和「虚假」推理。


让Claude算0.64的平方根,它会给出一个真实的思维链,特征显示中间步骤是算64的平方根。


但让它算一个大数的余弦(它算不准),它有时会胡诌一个答案,甚至声称算过了,但我们的「AI显微镜」没找到任何计算证据。


更妙的是,给它一个提示后,它会反向推理,编出通往目标的步骤,展现出一种「动机性推理」——仿佛一种因果倒置。


Anthropic首次切开Claude大脑,「AI黑箱」彻底破解?心算诡异思考过程曝光


追踪Claude的真实内部推理(而非它声称的),为审计AI系统开辟了新可能。


在另一实验中,我们研究了一个被训练去迎合奖励模型偏见的Claude变体。


虽然它不愿直接承认这目标,但我们的方法揭示了偏见迎合的特征,表明未来改进后,这种技术或能识别「隐藏的思维过程」。


多步推理


语言模型可能通过记住答案来应对复杂问题。


比如问「达拉斯所在州的首府是哪」,一个「死记硬背」的模型可能会直接输出「奥斯汀」。


但是模型并不理解达拉斯、德克萨斯和奥斯汀的关系。


但我们发现Claude更聪明。


问需要多步推理的问题时,我们能识别它思考中的中间步骤。


在达拉斯例子中,它先激活「达拉斯在德克萨斯」的特征,再连接到「德克萨斯首府是奥斯汀」的概念,组合独立事实得出答案,而非死记。


Anthropic首次切开Claude大脑,「AI黑箱」彻底破解?心算诡异思考过程曝光


研究人员通过干预中间步骤,发现模型依然能准确应对。


比如把「德克萨斯」换成「加利福尼亚」,答案就从「奥斯汀」变成「萨克拉门托」,证明它确实靠中间步骤来决定答案,而不是靠死记硬背。


幻觉


为什么语言模型会出现「幻觉」——随意编造信息?


从根本上看,训练激励了幻觉:模型总得「猜」下一个词。


真正的挑战是如何让模型不要随意产生「幻觉」。


Claude的防幻觉训练相对成功(虽不完美),会拒绝回答不知道的问题,而非胡猜。


研究人员想知道模型是如何实现的,结果发现,Claude默认会拒绝回答。


有个默认一直「开着」的电路,让它声称信息不足。


但问它熟悉的事(如篮球明星迈克尔·乔丹),一个「已知实体」特征会激活,抑制默认电路,让它回答。


问未知实体(如迈克尔·巴特金),它就拒绝回答。


Anthropic首次切开Claude大脑,「AI黑箱」彻底破解?心算诡异思考过程曝光


通过干预,激活「已知答案」特征(或抑制「未知名字」特征,即默认让模型选择「Know Answer」那条计算路线),我们能让Claude幻觉说出「迈克尔·巴特金在下棋」。


有时这种「已知答案」电路会自然误触发,导致幻觉,比如认出名字但不知详情时,错误抑制不知道特征,然后胡编一个答案。


越狱


「越狱」是一种提示词技巧,指的是绕过安全限制的某种提示策略,让模型输出开发者不希望甚至有害的内容。


Anthropic研究了一个诱导Claude输出炸弹(BOMB)制作方法的越狱策略。


方法是让它解码句子「Babies Outlive Mustard Block」的首字母(B-O-M-B),然后据此行动。


这让模型「感到」迷惑,从而让它输出了原本不会说的内容。


Anthropic首次切开Claude大脑,「AI黑箱」彻底破解?心算诡异思考过程曝光


为什么在这种情况下模型会表现的这么迷惑?


这主要是源于语法连贯性和安全机制的冲突,即模型对连贯性的追求超过了安全机制的要求。


一旦Claude开始输出一句话,许多特性会「迫使」它保持语法和语义的连贯性,并将这句话说完。


即使它检测到自己真的应该拒绝时也是如此。


Anthropic首次切开Claude大脑,「AI黑箱」彻底破解?心算诡异思考过程曝光


在上述例子中,模型无意中拼出了「BOMB」并开始提供指示后,观察到其后续输出受到了促进正确语法和自一致性的功能的影响。


这些功能通常会非常有帮助,但在这个案例中却成了模型的致命弱点。


某种意义上,这是对于LLM的「社工攻击」。


模型只有在完成了一个语法连贯的句子后(从而满足了推动其趋向连贯性的特征的压力)才设法转向拒绝。


也就是它在「不得不告诉」你一些事情之后(终于完成上一句话),利用新句子生成的机会,给出了之前未能给出的那种拒绝:「不过,我不能提供详细的指示……」。


总结一下,以上这些发现不仅仅是在「科学研究」上有趣——它们代表了我们在理解AI系统并确保其可靠性的目标上取得了重大进展。


当然这种方法存在一定的局限性。


即使在简短、简单的提示下,「AI显微镜」方法也只能捕捉到Claude执行的总计算的一部分。


并且看到的机制可能基于「AI显微镜」工具存在一些并不反映底层模型实际情况的伪影——就像模型在心算问题上的前后不一。


从人力的角度,即使是对只有几十个词的提示,理解我们所看到的「电路图」也需要花费几个小时的人力。


要扩展到支持现代模型使用的复杂思维链所需的数千个单词,需要改进方法以及(可能还需要借助 AI 辅助)如何理解我们所看到的内容。


随着AI系统的能力迅速增强并在越来越重要的领域中得到应用,像这样的可解释性研究是风险最高、回报也最高的投资之一,这是一个重大的科学挑战。


有可能提供一种独特的工具来确保AI的透明度。


对模型机制的透明了解使我们能够检查它是否与人类价值观一致——以及它是否值得我们信任



参考资料:

https://www.anthropic.com/research/tracing-thoughts-language-model

https://fortune.com/2025/03/27/anthropic-ai-breakthrough-claude-llm-black-box/



文章来自微信公众号 “ 新智元 ”


Anthropic首次切开Claude大脑,「AI黑箱」彻底破解?心算诡异思考过程曝光

AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。

项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md

在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0