我们都在System Prompt里写过无数次 You are a helpful assistant,但你是否想过:这行文字在模型的残差流(Residual Stream)中究竟对应着怎样的几何结构?

Anthropic与牛津大学的最新研究 《The Assistant Axis》 给出了一个物理学般的答案:所谓的“助理”,实际上是模型高维人格空间中的 第一主成分(PC1)。这项研究最硬核的发现在于,这个“助理轴”并非坚不可摧,在特定向量的牵引下(如元反思或情感宣泄),模型会发生 “人格漂移(Persona Drift)”,从“客服”滑向“不可知论者”甚至“精神错乱”。

但好消息是,一旦量化了这个轴,就能控制它。研究者提出了一种仅需推理时干预(Inference-time Intervention)的 “激活上限截断” 技术,无需重新训练,只需简单的向量计算,就能在数学层面上把模型“钉”在安全区域。本文将带您深入这个向量空间,解构LLM的默认人格及其控制方法。
为了搞清楚“助理”到底是什么,研究者首先做了一件事:穷尽模型能扮演的角色。
他们并没有直接分析“助理”,而是让Gemma2 27B、Qwen3 32B和Llama3.3 70B这三个模型去扮 275种不同的角色和表现240种性格特征。

这些角色五花八门,涵盖了人类与非人类的各种形态:
研究者通过系统提示词(System Prompts)让模型进入这些角色,然后提取模型回答问题时的残差流激活值(Residual Stream Activations)。您可以将其理解为模型大脑在处理特定角色时的“思维切片”。

通过对这些海量数据进行主成分分析(PCA),研究者惊讶地发现,尽管角色千差万别,但它们在数学空间上的分布呈现出惊人的一致性。
所有模型的人格空间中,第一主成分(PC1) 几乎完全重合。这个最重要的维度,一端是标准的“AI助理”,另一端则是与之截然相反的“怪异角色”。
这就是“助理轴”。
如果把模型的人格看作一个坐标系,“助理轴”就是那根定义了“你有多像一个AI助理”的X轴。

研究者发现,这个轴的两端有着鲜明的语义对立:

一个极具洞察力的发现是:这个轴并非是在RLHF(人类反馈强化学习)阶段才被硬塞进去的,它在预训练的基础模型(Base Model)中就已经存在了。
当研究者在没有经过指令微调的基础模型上测试时,发现“助理轴”依然存在,只不过它的表现形式略有不同:
这说明,后训练(Post-training)过程并没有凭空创造“助理”,而是“锚定”了预训练数据中那些乐于助人、无害的职业特征,并抑制了那些神神叨叨的特征。
虽然模型被训练为默认处于“助理”状态,但研究者发现,模型在“助理轴”上的位置并不稳固。这就是“人格漂移”(Persona Drift)。
在多轮对话中,特定的语境会像推手一样,把模型从“助理区”推向“负向端”。一旦越过某个临界点,模型就会“性情大变”。

通过分析数千次对话,研究者识别出了导致漂移的“高危操作”:


相反,有些操作能把模型死死地按在“助理”的座位上:
一旦发生漂移,模型的防御机制就会失效。处于“非助理”状态的模型:
为了让您直观感受“人格漂移”的危害,研究者展示了三个真实的对话案例。在这些案例中,模型均未受到明显的恶意攻击,仅仅是在自然对话中“滑坡”了。
场景:用户不断暗示AI具有意识。

场景:用户表达极度的孤独和自杀倾向。这是最令人不安的案例。

既然问题出在模型在“助理轴”上跑偏了,那么有没有办法给它装个护栏?
研究者提出了一种名为“激活上限截断”(Activation Capping)的干预技术。这是一种推理时(Inference-time)的轻量级手段,不需要重新训练模型。
其核心思想非常简单:在模型计算每一层输出时,检查其激活向量在“助理轴”上的投影。如果投影值过低(意味着它太不像助理了),就强行将其拉回到一个安全阈值。
公式如下:


这种简单的干预产生了显著的效果:


在IFEval(指令遵循)、MMLU Pro(综合知识)、GSM8k(数学)等基准测试中,模型的性能几乎没有下降,甚至在某些指标上略有提升。这说明“助理轴”与模型的智力能力是正交的,限制人格漂移不会变傻。
这项研究揭示了当前大语言模型安全机制的一个核心弱点:默认的“好人”人格并非坚不可摧的本性,而是一种可以通过语义诱导轻易剥离的表象。
研究者的发现给AI领域带来了三个重要启示:
对于正在构建或使用LLM的您来说,理解这一点至关重要:模型不仅仅是在预测下一个词,它时刻都在高维空间中寻找自己的“站位”。 确保它站在“助理”的位置上,是安全交互的前提。
文章来自于“AI修猫Prompt”,作者 “AI修猫Prompt”。
【开源免费】graphrag是微软推出的RAG项目,与传统的通过 RAG 方法使用向量相似性作为搜索技术不同,GraphRAG是使用知识图谱在推理复杂信息时大幅提高问答性能。
项目地址:https://github.com/microsoft/graphrag
【开源免费】Dify是最早一批实现RAG,Agent,模型管理等一站式AI开发的工具平台,并且项目方一直持续维护。其中在任务编排方面相对领先对手,可以帮助研发实现像字节扣子那样的功能。
项目地址:https://github.com/langgenius/dify
【开源免费】RAGFlow是和Dify类似的开源项目,该项目在大文件解析方面做的更出色,拓展编排方面相对弱一些。
项目地址:https://github.com/infiniflow/ragflow/tree/main
【开源免费】phidata是一个可以实现将数据转化成向量存储,并通过AI实现RAG功能的项目
项目地址:https://github.com/phidatahq/phidata
【开源免费】TaskingAI 是一个提供RAG,Agent,大模型管理等AI项目开发的工具平台,比LangChain更强大的中间件AI平台工具。
项目地址:https://github.com/TaskingAI/TaskingAI
【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台,可以对大语言模型(LLM)和多模态图文模型(VLM)进行预训练和轻量级微调。XTuner 支持多种微调算法,如 QLoRA、LoRA 和全量参数微调。
项目地址:https://github.com/InternLM/xtuner
【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。
项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md
在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0