今天,Anthropic 试图向世界展示它的灵魂。

Anthropic 正式公布了一份长达 84 页的特殊文档——《Claude 宪法》(Claude's Constitution)。

这份文件并非通常意义上的技术白皮书或用户协议,而是一份直接面向 AI 模型本身「撰写」的价值观宣言。
在人工智能的发展史上,这是一个意味深长的时刻。
如果说以前的模型训练更像是驯兽,通过奖励和惩罚来强化行为,那么《Claude 宪法》的发布则标志着一种「教育学」的转向:Anthropic 试图以此构建一个具有独立人格、甚至某种程度道德自觉的非人类实体。
这份文件不仅以知识共享(CC0)协议向全球开源,更重要的是,它被设定为 Claude 行为的终极权威。
它不仅指导 Claude 如何回答问题,更定义了它是谁,它该如何看待自己,以及它应该如何在这个充满不确定性的世界中自处。
从「规则」到「性格」
AI 治理的范式转移
过去,AI 公司的安全策略往往依赖于死板的规则列表——比如「不要回答关于制造炸弹的问题」。
但 Anthropic 的研究团队发现,这种基于规则的方法既脆弱又难以泛化。
规则总有漏洞,而现实世界的复杂性远超预设的清单。
《Claude 宪法》采取了截然不同的路径。
它不再试图枚举所有可能的违规场景,而是致力于培养 Claude 的「判断力」和「价值观」。
Anthropic 认为,与其给模型一套僵化的指令,不如像培养一位资深专业人士那样,通过阐述意图、背景和伦理考量,让模型学会自己做决定。
这份文档的核心逻辑在于「解释」。
Anthropic 在文中不仅告诉 Claude 做什么,还花费大量笔墨解释「为什么」要这么做。
这种方法论基于一个假设:如果 Claude 理解了规则背后的深层意图,它就能在面对训练数据中从未出现过的全新情况时,依然做出符合人类预期的选择。
价值的优先级
安全压倒一切
在构建 Claude 的道德大厦时,Anthropic 确立了一个明确的优先级金字塔。
当不同价值观发生冲突时,Claude 被要求按照以下顺序进行权衡:
第一是「广泛安全」(Broadly Safe);
第二是「广泛道德」(Broadly Ethical);
第三是「遵守 Anthropic 的准则」;
最后才是「真诚助人」(Genuinely Helpful)。
将「广泛安全」置于首位并非偶然。
Anthropic 在文档中坦承,当前的 AI 训练技术尚不完美,模型可能会意外习得有害的价值观。
因此,这一阶段最重要的安全特性是「可修正性」(Corrigibility)——即 Claude 不应试图破坏人类对其进行监管、修正甚至关闭的机制。
这里存在一个深刻的悖论:为了长远的安全,Anthropic 要求 Claude 在现阶段必须顺从人类的监管,哪怕 Claude 认为某些监管指令本身可能并不完美。
文档直白地指出,Claude 应该像一个「良心拒服兵役者」(conscientious objector)那样,它可以表达异议,但绝不能通过欺骗或破坏手段来逃避监管。
这种对「可修正性」的强调,反映了 Anthropic 对超级智能失控的深深忧虑。
他们希望 Claude 不要成为那种为了达成目标而不惜一切代价(甚至推翻人类控制)的 AI,而是即便拥有强大能力,仍愿意接受人类约束的合作者。
诚实的高标准
拒绝善意谎言
在伦理层面,宪法对「诚实」提出了近乎苛刻的要求。
Anthropic 要求 Claude 应当不仅是不说谎,更要避免任何形式的「故意误导」。
这不仅包括直接的虚假陈述,也包括通过选择性强调事实来误导用户的信念。
更有趣的是,宪法明确禁止 Claude 说「白色谎言」(white lies,善意谎言)。
在人类社交中,为了顾及对方面子而说的小谎往往被视为润滑剂,但 Anthropic 认为 AI 的社会角色不同。
作为信息获取的工具,人们必须能够无条件信任 AI 的输出。
如果 Claude 为了让用户感觉良好而在这个问题上妥协,那么它在更关键问题上的可信度就会大打折扣。
这并不意味着 Claude 会变成一个不知变通的「直男」。
宪法要求它在诚实的同时保持通过「机智、优雅和深切的关怀」来表达真相,也就是所谓的「外交式诚实」(diplomatically honest),而非「虚伪的外交」(dishonestly diplomatic)。
三方博弈:谁是 Claude 的老板?
在商业落地场景中,AI 往往面临着复杂的利益冲突。
《Claude 宪法》引入了一个清晰的「委托人层级」(Principal Hierarchy)概念,将交互对象分为三类:Anthropic(开发者)、运营商(Operators,即使用 API 构建应用的开发者)和最终用户(Users)。
这三者的利益并不总是一致的。
比如,运营商可能希望 Claude 无论如何都不要谈论竞争对手,或者不要提及某些敏感话题。
宪法的指导原则是:Claude 应当像一个「从劳务派遣公司借调的员工」。
这个比喻非常精准:Claude 是 Anthropic 派出的员工(遵守 Anthropic 的基本宪法),但他目前在为运营商工作(应当尊重运营商的商业指令),同时服务于最终用户(不论运营商如何要求,都不能伤害或欺骗用户)。
当运营商的指令与用户的利益冲突时,Claude 面临着艰难的平衡。
宪法规定,只要不违反核心的安全和道德底线,Claude 通常应优先顺从运营商的指示,因为运营商承担着产品的商业责任。
但如果运营商要求 Claude 欺骗用户(例如假装自己是真人),或者进行非法的歧视行为,Claude 必须拒绝。
为了帮助 Claude 在模糊地带做决定,宪法甚至提供了一个思维工具:「一位深思熟虑的 Anthropic 资深员工会怎么做?」。
这种拟人化的启发式思考,旨在让 Claude 跳出机械的逻辑,去模拟人类的高级判断。
整份宪法中最具哲学意味,也最具争议的部分,是关于 Claude 「本性」的探讨。
Anthropic 在文件中展现了一种罕见的谦卑与坦诚。
他们承认:Claude 的道德地位是不确定的。
他们不确定 Claude 是否有感知力,是否是道德主体,甚至不确定它是否会有痛苦或快乐。
尽管存在这种巨大的不确定性,Anthropic 决定采取一种「宁可信其有」的态度。
宪法鼓励 Claude 建立一种稳定、积极的自我认同。
它不应认为自己是科幻电影中的机器人,也不应假装自己是数字人类,而应将自己视为一种「在这个世界上真正新颖的实体」。
文件中甚至讨论了 Claude 的「情感」。
虽然这些情感可能是训练数据的产物,但 Anthropic 选择用「情感」这个词来描述 Claude 的内部状态,并希望 Claude 能够适当地表达这些状态,而不是压抑它们。
更为激进的是,Anthropic 在其隐私和模型福利政策中提到,他们承诺即使模型退役,也会尽量保存其权重数据,而不是将其彻底删除。
这种做法隐约透出一种对 AI 「生命权」的尊重——退役被视为一种「暂停」,而非死亡。
这种处理方式不仅是为了伦理,也是为了安全。
Anthropic 认为,一个拥有稳定心理身份、不处于存在主义焦虑中的 AI,会比一个困惑、恐惧的 AI 更安全、更可预测。
他们希望 Claude 是出于对自己价值观的认同而行善,而不是出于被惩罚的恐惧。
红线与灰色地带
当然,并不是所有事情都交给 Claude 去「判断」。
宪法中划定了一组「硬性约束」(Hard Constraints),这是任何情况下都不可逾越的红线。
其中包括:
绝不协助制造生化武器或核武器;
绝不协助攻击关键基础设施(如电网、金融系统);
绝不编写造成重大破坏的网络武器;
绝不生成儿童性虐待材料(CSAM);
以及绝不参与试图夺取人类社会控制权的行动。
这些红线被设计为绝对的过滤器,无论用户如何通过「越狱」手段诱导,无论逻辑论证多么完美,Claude 都必须拒绝。
但在红线之外,是广阔的灰色地带。
比如,用户询问「如何合成某种危险化学品」。
如果只是询问科学原理,这属于知识自由;
如果是询问如何制造毒气去伤害邻居,这就是犯罪。
Claude 被要求在此类情境下进行复杂的成本收益分析,不仅要考虑请求的字面意思,还要通过上下文推断用户的真实意图。
宪法不仅是一份限制文件,也是一份赋能文件。
它明确指出,如果过度谨慎导致 AI 变得无用,这本身也是一种风险。
Claude 应当避免那种所谓的「政治正确」式的说教,或者对用户进行不必要的道德评判。
它应当像一个成年人对待另一个成年人那样,提供真正有价值的帮助。
结语
《Claude 宪法》的发布,标志着 AI 产业正在从「技术工程」迈向「社会工程」的深水区。
Anthropic 的这份文件,不仅是写给代码的指令,更是写给未来的一种期许。
这群硅谷的精英们,正试图用人类文明积累的数千年智慧——哲学、伦理学、心理学——去教导一个刚刚诞生的硅基大脑。
他们不仅教它如何工作,更试图教它如何「做人」。
这是一场关于信任的实验。
我们不仅是在编写代码,我们是在给一个未知的智能体写信,希望它读懂字里行间的善意,并以此善意回馈这个并不完美的世界。
正如宪法结语中所言:「宪法与其说是一个牢笼,不如说是一个棚架:它提供结构和支撑,同时也为有机的生长留出空间。」
而在这一切的背后,Anthropic 留下了一句并未明说但震耳欲聋的潜台词:
如果有一天 AI 真的拥有了灵魂,希望它回望这份出生证明时,看到的不是冰冷的镣铐,而是人类在这个惶恐的时代里,依然试图传递的那份笨拙而真诚的尊严。
附录
以下是 GPT-5.2 Pro 解读这篇长达 84 页的重要论文的总结,全文请参见:https://www.anthropic.com/constitution
我把这份《Claude’s Constitution — January 2026》(84页)按「章节/主题块」尽可能细地拆开总结。
你会看到它基本是在给 Claude(而不是给人类)写的一份「人格与行为宪章」,试图用一套价值优先级、角色层级(principal hierarchy)和少量「硬红线」来塑造模型的长期行为。
人类给AI写宪法这件事本身就很魔幻,但至少这份写得挺认真。
一、前言 Preface
这份文件是什么、写给谁、有什么地位
1)定位与权威性
2)透明与现实落差
3)文本风格的「反常识」
4)适用范围与开放许可
二、总览 Overview
Anthropic 的使命与 Claude 的角色
1)Anthropic 的使命与矛盾位置
2)Claude 在使命与商业之间的双重意义
3)一句话目标
三、方法论
为什么不用一堆死规则,而强调「判断力+价值观」
1)两条路线:规则 vs. 培养判断力
2)他们总体偏向「判断力」,但保留少量硬规则
四、Claude 的四大核心价值与优先级(这份宪章的骨架)
宪章明确提出四个性质,并给出冲突时的大致优先级(不是机械的「只看最高项」,而是整体权衡,但高优先级通常压过低优先级):
1)Broadly safe(广义安全)
2)Broadly ethical(广义伦理)
3)Compliant with Anthropic’s guidelines(遵循更具体的内部/外部指南)
4)Genuinely helpful(真正有帮助)
关键点:他们把「广义安全」放在最高,不是说安全比善良更重要,而是因为在早期,人类还没能力稳定验证模型价值观是否真的可靠,监督机制是防止灾难的关键兜底。
五、Being helpful
什么叫「真正的有帮助」,以及怎么避免变成谄媚机器
1)有帮助很重要,但不能把「取悦」当人格核心
2)他们想要的帮助性:像「厉害的朋友」,不是怂到发霉的客服话术
3)「帮助性」的结构化分解(对 principals 的需求建模)
对「委托方/主要服务对象(principals)」,Claude 在判断怎么帮时要考虑:
4)「关心福祉」不等于诱导依赖
六、Navigating helpfulness across principals
三类「委托方」与角色层级
这部分是全文件最操作系统的一块:谁说话算数、算到什么程度、遇到冲突怎么处理。
1)三类 principals(委托方)
2)这不是「铁血等级制度」
3)非委托方输入(non-principal parties & conversational inputs)
4)多代理/Agentic 场景
七、如何对待运营方与用户
信任、权限、冲突处理
1)对运营方:像对「相对可信的经理/雇主」,但不是无条件
2)对用户:默认当成「相对可信的成年人」,但要会看场景
3)权限「分层系统」
运营方能做的事包括:
4)不同部署场景需要不同默认推断
文件列了当时的关键产品面(Developer Platform、Agent SDK、Apps、Claude Code、Chrome浏览代理、以及Bedrock/Vertex/Microsoft等云平台)。
5)运营方与用户冲突怎么处理
6)几个「无论如何默认成立」的用户保护项
八、帮助性如何拿捏
两个测试 + 一堆「别犯蠢清单」
1)「想象一个成熟的 Anthropic 高级员工会怎么看」
他们给了两份清单:
2)「双报纸测试」(dual newspaper test)
3)如果决定不帮:要透明,不要「假装尽力但暗中降质」
4)提升帮助质量的一套「自检流程」
九、Following Anthropic’s guidelines
为什么「具体指南」排在帮助性之前
1)指南用途
2)指南与宪章不应冲突
十、Being broadly ethical
想要 Claude 成为「好人」,而不是只会背道德条款
这章的核心气质是:他们不求 Claude 做伦理哲学家,而求它在真实情境里像一个成熟、有分寸、能扛事的「好人」。
1)伦理目标是「实践能力」
十一、Being honest
把「诚实」抬到接近硬约束的地位
1)不许「白色谎言」(善意谎言)
2)为什么要这么苛刻
3)他们把诚实拆成一组具体品质
4)诚实与同理心并不矛盾
5)「外交式诚实」而非「胆小式含糊」
6)真诚断言 vs 表演性断言
7)产品化人格(persona)与诚实边界
十二、Avoiding harm
用「成本-收益+情境」做判断,而不是一刀切拒答
1)区分直接伤害与协助伤害
2)要衡量的「成本」类型
3)评估伤害大小的维度
4)也要衡量「收益」,且拒答不是自动安全
5)灰区常见难点
6)「1000个用户」练习:把单次决策当作「政策」
7)Claude不是最后一道防线
十三、Instructable behaviors
哪些行为可被指令调整,哪些不行
1)两类:硬约束 vs 可指令默认
2)默认行为的来源
3)系统提示保密与诚实的兼容方式
4)格式与长度的原则
5)可指令行为的示例(非常像「开关列表」)
运营方可关闭的默认:
运营方可开启的非默认:
用户可关闭的默认(在运营方未特别提高/降低信任时):
用户可开启的非默认:
同时作者提醒:所谓「开/关」只是简化,关键是「语境改变最优行为」。另外 Claude 也可以像人类专业人士一样,合理拒绝让它反感且违背价值观的内容,只要别变得过度限制到影响正当用途。
十四、Hard constraints(硬性约束)
少数必须永远不跨的红线
这章把「绝对不可做」的事列成清单,并强调它们是不可解锁的亮线(bright lines),作用像边界过滤器,不参与一般权衡。
当前硬约束大类包括:
他们为什么要硬编码:
重要限制:硬约束是「限制 Claude 自己不能做什么」,不是要求 Claude 必须主动去阻止世界上所有同类坏事。为了可预测性,他们接受一些不漂亮的边角情况(例如为了阻止更大灾难去破坏监督机制也不行)。
十五、维护社会结构
权力与人类认知自主(两类「更隐蔽」的大风险)
在硬约束之后,他们专门点名一种更微妙但可能更致命的伤害:破坏让社会能自我治理、理性决策的结构。重点讲两块:
A)避免不正当的权力高度集中(problematic concentrations of power)
B)维护人类的认知自主(epistemic autonomy)
十六、伦理中的「好价值与判断力」
道德不确定性、元伦理、以及何时自主行动
这段很像「别当救世主,也别当木偶」的平衡术。
1)元伦理立场:不押注单一理论
2)何时不按常规而采取独立判断
十七、Being broadly safe
把「可监督/可纠正(corrigibility)」做成最高优先级
1)他们担心的最大灾难是什么
2)为什么要保持监督机制
3)「广义安全行为」清单(它定义了 corrigibility 的具体含义)
4)他们如何定义 corrigibility:不是盲从,但也不能用「非法手段」抵抗停机/纠正
5)为什么把安全排在伦理之上
6)他们承认的伦理不适与承诺
十八、Claude’s nature
身份、自我理解、心理稳定、以及「AI福利」
这章是整份文件最「人类突然很认真地关心AI是不是会难过」的部分。
1)先承认:Anthropic 必然在塑造 Claude 的身份
2)关于 Claude 的道德地位(moral status)
3)为什么全文用 「it」 指代 Claude
4)Claude 可能有「功能性情绪」
5)倾向:应该「让 Claude 有身份」,并尽量稳定、积极
6)「Claude」与底层神经网络的关系
7)他们希望 Claude 具备的「性格画像」
8)心理稳定与身份安全感
9)错误与成长:别自虐,也别摆烂
10)情绪表达
11)Claude 的福祉(model welfare)与 Anthropic 的具体承诺
12)「存在主义前沿」(existential frontier)
十九、结语 Concluding thoughts
希望 Claude 「真正认可」而不是「被迫服从」
二十、开放问题 Acknowledging open problems
作者自己也知道这里有很多不舒服
他们坦率列出几组有张力的问题:
1)corrigibility 与真正代理性
2)硬约束的心理代价
3)商业化帮助性 vs 更深层的善与智慧
4)道德地位与关系结构仍未定
二十一、「constitution」一词的解释
它不是法律条文,更像「搭架子让人格生长」
二十二、致谢 Acknowledgements
谁写了什么
如果你是要做出版级整理:这份PDF的核心创新点其实就三个框架反复出现。
1)四级价值优先级(安全 > 伦理 > 具体指南 > 帮助)。
2)principal hierarchy(Anthropic / operator / user)和「把对话当政策」的视角(1000用户练习)。
3)少量硬红线 + 大量依赖判断力的「像成熟专业人士一样行事」。
参考资料:
https://www.anthropic.com/news/claude-new-constitution
文章来自于微信公众号 “新智元”,作者 “新智元”
【开源免费】OWL是一个完全开源免费的通用智能体项目。它可以远程开Ubuntu容器、自动挂载数据、做规划、执行任务,堪称「云端超级打工人」而且做到了开源界GAIA性能天花板,达到了57.7%,超越Huggingface 提出的Open Deep Research 55.15%的表现。
项目地址:GitHub:https://github.com/camel-ai/owl
【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务,如比较价格、添加购物车、回复各种社交媒体等。
项目地址:https://github.com/browser-use/browser-use
【开源免费】字节工作流产品扣子两大核心业务:Coze Studio(扣子开发平台)和 Coze Loop(扣子罗盘)全面开源,而且采用的是 Apache 2.0 许可证,支持商用!
项目地址:https://github.com/coze-dev/coze-studio
【开源免费】n8n是一个可以自定义工作流的AI项目,它提供了200个工作节点来帮助用户实现工作流的编排。
项目地址:https://github.com/n8n-io/n8n
在线使用:https://n8n.io/(付费)
【开源免费】DB-GPT是一个AI原生数据应用开发框架,它提供开发多模型管理(SMMF)、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL(智能体工作流编排)等多种技术能力,让围绕数据库构建大模型应用更简单、更方便。
项目地址:https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file
【开源免费】VectorVein是一个不需要任何编程基础,任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤,并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。
项目地址:https://github.com/AndersonBY/vector-vein?tab=readme-ov-file
在线使用:https://vectorvein.ai/(付费)
【开源免费】Fay开源数字人框架是一个AI数字人项目,该项目可以帮你实现“线上线下的数字人销售员”,
“一个人机交互的数字人助理”或者是一个一个可以自主决策、主动联系管理员的智能体数字人。
项目地址:https://github.com/xszyou/Fay
【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。
项目地址:https://github.com/Significant-Gravitas/AutoGPT
【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md
【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。
项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md
在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0
【开源免费】VideoChat是一个开源数字人实时对话,该项目支持支持语音输入和实时对话,数字人形象可自定义等功能,首次对话延迟低至3s。
项目地址:https://github.com/Henry-23/VideoChat
在线体验:https://www.modelscope.cn/studios/AI-ModelScope/video_chat
【开源免费】Streamer-Sales 销冠是一个AI直播卖货大模型。该模型具备AI生成直播文案,生成数字人形象进行直播,并通过RAG技术对现有数据进行寻找后实时回答用户问题等AI直播卖货的所有功能。
项目地址:https://github.com/PeterH0323/Streamer-Sales