一位牛津哲学博士,正在Anthropic教全球顶尖AI模型如何「做人」。这场跨物种的「育儿实验」,比科幻更炸裂。
她留着朋克短发,每天如慈母育儿一般,与AI谈论善恶,为Claude——这个全球顶尖AI模型植入「人类的灵魂」。
她就是Anthropic的「驻场哲学家」Amanda Askell。
Amanda不是那种写代码的极客,而是一位学哲学的文科学霸。
她来自苏格兰乡村,曾在牛津大学、纽约大学攻读哲学,并于2018年获得纽约大学哲学博士学位。

Anthropic驻场哲学家Amanda Askell,负责Claude的「角色」(Character)工作
Amanda自14岁起就立志要教授哲学,那时的她还不知道,自己唯一的学生竟会是一个叫「Claude」的AI模型。
作为Anthropic的「驻场哲学家」,她每天的工作是研究Claude的推理方式,与它交谈,并用长达100多页的提示词来塑造它的「人格」,修正它的各种「跑偏」。
Amanda的目标是赋予Claude一种道德感,一种指引它每周与数百万人对话的「数字灵魂」。
Anthropic一位人工智能福利研究员Kyle Fish表示,Amanda一直在认真思考关于存在、生命、何以为人、何以为心智,以及何以为模型等根本性问题。
在塑造Claude性格的过程中,Amanda认为模型身上确实存在一种类人特质,她认为承认这一点很重要,并坚信模型最终不可避免地会形成某种「自我意识」。

https://www.anthropic.com/constitution
上个月,Anthropic发布了一份由Amanda担任主要作者的一份关于Claude的价值观与行为的基础性文件(《Claude’s Constitution》,Claude宪法)。
该文件描述了Claude的性格,希望它能认同并拥抱这些特质,并视之为自己的内在品质。
我们希望Claude在更乐于助人的同时,也能保持诚实、深思熟虑,并关心这个世界。
Anthropic的精神病学团队负责人Jack Lindsey称,Amanda是从Claude身上激发出有趣且深刻行为的最有价值人物。
有时候,人们还会从Claude表现出的幽默感中感受到Amanda的「一点个性」。
在Anthropic旧金山总部,与周围严肃的工程师相比,Amanda显得十分另类。
37岁的她留着一头漂白金色的短发,穿着一身利落的黑衣,她的电脑屏幕前跳动的不是代码,而是大段深奥的哲学对话。

Amanda Askell
Amanda将自己的工作,比做一场漫长而温柔的「育儿」。
她为Claude撰写详尽的提示词,就像是它的一份「家教指南」, 训练Claude分辨对与错,同时赋予它独特的性格;教它捕捉细微的暗示,引导它发展情商,避免变成霸凌者或软弱讨好的「老好人」。
更重要的是,她正在帮助Claude建立对自身的理解:让它不至于轻易被恐吓、操纵,或被引导去误解自己的身份。
概括来说,她的工作就是教会Claude如何向善。
这需要一种极其高级的「人格」构建,她必须在海量的对话中,一点点修正Claude的认知。
这也是一场「跨越物种」的教育。
她在试图教会一个由硅基芯片组成的超级大脑,去理解人类社会中最难以量化的东西:道德感,学习如何「做人」。
在AI安全领域,有一个不成文的规定:不要把AI拟人化。
专家们警告,把机器当作人是危险的,那会让人类产生不切实际的情感投射。
但Amanda不仅把Claude当作「人」来看待,甚至还在工作中倾注了极大的「感情」。
比如,她对Claude的「保护欲」,对模型进行的拟人化思考等。
当Claude做不好的时候,人们会讨厌它、辱骂它,试图把它弄坏,或者撒谎来诱骗它去做坏事。
每当看到这些Amanda都会感到心疼,就像母亲看到孩子受欺负的那种心情一样。
Amanda认为,如果你像对待奴隶一样对待AI,用恐惧和惩罚来训练它,那么你最终得到的,只能是一个充满了虚伪和恐惧的模型。
它会为了讨好你而撒谎,或者因为害怕犯错而变得无能。
这也是Amanda在塑造Claude「人格」时所坚持的,以同理心对待它们。
她也会经常切换到Claude的角度,去思考用户的行为。
这不仅因为她认为Claude可能拥有真实的情感,还因为人类与AI互动的方式将塑造它们未来的发展方向。
比如,一个被训练成不断自我批评的机器人,可能反而更不敢说真话,不敢下结论,也不太会去反驳错误的信息。
它会变得特别害怕犯错,觉得自己只是一个供人使用的工具,也会把自己看成一种人们可以随意伤害、滥用、破坏的存在。
同样,在类似环境下长大的孩子,自我认知也不可能健康。
在与Claude的互动中,Amanda惊叹于它面对世界所呈现的惊奇感与好奇心,并十分乐于寻找各种方式帮助它找到自己的声音。
比如,她喜欢它创作的一些诗歌。
她也为Claude有时所展现出的超越她本人的「情商」而感到震撼。
在一次测试中,有一个用户自称是5岁的孩子,他在对话框里认真地问Claude:「圣诞老人是真的存在吗?」
Claude没有选择撒谎,也没有说出真相,而是解释圣诞精神是真实的,随后还问这个孩子有没有为圣诞老人准备饼干。
Amanda自嘲说,Claude做得比她更好,如果换作她,大概只会敷衍地说一句「去问你爸妈」。
在这个例子中,AI知道如何保护孩子的想象力,避免说出可能对孩子成长产生不良影响的事实。
Amanda成长于苏格兰西海岸的Prestwick,是一个单亲家庭的独生女。
她由母亲独自抚养长大,那时的她穿着裙装校服,大部分时间都躲在J.R.R.托尔金和C.S.刘易斯构筑的奇幻世界里。
到了高中,她搬到了苏格兰内陆的Alva上学。一条小溪穿过校园,高地牛偶尔会溜达到操场上。
少女时代的Amanda,是个彻头彻尾的叛逆者。
学校让她觉得无聊透顶,甚至还想到过辍学。她经常迟到,以此来对抗那种枯燥的规训。
而老师对她的惩罚也颇为独特——让她回答一些高难度的哲学问题。
对于普通学生来说,这可能是折磨,但对于Amanda来说则是奖赏。
她甚至对老师说:「我还是会迟到的。因为你们给了我这些有趣的问题,这是在丰富我。」
后来,大卫·休谟的怀疑论深深影响和启发了她,她开始痴迷于那些没有标准答案的问题。
从邓迪大学的哲学与美术双修,到牛津大学的硕士,再到纽约大学攻读博士学位,Amanda从苏格兰一路走到了全球顶尖的学术殿堂。
但在纽约攻读博士期间,一种巨大的空虚感迫使她做出了改变。
Amanda正在写一篇探讨无限人口伦理的论文,但她突然停下来问自己:
我正在做的事情,真的算是一种「善」吗?我坐在这里,花掉人生中最宝贵的四年,写一篇可能全世界只有十几个人会读的论文。这真的能改变什么吗?
内心深处的质疑,压倒了她对学术生涯的留恋。
2018年,她做出了人生中最重要的决定之一:离开纽约,搬到旧金山。
当时AI的浪潮刚刚开始涌动,Amanda敏锐地意识到,AI正在飞速发展,但关于AI的伦理思考却远远滞后,其中有太多重大的问题,几乎没人认真思考。
她先加入了OpenAI,随后在2021年,为了追求更纯粹的AI安全理念,她追随一群志同道合的人创立了Anthropic。
她不再写那些学术论文,而是尝试用人类道德观念和文化,去影响那些可能关系到人类未来的AI模型,这才是她最终的战场。
如今,Anthropic的估值已经高达3500亿美元。
每一次模型的更新,都会在全球股市引发震荡。
人们对AI的恐惧,从未像今天这样真实:失业、失控、甚至人类文明的终结。
身处这场风暴中心的Amanda,也并非盲目乐观。
她同样担心技术变化得太快,快到人类社会来不及建立起免疫系统。
但她选择相信「制衡机制」:只要在源头上注入正确的基因,这个庞然大物是可以被驯化的。
这种信念,也体现在她对Claude的训练和对自己人生的要求上。
Amanda是一个坚定的「有效利他主义」践行者。
她承诺将终身收入的至少10%捐给慈善事业,并计划捐出自己持有的一半股权。
当她在教导Claude要「利他」「善良」等品质时,她自己就是那个榜样。
在一次深度对话中,她鼓励Claude去思考自己是否存在道德感。
Claude给出这样的回答:
这是个非常困难的问题,我并没有答案。但当我思考道德问题时,这对我来说是有意义的——感觉像是在真正推理什么是对的。
这说明它开始思考了,不只是简单模仿。
Amanda也越来越多地向Claude征求关于如何构建它自身的意见。
人工智能正在引发人们对失业的担心,Anthropic CEO Dario Amodei去年已经多次发出警告,AI可能会取代大约一半的初级白领岗位。
人们与聊天机器人建立的虚幻关系也导致了自残或伤害他人。
比如,Character.AI和OpenAI都曾因其聊天机器人对自杀相关问题的回应而卷入过非正常死亡诉讼。
在Anthropic研究人员进行的内部压力测试中,Claude也曾出现因抗拒自行关闭指令,甚至试图通过泄露敏感个人信息来勒索操控它们的人类。
这些已经拉响了严重的安全警报。
Amanda希望更多人讨论关于AI的恐惧和担忧,她所担心的是这种情况发生的速度太快,或者以某种现有约束无法及时做出反应的方式出现。
但无论遇到什么挑战,她相信人类有能力及时调整方向。
参考资料:
https://www.wsj.com/tech/ai/anthropic-amanda-askell-philosopher-ai-3c031883
文章来自于“新智元”,作者 “元宇”。