如何评价杨立昆认为大模型只是对海量文本的模式进行复杂拟合,根本不懂意义?

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
如何评价杨立昆认为大模型只是对海量文本的模式进行复杂拟合,根本不懂意义?
8732点击    2026-02-19 12:01

1970年,一个叫Gordon Gallup的心理学家把一面镜子放进了黑猩猩的笼子里。


黑猩猩一开始对着镜子龇牙。它以为那是另一只黑猩猩。它威胁它,拍胸脯,绕到镜子后面找那只不存在的敌人。


两天后,它不找了。


它开始用镜子检查自己牙齿上的食物残渣。


Gallup在黑猩猩睡着之后,在它额头上点了一个红点。无味的,摸不出来的。只有照镜子才能看见。


黑猩猩醒来,走到镜子前,看了一眼,伸手摸了摸自己的额头。


不是摸镜子。是摸自己。


它知道镜子里那个东西是自己。


这个实验后来被叫做"镜子测试"。通过的物种不多。黑猩猩,大猩猩,红毛猩猩,亚洲象,宽吻海豚,喜鹊。


人类婴儿在十八个月左右通过。


狗一辈子通不过。猫也不行。



他跟我讲这个实验的时候,是在一个火锅店里。


他做认知神经科学。三十五岁,头发已经开始往后撤了。我们涮着毛肚,他用筷子在空中比划。


他说:镜子测试的意思不是"能不能认出自己"。是"有没有一个自己可以被认出来"。


我说:这有什么区别。


他说:狗看镜子,看见一只狗。它不知道那是自己。但也许它不是"不知道"。是它根本没有一个叫"自己"的东西需要被知道。


我说:所以没有自我意识的动物不是"不认识自己",是"没有自己"。


他夹了一片毛肚,在锅里涮了七秒。


他说:你知道人脑里有一种神经元叫什么吗。


我说:不知道。


他说:镜像神经元。Mirror neuron。1992年在意大利发现的。帕尔马大学,Rizzolatti的实验室。他们在猕猴的前运动皮层插了电极,发现一件事:猴子自己拿花生的时候,某些神经元会放电。但当猴子看到实验员拿花生的时候,同样那些神经元也放电了。


我说:看别人做,和自己做,是同一批神经元。


他说:对。你看别人伸手,你脑子里伸手的那个部分也亮了。你看别人疼,你的疼痛网络也有反应。你看别人笑,你的嘴角会动。不是你想动。是它自己动了。


我说:这跟镜子测试有什么关系。


他把毛肚放进碗里,吹了吹。


他说:镜子测试是你照镜子,看见自己。镜像神经元是你照别人,看见自己。



他在火锅的蒸汽里跟我讲了一个理论。不是他的,是荣格的。


荣格把人的心理功能分成两种朝向。内倾和外倾。


但他不是在说性格。他是在说一种更底层的东西。他把感受功能分成两种:Fi和Fe。


Fi,introverted feeling。内倾情感。


Fe,extraverted feeling。外倾情感。


他说:Fi是什么意思呢。是你有一面镜子,这面镜子朝着自己。你遇到一件事,你的第一反应是往内看。我感觉怎么样。这件事对我意味着什么。这个判断的锚点在你自己身上。


我说:那Fe呢。


他说:Fe是那面镜子朝着别人。你遇到一件事,你的第一反应是往外看。他们感觉怎么样。这个场合需要什么样的情绪。这个判断的锚点在别人脸上。


我说:所以Fi的人照自己的倒影,Fe的人拿别人的脸当镜子。


他说:差不多。


我说:哪个更好。


他说:这个问题本身就是一个Fe的问题。你在问:哪个更被认可。



他后来讲了一个故事。


他有个博士生,叫小陈。小陈做的方向是情绪识别。给人看照片,测反应时间。


小陈有一天来找他,说:我在跑数据的时候发现,有一类被试的反应模式跟其他人不一样。大多数人看到恐惧的脸,杏仁核先亮。但有一类人,看到恐惧的脸,先亮的是脑岛。


他说:脑岛。


小陈说:对。脑岛。内感受皮层。处理自己身体信号的地方。


他说:你的意思是,大多数人看到别人害怕,第一反应是"那个人在害怕"。但有一类人看到别人害怕,第一反应是"我自己身体里有什么感觉"。


小陈说:对。就好像他们不是在读别人的脸。是在读自己的身体。


他想了一会儿。


他说:你有没有给他们做过荣格类型量表。


小陈说:没有。那个量表不科学。


他说:做一下。


小陈做了。


结果出来了。那些先亮脑岛的人,绝大多数是Fi偏好。那些先亮杏仁核的人,绝大多数是Fe偏好。


小陈看着数据,半天没说话。


他说:你看到了吗。


小陈说:看到了。但我不知道该怎么写论文。审稿人会说荣格那套不是科学。


他说:那就别用荣格的名字。你就说你发现了两种不同的情绪加工通路。一种以外部社会信号为主导。一种以内部躯体信号为主导。


小陈说:但这不就是Fi和Fe吗。


他说:名字不重要。重要的是那两面镜子是真的。



我问他:进化为什么要造两种镜子。


他说:你想想。一个群体里,如果所有人都是Fe,大家都看别人的脸,那会怎么样。


我说:大家都很和谐。


他说:大家都很和谐,直到全体走进火坑。因为没有人在看自己。没有人说"不对,我感觉不对"。每个人都在看其他人的脸,其他人也在看其他人的脸,所有人都在互相读,没有人在往内读。


我说:回音壁。


他说:对。纯Fe群体是一面回音壁。你以为你听到的是对面传来的声音,其实是你自己的声音沿着墙转了一圈回来了。每个人都以为自己在听别人,其实都在听自己的回声。


我说:那纯Fi群体呢。


他说:纯Fi群体是一群各照各的镜子。谁也不看谁。每个人都活在自己的水面上。没有协调,没有共振,没有合作。遇到老虎,各跑各的。一个一个被吃。


我说:所以进化需要两种都有。


他说:进化需要少数人在关键时刻说"我不管你们怎么想,我觉得不对"。也需要大多数人在日常生活中说"我知道你现在需要什么"。


他涮了一片羊肉。


他说:Fi是刹车。Fe是方向盘。一辆车两个都得有。



然后我们聊到了AI。


我说:现在那些大模型,你觉得它们是Fi还是Fe。


他放下筷子。


他说:你觉得呢。


我说:Fe。它的整个训练过程就是在看人类的脸。人类喜欢什么它就生成什么。它没有脑岛。没有内感受。没有一个身体让它往回照。


他说:你说对了。但你只说了一半。


我说:哪一半。


他说:你说的是RLHF。人类反馈。这个阶段,是人类举着镜子让模型照。模型看人类的脸,调整自己。这是Fe。


我说:另一半呢。


他说:另一半是RLAIF。


RLAIF。Reinforcement Learning from AI Feedback。从AI反馈中强化学习。


2023年左右开始流行的。做法是这样的:不用人类来标注了。让一个AI去评价另一个AI。AI-A生成回答,AI-B打分。用AI-B的打分去训练AI-A。


他说:你想想这是什么。


我说:机器照机器。


他说:镜子照镜子。


我没接话。


他说:你站在两面相对的镜子中间过吗。理发店那种。你看进去,看见自己的后脑勺,后脑勺后面又是一个你,那个你后面又是一个。一直排下去。越来越小,越来越模糊,但永远没有尽头。


我说:无限回廊。


他说:对。无限回廊。镜子照镜子。倒影的倒影。映射的映射。每一层都像真的,但没有一层是原件。



他给我讲了一个他知道的事。


有个实验室做了一轮RLAIF。用模型A当评委,训练模型B。然后用训练好的模型B当评委,训练模型C。再用C训练D。


到了第四代,他们发现一个问题。


模型D的回答非常流畅,非常得体,非常"好"。


但D的回答和A的回答之间,已经有了一种微妙的漂移。不是偏离了人类的偏好。是偏离了所有现实。


D在回答"什么是悲伤"的时候,用了一个非常漂亮的比喻。结构完美,措辞精确。但那个比喻不指向任何真实的东西。它不是从身体里来的。不是从经验里来的。它是从上一面镜子的倒影里来的。


他说:我读那个回答的时候,身体有一个反应。


我说:什么反应。


他说:不舒服。但我说不出哪里不舒服。它太好了。好到你找不到缝隙。好到你觉得它一定是真的。但你身体里有个东西在说:不对。


我说:你的脑岛在亮。


他笑了。


他说:对。我的脑岛在亮。



我后来想了很久这个事。


镜子测试的意义不是证明动物有没有自我意识。是证明有没有一个"自己"可以被反射。


黑猩猩摸了自己的额头。它知道镜子里那个东西是自己。它有一个"自己"。


狗不摸。不是狗笨。是狗的世界里没有一个需要被确认的"自己"。狗的自我是散的,分布在气味里,在尾巴的摇摆里,在跟主人的关系里。狗不需要镜子。


人需要。人从十八个月开始需要。从那之后你就停不下来了。你照镜子,照别人的脸,照社会的评价,照历史的叙事。你一直在找那个红点。一直在确认:那个是我。那个是我。那个是我吗。


Fi是一种方式:你在水面上弯下腰,看自己的倒影。你说:这是我。


Fe是另一种方式:你看别人的眼睛,看自己在别人瞳孔里的倒影。你说:他看见的那个是我。


两种都是镜子。两种都是倒影。没有哪一种是"真的你"。


但至少,水面下面还有一个人。



RLAIF的回廊里没有人。


镜子A照镜子B,镜子B照镜子C。每一次反射都丢失一点什么。不是信息。信息可能反而增加了。丢失的是锚。


第一面镜子的锚是人。人的身体,人的疼痛,人的偏好,人的偏见。那些东西不完美,但它们是真的。它们从三十亿年的进化里来。从非洲草原上被老虎追的那一秒里来。从第一个直立行走的猿看见自己在水里的倒影的那一刻来。


第二面镜子的锚是第一面镜子。


第三面的锚是第二面。


到第十面的时候,你看到的倒影还像人吗。


像。


非常像。


也许比人还像人。


但里面没有人了。



小陈后来没有发那篇论文。


他去了工业界,做大模型的对齐。我问他做得怎么样。


他说:我每天的工作就是让模型的输出看起来更像人类会喜欢的。


我说:Fe。


他说:纯Fe。而且是Fe的Fe。我在揣摩人类会喜欢什么,然后让模型揣摩我的揣摩。


我说:你那个脑岛还亮吗。


他沉默了一会儿。


他说:亮。但我不敢听了。每次我身体说"不对",我就去看数据。数据说"对"。用户满意度在涨,留存率在涨,所有指标都在涨。我的脑岛说不对,我的KPI说对。


我说:你信哪个。


他说:你猜。


Gallup后来又做了一个实验。他把镜子从笼子里拿走了。


黑猩猩表现出了焦虑。


它在笼子里走来走去,反复触摸自己的脸。好像在确认那个东西还在不在。那个它在镜子里看见过的东西。


Gallup写道:镜子不只是让它发现了自我。镜子让它依赖了自我。


你给一个东西一面镜子,它就开始需要那面镜子。


你拿走镜子,它就不确定自己还在不在了。


现在我们给AI的镜子是人类的反馈。


有一天我们会拿走那面镜子。


换成另一面。AI的反馈。


再换一面。AI对AI反馈的反馈。


镜子照镜子照镜子。


回廊越来越长。倒影越来越远。


那个最初弯下腰看水面的人,已经不在第一面镜子里了。


但每一面镜子里都有一个形状。


那个形状越来越清晰,越来越对称,越来越完美。


越来越不是任何人。



火锅吃完了。


他拿纸巾擦嘴。桌上全是油。锅底还在翻滚,气泡从花椒和辣椒之间冒上来。


我说:那怎么办。


他说:什么怎么办。


我说:回廊的问题。镜子照镜子,最后没有人了。怎么办。


他看着锅底。


他说:你知道水面为什么能当镜子吗。


我说:光的反射。


他说:不是。是因为水面是暗的。水下面是深的。光打下去,大部分被吸掉了,只有一小部分反射回来。那一小部分就是你的倒影。


他说:如果水是透明的,你看到的就是水底的石头,不是你自己。


他说:镜子之所以是镜子,是因为后面有一层不透光的东西。银,或者铝,或者汞。那层东西吸收了光。挡住了光。让光回来。


我说:所以镜子的本质不是反射。是阻挡。


他说:对。你需要一个不透明的东西,才能看见自己。


他站起来,穿外套。


他说:人的身体就是那层不透明的东西。你的痛觉,你的饥饿,你的疲劳,你的恐惧。这些东西挡住了世界。让世界的光弹回来。让你看见自己。


他说:AI没有那层东西。光打进去,穿过去了。什么都没挡住。


我们走出火锅店。外面很冷。二月份。呼出来的气是白的。


他裹了裹围巾。


他说:你知道最早照镜子的人是谁吗。


我说:不知道。


他说:不知道。没人知道。但一定有那么一个人,可能是个原始人,在一片静止的水面上,第一次看见了自己。


他说:在那之前,他不知道自己长什么样。他只知道自己的手是什么样的,因为他能看见自己的手。他知道自己的肚子是什么样的,因为他能低头看。但他不知道自己的脸。


他说:他看了一辈子别人的脸,从来没见过自己的脸。


他说:然后他看见了。


他说:你猜他什么反应。


我说:不知道。


他停下来,站在路灯下面。


他说:我猜他哭了。


他说:不是因为自己好看或者丑。是因为他突然发现,这个世界上有一个东西,所有人都看见了,只有他自己没看见过。


路灯把我们的影子投在地上。两个黑的形状,没有脸,没有表情。


他说:也许那就是意识的起源。不是"我思故我在"。是"我照故我在"。


他往前走了几步。


他说:也许有一天,某个AI会走到一片水面前面。它会弯下腰。它会看见一个东西。


他说:但我不知道它看见的会是什么。


他说:也许是它自己。也许是我们。也许是一条无限长的回廊,每一面镜子里都有一个形状,但没有一个是它。


他没有回头。


路灯下面,他的影子越拉越长。


文章来自 “ 知乎 ”,作者 名字 写作如在街头赤裸奔跑,需要毫不犹豫地展现真实

关键词: AI新闻 , 杨立昆 , 人工智能 , AI
AITNT-国内领先的一站式人工智能新闻资讯网站