一天,你家的花园里突然出现了一个虫洞,从中你得到了一本书,书中的文字复杂难懂,仿若外星语言,这时候你会怎么破译它?是打算先分析这些文字是否像我们的字母表那样有固定的符号集合,还是观察这些符号之间的组合规律?亦或者,你想到了借用大模型的帮助,希望它能帮你理解这本书的内容?那么,大模型究竟能不能学会“外星语言”?
在开始尝试学习外星语言之前,你知道大模型已经成功破译了诸如鲸鱼等动物的语言。不止如此,大模型也能够很快学会层出不穷的编程语言。那么具有哪种特质的外星语言能让大数据模型更容易破解呢?近日,《自然-通讯》的一项研究指出,语言结构的组合性不仅让大模型的学习变得更加高效,也使人类在学习语言时变得更加轻松。
▷ 图1. 本文来源:Galke, L., Ram, Y. & Raviv, L. Deep neural networks and humans both benefit from compositional language structure. Nat Commun 15, 10816 (2024). https://doi.org/10.1038/s41467-024-55158-1
所谓组合性,是指语言中的两个词组合起来,就能表示一个更复杂的新概念。想象两种语言,语言A中描述黑马时,只需要将代表黑的词和代表马的词组合,就成了对应黑马的词汇;而语言B中,描述马,黑色以及黑马是三个截然不同的词。在这两种语言中,如果语言A比语言B出现了更多的组合词汇,就可以说语言A相比语言B具有更高的组合性。
▷ 图2.对外星人来说,zebra或者斑马,哪一种更可能让他们把这张图片和文字联系起来?图源:AlLes
对于成年人来说,学习组合性较强的语言需要更强的逻辑能力,它允许学习者推导出一组生成规则,而不是死记硬背每个单词。我们对此都有经验——学习英语的时候,了解词根再去背单词要比直接生啃单词书容易的多。组合性强的语言能让学习者能够在接触到有限的集合后可以使用这些规则产生无限的言语表达。实际上,有关研究表明,现代语言通常都具有较强的组合性结构,这是在语言进化的过程中为了提高学习和使用的效率而逐渐形成的。
在编程语言中,同样存在这样的组合性,低级的汇编语言中,你每操作一个变量,都需要对应的语句;而到了诸如python这样的高级语言,则能够将多个操作整合成一个函数,然后一次调用就完成一个矩阵成千上万个数的运算。大数据模型在理解和运用编程语言,尤其是组合性强的“高级语言”中展现出一定优势,然而,在之前的研究中,大数据模型却似乎并没有从组织性强的语言中受益的倾向。
为此,Galke等人希望通过一项研究回答一个问题:当在更结构化的语言输入上进行训练时,深度神经网络模型是否表现出与人类成年人相同的学习和泛化优势?研究者将GPT-3.5及RNN分别作为预训练模型以及待训练的语言模型,使用具有不同组合性的人工模拟语言作为训练文本,以考察人类被试和大模型学习这些实验室生成的虚拟语言时的学习能力。结果发现,学习文本中,结构性越强,无论对于人类,预训练还是未经训练的人工神经网络,学习后的泛化能力都是有所提升(图3)。
▷ 图3. 实验设计概述。研究人员设计了不同结构程度的人工语言,分为低结构和高结构两类。低结构语言缺乏系统性和组合性,而高结构语言在形状和角度属性上都具有系统性和组合性。实验过程包括多个回合的训练,每个回合包含暴露阶段、猜测阶段和生成阶段。在每个回合结束后,研究者进行了记忆测试和泛化测试,分别评估模型对之前见过的项目的再生产能力和对新项目的生成能力。
首先,研究人员解释了为什么大数据模型没有倾向于组合性强的语言。简单来说,深度神经网络通常具有巨大的模型容量,这也就意味着它们能轻易的记住所有单独的语言表述形式,而不需要通过识别组合模式来增强记忆。但是这并不意味着组合性强的语言对大数据模型没有意义,在具有更高组合度的语言中,单个意义单元在不同的语境中被重用,因此在训练数据中出现的频率更高,这样,由于在整个训练过程中的重复呈现,这些重复出现的意义单元及其语境化模式会得到更好的学习。
让我们回到外星人的例子中。假如外星人的书中有一份对照表,告诉你“追”的意思是“向右”,“问”的意思是“向上”,那么如果要表达“向右上”,你会怎么表达呢?在组合度高的语言中,我们都能找到规律,得出“追问”就能表达“向右上”的意思,而在组合度低的语言中,我们可能就找不到类似的规律。这种将已学到的知识或技能应用于新的、未见过的情境或数据的能力称为“泛化”。在高组合度语言和低组合度语言的对比中,无论是人类还是大模型,面对高组织度语言时的泛化得分都远高于面对低组织度语言时的情况(图4)。
▷图4. 显示了人类(A)、GPT-3.5(B)和RNN(C)在不同输入语言下最终达到的泛化得分。横轴表示输入语言的结构得分,纵轴表示泛化得分。每个点代表整个输入语言的泛化得分,反映学习者根据已学标签系统性地泛化新标签的程度。例如,如果学习者成功地将之前使用的部分重新组合,如将表示形状的“muif”和表示方向的“i”组合成“muif-i”,则泛化得分会很高。回归线的阴影区域表示通过自举法估计的95%置信区间。
除此之外,在使用更结构化的语言,也就是具有明确的语法规则和句法层次的语言作为训练文本时,GPT-3.5 变得与人类被试者具有更相似的预测模式,图5B为 GPT-3.5 与同一语言、同一场景下所有人类对新语言下一个词汇预测的相似。类似地,图 5A 显示了随着训练文本结构化的提升,人类在学习泛化过程中与其他人类学习者的相似性也会提升。
▷ 图5. 展示了人类(A)、GPT-3.5(B)和RNN(C)在泛化过程中与人类生产相似性的最终得分。横轴表示输入语言的结构得分,纵轴表示生产相似性得分(计算为长度标准化的编辑距离),用于衡量模型生成的标签与人类参与者生成的标签之间的相似程度。
具体来说,就是大模型和人类在学习高结构化的语言时,会呈现趋同进化,大家都会选择利用语言中的结构性,从而使得对接下来的话生成更准确的预测。
不仅如此,在学习过程中,面对机构性更高的语言,大模型能更准确预测接下来的词句,学习速度也更快(图6C)。同时,在记忆过程与泛化能力中上也与人类更加相似(图6A,B,D)。
▷ 图6. 展示了更结构化的语言如何导致更好和更快速的输入语言再生产(A)、对未知场景的更好泛化(C)、在记忆(B)和泛化(D)过程中与人类参与者的更高一致性,以及网络之间的更高收敛性(E)
而语言结构性的高低最终也会影响泛化轨迹。高结构性语言中,规则明确且透明,每个语义单位与其对应的形式具有一致性和规律性。在学习这个语言时,无论是人类还是神经网络都几乎没有歧义,所有可能的泛化路径最终都会汇聚成一致的答案。低度结构化的语言则缺乏清晰的规则和组合性,在这种情况下,泛化时的可能性较多,不同的选项都看似合理,这会造成语言的多样性,例如方言的形成。
因此,高度结构化的语言会允许更好的泛化,并加强不同神经网络之间以及神经网络与人类之间认知语言时的一致性。这证明了大语言模型对于研究人类认知机制有用的观点,同时也为人类与机器在语言学习上的相似性补充了证据。
在语言的学习上,大数据模型已经被证实拥有和人类相似的学习能力,而考虑到大数据模型拥有更好的“记忆力”,也许未来真的有一天面对外星人时,大数据模型确实能帮助我们学会外星语言。然而,真正的挑战在于,如果外星语言没有足够高的系统性,我们对语言的理解和使用可能会存在很高的错误率和不确定性。
科幻电影《降临》中的外星语言,以其高度非线性和复杂的符号结构,似乎能为人类带来超越现有认知能力的思维模式。这种语言的独特之处在于它超越了传统的线性结构,允许学习者同时获得句子的所有信息,并进而对未来事件进行预知。从结构性语言学习的角度来看,外星语言或许具有比地球语言更高的系统性,能够为学习者提供更丰富的信息,进而赋予其预测未来的能力。
▷ 电影《降临》中外星人使用的文字。来源:影视工业网
从这个角度看,更高结构性的语言输入能够使大语言模型更好地进行泛化,从而提高其对新情境的理解能力。因此,假设外星语言具备更加精确和有序的结构,基于大数据训练的模型可能会像人类一样,逐渐掌握并理解其语法规则,最终能够“学会”外星语言,甚至像《降临》中的女主角一样,改变认知方式,理解未来。
从科幻回到现实,如今基于大模型的智能体之间的相互通信甚至涌现出了新的语言。然而这些语言往往缺乏结构性,且无法被其他智能体轻易理解[1]。这可能是因为缺乏“生存压力”的智能体在涌现语言时,往往产生的只是无序的、难以学习的沟通方式[2]。人类语言的演化历史也反映了这一点。在缺乏实际生存需求的情况下,语言往往难以保持高效和系统化[3]。
更进一步的畅想未来,如果有一天人类想打破不同国家,不同民族之间的语言障碍,那我们也同样面临学习一门新语言的挑战。到了那时候,如果我们想设计一门新语言,就要充分考虑其结构的系统性。只有具备清晰、结构化的语法规则,语言才能够被全球范围内的不同群体快速掌握,并被不同的智能体理解。或许,你花园里被虫洞送来的书本,正是未来的人类跨越时间,向你发来的“世界语”词典呢?
参考文献:
【1】Galke, L., Ram, Y. & Raviv, L. Emergent communication for understanding human language evolution: what’s missing? In Emergent Communication Workshop at ICLR 2022 (2022).
【2】Kirby, S., Tamariz, M., Cornish, H. & Smith, K. Compression and communication in the cultural evolution of linguistic structure. Cognition 141, 87–102 (2015).
【3】Raviv, L., de Heer Kloots, M. & Meyer, A. What makes a language easy to learn? a preregistered study on how systematic structure and community size affect language learnability. Cognition 210, 104620 (2021).
文章来微信公众号“追问nextquestion”,作者“追问”
【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。
项目地址:https://github.com/Significant-Gravitas/AutoGPT
【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md