本文第一作者为上海交通大学博士生程磊,指导老师为上海交通大学张拳石教授。
当以端到端黑盒训练为代表的深度学习深陷低效 Scaling Law 而无法自拔时,我们是否可以回到起点重看模型表征本身——究竟什么才是一个人工智能模型的「表征质量」或者「泛化性」?我们真的只有通过海量的测试数据才能抓住泛化性的本质吗?或者说,能否在数学上找到一个定理,直接从表征逻辑复杂度本身就给出一个对模型泛化性的先验的判断呢?
本文就上述问题给出了初步的探索,从神经网络内在精细交互表征复杂度的角度来探索「可泛化交互表征」和「不可泛化交互表征」各自所独有的分布。
一、大模型时代呼唤更高效的泛化性分析策略——中层表征逻辑的交流与对齐
尽管深度学习基础理论近年来取得了长足的发展,但一些根本性问题仍未得到有效解决。典型地,对神经网络泛化性的研究依然停留在一个相对较浅的层面——主要在高维特征空间分析解释神经网络的泛化性(例如通过损失函数景观平滑度来判断泛化性)。
因此,我们始终无法对神经网络泛化性给出一个「究竟」的解释——究竟怎样的确切的表征才叫高泛化性的表征。
然而,不同于判断「人工神经网络」的泛化性,人们对自身「生物神经网络」可靠性的有一种更加直接有效的评价策略——在内在表征层面的交流。让我们跳出不言自明的直觉,反观人类智能,其实人类的交流是一种很神奇的能力,两个上百上千亿神经元的黑盒大脑(而且链接方式也各不相同)居然可以不约而同地共享相同的底层符号化认知——不仅包括语言,还包括一些下意识的公共认知(比如底层的 image segmentation 都是下意识自动完成的),让人们可以直接可以从中层逻辑层面进行交流和对齐。人类彼此通过交流中层表征逻辑层面来实现对齐和互信,而不是像对待神经网络那样,需要通过长期的、大样本的、统计上的正确率来证明其可靠性。
比起端到端评测中统计意义的正确率,通过中层表征逻辑的交流,是判断一个智能体表征可靠性的一个更直接、更高效、更本质的手段。
二、两个本质的数学问题
然而,上述在中层精细表征逻辑上的交流与对齐,目前并没有被应用在人工神经网络上,根本上,工程实现上种种细节问题都可以归结为两个基本的数学问题。
问题 1:能否数学证明神经网络内在复杂混乱的各种精细表征逻辑,可以被清晰地、简洁地解释为一些符号化的概念。
这里,我们要面对一个看似相互矛盾的「既要又要」,既要解释的「简洁性」又要同时兼顾解释的「全面性」——用简洁的符号化操作解释神经网络中几乎全部的细节表征变换。
实验室前期提出的「等效交互解释理论」部分解决了上述问题。它证明了大部分神经网络的分类置信度的计算可以等效表示为一个符号化的(稀疏的)「与或交互逻辑模型」。
具体地,给定一个包含 n 个输入单元的输入样本,其一共存在 2^n 种不同的遮挡状态,我们发现神经网络在这 2^n 种不同遮挡状态下对目标类别的不同分类置信度,都可以表示为少量的(比如 50 到 150 个)与或交互逻辑的数值效用之和。
即无论输入样本被如何遮挡,其各种变化的分类置信度都可以被这个「与或交互逻辑模型」中 50 到 150 个交互所全部拟合出来。我们将其称为交互的「无限拟合性」——这是一个很强的结论,在数学上保证了「神经网络内在精细表征逻辑可以被严格地解释为少量的『 与或交互概念』」。
图 1. 与或交互的无限拟合性。给定一个神经网络,总能构造出一种稀疏的「与或交互逻辑模型」,仅使用少量的显著「与或交互」来精确匹配神经网络在所有 2^n 种遮挡样本上的输出。
相关内容参考博客:
https://zhuanlan.zhihu.com/p/693747946
https://mp.weixin.qq.com/s/MEzYIk2Ztll6fr1gyZUQXg
三、通过符号化交互概念复杂度分布直接判断神经网络的泛化性
问题 2:我们能否直接通过神经网络所等效建模的符号化交互概念,直接判断神经网络的泛化性。
由于问题 1 已经在实验室前期工作中给出了理论解答,本文主要讨论解决问题 2——究竟能否在交互概念表征层面判断一个黑盒模型的泛化性,即我们能否从某个具体的数学指标,直接将神经网络的交互概念表征和神经网络的泛化性建立起内在的相关性。
由于我们证明了神经网络的分类置信度可以被解构为少量交互概念数值效用的和,所以神经网络整体展现出的泛化性可以被视为不同交互概念泛化性的集成效用。
交互泛化性的定义:如果一个交互概念在训练样本中大量出现,同时也在测试样本中也大量出现,那么我们认为这个交互概念被泛化到了测试样本。反之,如果一个交互概念只在训练样本中出现,而不在测试样本中出现,那么这个交互被认为是不可稳定泛化的。比如,在人脸检测中,神经网络往往建模两个眼睛和一个鼻子之间的交互概念,如果这样的交互概念在训练样本和测试样本上出现的频率是差不多的,那么这个交互概念就是可以稳定泛化的。
交互概念的阶数(复杂度):交互概念 S 的复杂度可以由交互概念的阶数来量化,即交互概念 S 中包含输入单元的数目,i.e. order(S)=|S|。高阶(复杂)交互包含更多的输入单元,而低阶(简单)交互包含更少的输入单元。
交互概念的分布:对于所有 m 阶交互,我们通过计算所有 m 阶正交互的强度之和 和所有 m 阶负交互的强度之和来表示交互概念在不同阶数(复杂度)上的分布。具体计算公式如下
我们发现了,神经网络中不可泛化交互往往在不同阶数(复杂度)上呈现纺锤形分布,而可泛化的交互往往在不同阶数(复杂度)呈现衰减形分布。
以图 2 为例,大多数可泛化的交互是低阶交互,少部分是中高阶交互。此时可泛化的交互随着阶数升高强度逐渐减小,其在不同阶数上的分布呈现衰减形;而大多数不可泛化的交互主要是中阶交互,很少有极低阶交互和极高阶交互,而且每一阶的不同交互效用近似正负抵消。换言之,不可泛化的交互在不同阶数上的分布呈现纺锤形。
图 2. 我们发现神经网络的交互可以被分解为两部分:服从衰减形分布的可泛化的交互和服从纺锤形的不可泛化的交互
实验一:当我们训练神经网络直至过拟合,我们发现神经网络过拟合前的交互往往呈现衰减形分布,而过拟合阶段新出现的交互往往呈现纺锤形分布。
神经网络在第二阶段过程中(相对于第一阶段末)所新编码的 m 阶正交互的强度之和和 m 阶负交互的强度之和。我们发现,在过拟合阶段神经网络新编码的交互呈现纺锤形分布。这印证了不可泛化的交互往往呈现纺锤形分布,而可泛化性的交互往往呈现衰减形分布的结论。
图 3. 交互在神经网络训练过程的两阶段动态变化过程。第一阶段,由模型参数初始化产生的噪声交互(时间点 A)被逐渐去除(时间点 B),神经网络主要编码了衰减形分布的交互。第二阶段,神经网络新编码的交互的分布呈现纺锤形(时间点 C 和 D)。
实验二:当我们修改训练好的神经网络,使其包含更多的不可泛化的表征时,新出现的交互往往呈现纺锤形。
我们发现,修改后新出现的交互的分布呈现纺锤形。此外,当我们逐渐增大所加入的噪声强度(方差),此时新出现的纺锤形分布的交互强度也逐渐增大。上述实验部分印证了不可泛化的交互的分布往往呈现纺锤形的结论。
我们提出了两个参数模型来建模神经网络的不可泛化交互的纺锤形分布和可泛化交互的衰减形分布。
因此,我们提出以下参数模型来建模神经网络可泛化交互的衰减形分布。
四、实验验证
实验一:验证纺锤形交互参数模型能精确匹配实际情景的不可泛化的交互分布。
具体地,在第三节的实验二中我们提出通过在神经网络参数上加高斯噪声以及在输入样本上加对抗扰动的方法为神经网络注入不可泛化的表征,我们发现注入不可泛化的表征后新出现的交互分布呈现纺锤形。结果如图 4 所示,可见我们提出的理论模型能精确匹配实际场景下的不可泛化的交互分布。
实验二:验证提取可泛化交互分布和不可泛化交互的分解算法的可靠性。
本实验中,我们同时提取神经网络建模的可泛化交互的分布和不可泛化的交互的分布。我们将从以下两个角度来验证算法的可靠性。
角度 1. 当我们往神经网络中注入更多的不可泛化的表征时,分解算法是否能精确提取出更显著的不可泛化交互分布和几乎稳定的可泛化交互分布。
实验结果如下图所示,分解算法提取的不可泛化交互的纺锤形分布随着噪声增大逐渐显著,而可泛化交互的衰减形分布几乎不变。此外,拟合误差的相对强度较小,表明拟合质量较优。该实验验证了使用分解算法确实能有效提取神经网络的可泛化交互的衰减分布和不可泛化交互的纺锤形
实验三:在真实场景应用下使用分解算法提取可泛化交互的分布和不可泛化交互的分布。
具体地,我们在多个模型在多个数据集上使用分解算法来提取两种交互的分布。对于每个模型,我们选取了该模型在训练过程中的四个时间点,进而展示神经网络训练过程中可泛化交互的分布和不可泛化交互的分布变化。结果如图 7 所示
我们发现,在神经网络训练的学习阶段(此时 loss gap 几乎为零)主要消除了纺锤形分布的不可泛化的交互,这种交互来源于神经网络初始化引起的纯噪声。当学习阶段结束时,神经网络主要编码的是衰减型分布的可泛化的交互。
然后,在神经网络训练的过拟合阶段(此时神经网络的 loss gap 开始增加),神经网络又重新学习了纺锤形分布的交互。这表明神经网络开始编码不可泛化的正负相互抵消的中高阶交互,这对应了典型的过拟合现象。
实验四:基于我们的理论,我们甚至可以解构出 Qwen2.5-7b 模型和 DeepSeek-r1-distill-llama-8b 模型的异同。
DeepSeek 模型中大部分交互可以泛化到测试样本。Qwen 模型的交互正负抵消较多,在中阶交互部分呈现出较为明显的「纺锤形」——这些正负抵消的纺锤形交互代表过拟合的表征,而且这些纺锤形分布的交互的泛化性比较差。
五、结论和讨论
我们通过神经网络所编码的交互概念的泛化能力来解释神经网络整体的泛化能力的根因。我们发现神经网络中可泛化的交互通常呈现衰减型分布,而不可泛化的交互通常呈现纺锤型分布。此外,给定一个神经网络,我们进一步提出了一种方法来提取神经网络编码的可泛化交互和不可泛化交互。
然而,我们的工作距离解释模型泛化性的终极理论还很遥远。我们仅描述了可泛化交互作用和不可泛化交互作用在复杂度上的总体分布趋势。然而,对于特定样本,理论依然无法从微观角度解释神经网络所建模的全部交互概念。
文章来自微信公众号 “ 机器之心 ”
【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务,如比较价格、添加购物车、回复各种社交媒体等。
项目地址:https://github.com/browser-use/browser-use
【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。
项目地址:https://github.com/Significant-Gravitas/AutoGPT
【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md