LeCun新证明:世界是高斯的

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
LeCun新证明:世界是高斯的
7916点击    2026-05-29 09:37

LeCun的LeJEPA到底有没有构建出世界模型?他本人最新发表的论文,解答了这个问题。


答案是肯定的,但是有条件,世界的底层变量需要服从高斯分布


LeCun新证明:世界是高斯的


论文给出了完整的数学证明,覆盖了精确成立的条件和近似情况下误差的退化规律。


同时,LeCun他们还用机器人手臂控制实验验证了这一点——


在目标导向的控制任务上,用高斯采样训练出来的模型,规划效果与已知真实状态的理想情况在统计上没有差异。


这让LeCun押注多年的JEPA路线,终于有了理论支撑。


模型学没学到世界,怎么判断?


判断一个机器学习模型的内部表示,到底对不对得上真实世界的结构,要看它能不能还原世界里的真实变量。


一个模型在训练集上表现优秀,并不代表它真正理解了世界,可能只是把图像的纹理、光照、背景等无关信息混在一起,恰好拼凑出了正确答案。


一旦场景发生变化,这样的表示就会失效。


真正有用的表示,应该对应世界的真实自由度,比如物体的位置、速度、颜色这些独立的内在变量,而不是它们被观测过程扭曲之后的混合产物。


问题在于,这些变量的观测本身就是一道屏障。


我们看到的图像、传感器的读数,都是世界真实状态经过复杂非线性变换之后的结果。


这个变换可以非常复杂,大量的结构信息在这个过程中被混淆、叠加。


从这样的观测出发反推真实结构,在数学上一般是无法保证的,这正是表示学习长期面临的核心难题。


对比学习、VICReg、BYOL等自监督学习的各种方法,在这个问题上都绕开了正面回答。


这些方法的共同特点是,它们对模型输出的嵌入分布没有明确的约束,只是通过各种技巧防止表示退化为常数。


嵌入分布是什么形状、有什么性质,这些方法并不关心。


正因如此,想要从理论上分析这些方法学到的表示是否还原了真实结构,就缺乏足够的数学方法。


LeJEPA的设计在这里走了一条不同的路。


它通过一个叫SIGReg的正则项,把模型输出的嵌入分布显式约束为各向同性高斯分布。


这个约束让嵌入空间有了明确的几何结构,也正是这个结构,让严格的理论分析成为可能。


LeCun新证明:世界是高斯的


选择高斯分布的一个前提,是论文对世界的潜变量做了一个假设——它们服从高斯分布。


这个假设的选择有两个理由。


高斯分布是给定均值和方差条件下熵最大的分布,这意味着它对潜变量的结构做出了最少的额外假设,是一个尽可能保守的起点。


与此同时,任务相关的潜变量往往是大量微观变量聚合的结果,根据中心极限定理,这类聚合变量天然趋向高斯分布。


高斯分布,有效且唯一的答案


在LeCun的论文中,判断LeJEPA的表示是否还原了世界的真实结构的标准,叫做线性可识别性


意思是说,如果学到的表示和真实潜变量之间存在一个线性对应关系,就认为模型还原了世界的真实结构。


但这个标准的门槛并不低,它要求表示空间里的每一个维度,都对应真实世界里某一个独立的变量


用数学语言来表达,就是存在一个矩阵Q,使得真实潜变量经过Q的线性变换之后,恰好等于模型输出的表示。


用于判断线性可识别性的工具,叫做线性探针,即在冻结的表示上,训练一个线性分类器或回归器,用来衡量表示里包含了多少关于目标变量的信息。


线性探针本身只能做线性变换,这意味着它能提取到什么,完全取决于表示里的信息——


如果表示真的线性对应了真实变量,线性探针就能准确提取,反之亦然。


论文中,作者正是用线性探针来衡量LeJEPA的表示是否还原了真实潜变量的。


实验的设置是这样的:


  • 先在已知的低维高斯潜变量上施加非线性混合函数,这些混合函数包括螺旋形变换、正弦剪切、抛物线剪切、RealNVP耦合层等多种形式,目的是把潜变量变换成观测数据;
  • 接着,再用LeJEPA在这些观测数据上训练编码器;
  • 最后在编码器输出的表示和原始潜变量之间拟合一个线性回归,用R²衡量两者的线性对应程度。


R²越接近1,说明表示和真实潜变量之间的线性关系越强,即线性可识别性越好。


实验还把潜变量的维度从2一路扩展到1024,远超DINOv2等模型的嵌入维度,以验证结论是否随规模成立。


结果显示,在所有测试的混合函数和维度下,SIGReg和VICReg的R²都保持在0.999以上,线性可识别性在高斯潜变量的条件下稳定成立。


LeCun新证明:世界是高斯的


从理论角度看,对于高斯分布,描述变量如何在时间上演化的转移算子有一组特殊的特征函数,叫做Hermite多项式,它们是高斯分布下函数空间的自然正交基,类似于周期函数里的傅里叶级数。


这组多项式的关键性质是,一个函数里非线性成分的次数越高,它在正样本对之间的相关性就越低。


LeCun新证明:世界是高斯的


LeJEPA的对齐损失要最大化正样本对之间的相关性,因此任何非线性扭曲都会被严格惩罚。


再结合SIGReg对嵌入分布的约束,这个线性映射必然是一个正交变换,即真实潜变量的一个旋转。


论文进一步证明了这个条件的唯一性。


Sturm-Liouville理论是经典数学物理里分析微分算子特征函数的框架,它描述了在什么条件下,一个算子的特征函数具有特定的形状。


论文借用这个框架证明,要让转移算子的第一个特征函数恰好是仿射函数(即线性函数加常数),潜变量的分布必须满足一个非常严格的条件——它的对数密度的导数必须是线性的,而满足这个条件的分布恰好只有高斯分布。


这意味着高斯分布在这个问题里的地位是唯一的,换成Laplace分布、均匀分布或其他任何非高斯分布,线性可识别性的保证都无法成立。


论文也用实验印证了这一点,在广义正态分布族里扫描形状参数,线性恢复的R²在形状参数等于2(即高斯)时出现尖锐的峰值,偏离高斯之后迅速下降。


LeCun新证明:世界是高斯的


在表示空间规划,就是在真实世界规划


线性可识别性一旦成立,意味着什么?


这意味着,在学到的表示空间里做规划,得到的结果和在真实世界里求解最优控制完全等价。


如果表示和真实潜变量之间只差一个旋转,那么表示空间里的直线轨迹,解码回真实空间之后仍然是一条直线,而直线轨迹恰好是很多控制问题里的最优解。


因此,只要代价函数对旋转不敏感,在表示空间里规划出来的最优策略,就等同于在真实世界里规划出来的最优策略。


论文用一个机器人手臂控制任务来验证这一点。


实验的场景是DMC Reacher,一个有两个关节的机械臂,目标是从起始姿态运动到目标姿态。


实验分两组:


  • 第一组用各向同性随机采样(OU过程)生成训练数据,潜变量的分布满足高斯假设;
  • 第二组直接用强化学习策略跑出来的真实轨迹作为训练数据,潜变量的分布因为策略的目标导向性而集中在状态空间的某个低熵区域,不再满足高斯假设。


LeCun新证明:世界是高斯的


结果显示,第一组训练出来的编码器,在表示空间里做直线插值规划,得到的关节轨迹与已知真实状态的理想情况在统计上没有差异;第二组训练出来的编码器,同样的规划方法却产生了明显的偏差,控制代价显著上升。


同一套物理系统,用随机探索的方式采样就能满足理论条件,用目标导向的策略采样就会破坏条件。


两者的区别,正是在于数据的分布。


这意味着,在自监督预训练阶段,数据采样策略,本身就是理论保证的一部分。


论文地址:https://arxiv.org/abs/2605.26379


文章来自于"量子位",作者 "克雷西"。

关键词: AI新闻 , 模型训练 , AI学术 , LeCun
AITNT-国内领先的一站式人工智能新闻资讯网站