MiniMax 定理:压缩即智能

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
MiniMax 定理:压缩即智能
6670点击    2026-03-24 16:30

我们在很多地方都看到了一个词,叫「压缩即智能


第一次碰到这个词的时候,很多人会愣一下。压缩?压缩怎么就智能了?zip 文件很智能吗?后来读到刘慈欣的《诗云》,突然就通了


故事的背景是,一个技术远超人类的外星神级文明来到地球。人类在它面前毫无还手之力,科技、军事、能源,全面碾压


但有一个人类诗人对它说:你写不出超越李白的诗


这个文明不服。它决定用自己的方式解决这个问题:穷举。把所有汉字的所有可能排列组合,全部生成出来,存进一团围绕恒星运行的巨大存储结构里。刘慈欣管它叫「诗云」


MiniMax 定理:压缩即智能


从数学的角度,这朵云里一定包含了超越李白的作品。所有可能的汉字排列都在里面,当然也包括最好的那几首


但这个文明做完之后,沉默了。因为它找不到那些诗。拥有一切可能的诗句,却没有办法判断哪些是好的


一个图书馆把世界上所有的书都收齐了。这不叫智能。一个人读完之后,用三页纸写清楚这些书的共同规律。这叫智能,区别在于:丢掉了什么


穷举不产生智能。压缩才产生智能


从 Shannon 开始


那压缩和智能之间的关系,到底是文学直觉,还是有数学支撑?


有。而且这条线索比大多数人想象的要长


1948 年,Claude Shannon 发表「A Mathematical Theory of Communication」,定义了信息熵:一条消息的信息量,等于编码它所需的最小比特数


最小。这两个字是整个信息论的地基


你能用 10 个 bit 无损表达原本需要 100 个 bit 的信息,说明你找到了 90% 的冗余结构。你理解了它


1960 年代,Solomonoff、Kolmogorov 和 Chaitin 从三个不同国家独立提出了算法信息论。Kolmogorov 复杂度:一个对象的复杂度 = 生成它的最短程序长度


最短的程序,能还原全部的信息


MiniMax 定理:压缩即智能

100 bits → 10 bits:找到冗余,就是理解


2006 年,Marcus Hutter 发起了一个 50 万欧元的竞赛:谁能更好地压缩维基百科的前 1GB,谁就更智能。他说,智能是一个模糊的概念,但文件大小是硬数字


Ilya Sutskever 说过,通过压缩实现无监督学习,是创立 OpenAI 的两个 founding ideas 之一


DeepMind 的论文「Language Modeling Is Compression」证明了语言建模和数据压缩在数学上等价。训练一个语言模型,就是在训练一个压缩器


从 Shannon 到 Kolmogorov 到 Hutter 到 Ilya,几十年,所有人到了同一个地方:


最小化描述长度,最大化预测能力


这就是「压缩即智能」的数学含义


F = ma


不止数学。回头看整个科学史,「压缩即智能」一直在场


第谷花了二十多年记录天文观测数据,手稿好几米高。开普勒压缩成了三条定律


然后牛顿来了。F = ma 加上万有引力公式,两行字,把前面所有东西全部装进去了


麦克斯韦用四个方程压缩了整个电磁学。爱因斯坦用五个符号 E=mc² 压缩了质量和能量的关系


科学的进步史,就是压缩率的提升史


MiniMax 定理:压缩即智能

20 年观测 → 3 条定律 → 2 行字


每一次重大突破,都是用更少的符号解释更多的现象


物理学最底层的原理叫最小作用量原理。光走最短路径。物体沿作用量最小的轨迹运动。宇宙在每一个尺度上都偏好最经济的方案


压缩,即智能


冯·诺依曼


说到数学结构,这里有一段有意思的历史


1928 年,冯·诺依曼证明了博弈论的基石定理:在零和博弈中,存在一个最优策略,使得最大可能损失被最小化


这个定理叫 Minimax 定理


找到所有最坏情况(max loss),然后在里面选最好的(min)。反过来也成立,在所有保守策略中找收益最高的(max min)


后来这个框架到处都是。Nash 均衡、Alpha-Beta 剪枝、对抗训练,都建立在它上面


MiniMax 定理:压缩即智能

两条线终将收敛:这就是 Minimax


还有一件事比较有意思,可以把前面说的「压缩即智能」放进数学框架里看


Kolmogorov 复杂度:最短的程序,还原全部信息


min 描述长度,max 保真度


Shannon 最优编码:最少的比特数,无损传输全部信息


min 码长,max 保真


训练语言模型:找一组参数,使得在任何未知数据上的预测误差尽可能小


min loss,max generalization


这三个问题的数学结构是一样的。都是 Minimax


冯·诺依曼在 1928 年就把这个结构命名好了。只是当时没人在讨论 AI


MiniMax 定理:压缩即智能


大脑


「压缩即智能」在生物学里也有对应


人类婴儿出生时,大脑有大约 100 万亿 个突触连接。到成年,减少到 50 万亿


少了一半。这个过程叫突触修剪。大脑主动丢弃低效连接,保留最有用的路径。大脑在对自己做压缩


自闭症谱系的一种理论认为,部分患者的突触修剪不够充分。连接太多,信号互相干扰,无法提取清晰的模式


连接太多和信息太多,是同一类问题。诗云的困境,在生物学里也存在


人脑每秒接收大约 1100 万 bits 的感官信息,意识只能处理大约 50 bits。99.9995% 被丢弃了


意识,大概就是一个极其挑剔的压缩器


它的工作就是决定丢掉哪些信息


10 的 103 次方


最后回到诗云,算一笔账


假设汉字 5000 个,一首七言绝句 28 个字。所有可能的排列组合是 5000²⁸,大约 10¹⁰³


可观测宇宙中的原子总数大约 10⁸⁰。诗云里的「诗」比宇宙里的原子还多


好诗大概率不超过几百万首。占比 10⁶ / 10¹⁰³ = 10⁻⁹⁷


随机抽样找好诗,在宇宙的整个生命周期里,一首都找不到


穷举的失败在于搜索空间太大。什么都不压缩,好的东西就被淹没了


而李白不在 10¹⁰³ 的空间里搜索。他对语言、情感、韵律、意象有一套高度压缩的理解,可以直接跳到好诗的邻域


他的脑子里装的是一个压缩过的生成模型


MiniMax 定理:压缩即智能

李白不穷举。他知道往哪里跳


大语言模型也是一回事。GPT 的参数量远小于训练数据量,但它能生成从没见过的合理文本。因为它压缩了数据背后的结构


外星文明输给了李白。它的算力够了。它不会压缩


写在最后


「压缩即智能」这个词表达得不好。两个抽象概念中间一个「即」字,没有信息论背景的人很难直觉理解


但它说的事情很简单。用最少的符号解释最多的现象,用最短的程序还原全部信息,用最少的参数做最好的预测。换句话说:Mini 这个 Max


我建议以后别说「压缩即智能」了,说:MiniMax


以上内容,是认真的 


文章来自于“赛博禅心”,作者 “金色传说大聪明”。

AITNT-国内领先的一站式人工智能新闻资讯网站