谷歌AI攻克6道世界级难题,比IMO金牌更震撼!陶哲轩指明新玩法

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
谷歌AI攻克6道世界级难题,比IMO金牌更震撼!陶哲轩指明新玩法
8003点击    2026-03-01 11:28

刚刚,人类数学界最后的防线,宣告全面崩塌!


连吃瓜群众都惊掉下巴:AI不仅会做题,现在居然已经能独立搞定PhD级别的纯粹数学研究了。


就在这两天,谷歌DeepMind的最新AI研究智能体Aletheia,在数学界一场名为「FirstProof」的巅峰挑战赛中,一口气干掉了10道公认的世界级未解数学难题中的6道


DeepMind的高管Thang Luong在X上难掩激动地发帖:


「对我而言,这甚至比去年历史性拿下IMO金牌的成就意义还要重大!」


谷歌AI攻克6道世界级难题,比IMO金牌更震撼!陶哲轩指明新玩法


这可不是什么普通的数学竞赛。要知道,这些题目连全球最顶尖的数学家都感到极度棘手。


谷歌AI攻克6道世界级难题,比IMO金牌更震撼!陶哲轩指明新玩法


结果,Aletheia不仅自主算出了答案,甚至连提出其中第7题猜想的数学家Jim Fowler本人,都亲自出面盖章确认:


「AI的解题过程,是完全正确的。」


谷歌AI攻克6道世界级难题,比IMO金牌更震撼!陶哲轩指明新玩法


就连当今世界最杰出的天才数学家陶哲轩,都在最新的访谈中表示:AI,已经成为了我的「初级合著者」。


谷歌AI攻克6道世界级难题,比IMO金牌更震撼!陶哲轩指明新玩法


Aletheia的「神之一手」:暴力推演


Aletheia到底有多厉害呢?


来看看谷歌DeepMind首席科学家兼研究主任,超级推理团队负责人Thang Luong怎么说:


「超级激动!我们的数学科研AI智能体 #Aletheia,刚刚全自主解出了10道出了名变态难的FirstProof挑战题里的6道,直接拿下了首届全场最佳!」


大家品品这句话的分量。


Luong直言不讳:


「在我看来,这甚至比咱们去年达到IMO(国际奥数)金牌水平的历史性时刻,含金量还要高得多


因为这些题,是连当今世界上最顶尖的几位数学大佬都感到极度头疼的「超级硬骨头」。


这次,DeepMind跑了两个基于Gemini 3 DeepThink打造的Aletheia版本(区别仅在于底层模型不同)。


经过多数专家的交叉「会诊」,它们联手干掉了10道题里的6道(分别是第2、5、7、8、9、10题)。


谷歌AI攻克6道世界级难题,比IMO金牌更震撼!陶哲轩指明新玩法


要知道,这套题的判卷评估环节简直是地狱难度。


因为这世界上能看懂其中这几道题的专家,都已经是凤毛麟角。


但也正因如此,DeepMind的研究过程严谨到了近乎偏执的地步:


整个解答过程纯靠机器自己跑,全程「零人工干预」,而且完完全全是在FirstProof规定的死线内提交的。


这是一个里程碑式的时刻。


不再是人类一步步喂算式,而是AI智能体已经学会了趴在一个极端复杂的科研难题上「死磕」很久,在几千条死胡同里撞南墙,最后跑回来向人类淡淡汇报一句:「我搞定了(或者搞砸了)。」


DeepMind甚至把Aletheia在这个过程中烧掉的算力(推理成本)做了完整的可视化——


谷歌AI攻克6道世界级难题,比IMO金牌更震撼!陶哲轩指明新玩法


其中最炸裂的,莫过于第7题(P7)的惊天翻盘


这是一道好几年都没人能解开的非典型难题。


据该领域专家Tony Feng透露,在这次比赛里,除了Aletheia,根本没AI能接近正确答案。


谷歌AI攻克6道世界级难题,比IMO金牌更震撼!陶哲轩指明新玩法


刚开始跑的时候,连DeepMind团队自己都觉得Aletheia这次肯定没戏了,结果居然跑出了正确答案!


为了攻克P7,Aletheia投入了海量算力——是当初解开Erdős-1051问题时的整整16倍


数学界权威Sang Hyun Kim在看完AI的解题步骤后,给出了极高评价:


「这是我有史以来第一次,看到AI完美无瑕地串联运用了好几个极其深奥的数学定理。这绝对是一个独一无二的稀有案例!


关于DeepMind对FirstProof的解读和实验细节全放这了:


谷歌AI攻克6道世界级难题,比IMO金牌更震撼!陶哲轩指明新玩法


论文地址:https://arxiv.org/abs/2602.21201


不胡说八道,才是AI


最硬核的底气


如果深挖DeepMind这篇论文,你会发现Aletheia之所以这么稳,根本原因在于它掌握了一项关键技能:「自我过滤」


传统的AI大模型有个臭毛病,就是不懂装懂(幻觉)。


不管你问啥,它都会一本正经地给你编个答案。


但在科研级别的高端局,如果你给数学家扔一堆看起来极其合理但经不起推敲的废料,那还不如不给。


DeepMind是怎么解决这个问题的呢?


他们给Aletheia体内设计了两个「次级人格」:


一个是「生成者(Generator)」,专门负责大开脑洞,疯狂猜想解题路径;另一个是冷血无情的「验证者(Verifier)」,专门负责给「生成者」挑刺。


谷歌AI攻克6道世界级难题,比IMO金牌更震撼!陶哲轩指明新玩法


在解题的黑箱里,这两个子系统会疯狂互搏。


当遇到那4道解不出来的问题时,Aletheia没有选择强行胡编乱造蒙混过关,而是直接给人类发出:「No solution found(未找到解法)」,或者到了时限直接闭嘴。


谷歌AI攻克6道世界级难题,比IMO金牌更震撼!陶哲轩指明新玩法


不胡编乱造,绝不在没有把握的地方瞎耗人类专家的精力——这正是Aletheia最让顶尖学者放心的地方。


正如论文中所写:「为了提升准确率,我们宁愿牺牲它解答某些问题的能力。」


而在解题成本上,除了P7那道耗费16倍算力的「神题」,其他几道题解决下来,耗费的「脑力」也都远远超出了去年解决Erdős-1051难题的极值。


想看完整的交互日志和解题过程(对的错的,原汁原味全公开),直接戳这里:


谷歌AI攻克6道世界级难题,比IMO金牌更震撼!陶哲轩指明新玩法


GitHub地址:


https://github.com/google-deepmind/superhuman/tree/main/aletheia


Aletheia到底手撕了哪些「变态难题」?


先来看看特地提到的P7。


谷歌AI攻克6道世界级难题,比IMO金牌更震撼!陶哲轩指明新玩法


问题背景:代数拓扑/微分几何。判断包含二阶扭转元素的半单李群均匀格,能否作为某个万有覆盖在有理同调下无圈的紧致无边界流形的基本群。


答案:不可能。


AI神仙解法


证明思路一:纯拓扑方法(Lefschetz数矛盾)


利用万有覆盖Q-无圈的条件,算出2阶元素γ的紧支持Lefschetz数必须非零;但γ是自由作用的(没有不动点),通过欧拉示性数的乘性又推出Lefschetz数必须为零。0 = ±1,矛盾。


证明思路二:几何方法(对称空间的刚性)


利用格的几何结构,构造万有覆盖到对称空间的等变映射,证明γ在两边的Lefschetz数必须相等。但在万有覆盖一侧为零(自由作用),在对称空间一侧非零(Cartan不动点定理保证有不动点)。再次矛盾。


好在哪?


证明一好在「少」。题目给了一堆条件,但全都没用。只靠最基础的拓扑工具就解决了问题,而且实际证明了一个更强的结论:任何含扭转的离散群都不行。链条极短:算Lefschetz数,一边非零一边为零,矛盾,结束。


证明二好在「深」。它把题目给的几何条件全部用上了,构造了万有覆盖到对称空间的映射,最终在对称空间上用Cartan不动点定理找到矛盾。这条路更长,但回答了更本质的问题。。


谷歌AI攻克6道世界级难题,比IMO金牌更震撼!陶哲轩指明新玩法


问题背景:数论/表示论。在非阿基米德局部域上的矩阵群表示中,证明存在一个万能的Whittaker函数,使得局部Rankin–Selberg积分对所有配对表示都非零。


答案:可以。 存在这样的「万能」W。


AI神仙解法:


先选一个特殊的Whittaker函数W,使积分域压缩到紧集上,复参数s完全消失,问题简化为证明一个有限泛函非零。然后用反证法:假设对所有V都为零,通过有限Fourier分析推出测试函数具有「平移不变性」,这会迫使表示π在一个比其导子更粗的子群下有不变向量,与导子的定义矛盾。


好在哪?


整个证明最关键的就是第一步选取Whittaker函数W。这一个选择同时做到了三件事:1)把积分域压缩到紧集上,2)消去了复参数s,3)把无穷维的解析问题变成有限维的代数问题。而且这个W不依赖于配对表示π——同一个选择对所有π都管用,这在表示论里非常稀有。


反证法部分的「level lowering」也很精彩:假设泛函恒为零,通过有限Fourier分析逐步推出测试函数在模p^{c-1}下不变,但π的导子恰好是p^c,这个层级上不可能有不变向量。矛盾恰好卡在导子的定义上,一步不多一步不少。


对于其他题目,感兴趣的读者可自行查阅论文和GitHub项目。


人类出题的速度,已经快跟不上了


为什么偏偏是数学,成了检验AI实力的终极擂台?


道理很简单——数学的答案非黑即白,对就是对、错就是错,没有任何让人类「手下留情」打人情分的空间。


但现在的问题是:出卷的速度,已经被答卷的速度按在地上摩擦了。


谷歌AI攻克6道世界级难题,比IMO金牌更震撼!陶哲轩指明新玩法


2024年11月,Epoch AI上线了FrontierMath评测基准,专门用来摸底最前沿AI的数学推理能力。


刚上线时最强AI连2%的题都做不出来,结果到了今天,GPT-5.2和Claude Opus 4.6已经能搞定基础题库40%以上的题目,连50道终极难度的第4级挑战题,正确率也突破了30%。


谷歌AI攻克6道世界级难题,比IMO金牌更震撼!陶哲轩指明新玩法


谷歌AI攻克6道世界级难题,比IMO金牌更震撼!陶哲轩指明新玩法


不过,FrontierMath再难,本质上还是「人类已有标准答案,看AI能不能也做出来」,说白了还是考试。


但FirstProof里的10道题,是11位顶尖数学家从自己真实科研中掏出来的、从未公开发表过的难题。


谷歌AI攻克6道世界级难题,比IMO金牌更震撼!陶哲轩指明新玩法


项目主页:https://1stproof.org/


而且这场挑战赛的结局充满戏剧性。


  • 2月6日题目放出后,专业学者、民间高手、各大AI实验室纷纷下场。
  • 到2月14日揭晓答案时,没有任何人或团队全部拿下。
  • 随后,出题者自己拿Gemini 3.0 Deep Think和ChatGPT 5.2 Pro跑了一轮,也只解出了2道。
  • 最终,OpenAI最强内部系统在有限人类监督下解出5道。


对比之下,足以见得这次Aletheia「零人工」干预做出6道题的含金量有多高。


数学圈对此五味杂陈:一部分人直呼逆天,另一部分人觉得10道还剩4道没解,离替代数学家还远。


但一个不可逆转的趋势已经摆在所有人面前——


我们需要更难的题库来测AI,而且动作必须快,因为现有的一切正在以肉眼可见的速度过期。


Epoch AI显然也意识到了这一点。


就在FirstProof开赛同期,他们放出了自己的大招——FrontierMath: Open Problems。


谷歌AI攻克6道世界级难题,比IMO金牌更震撼!陶哲轩指明新玩法


谷歌AI攻克6道世界级难题,比IMO金牌更震撼!陶哲轩指明新玩法


谷歌AI攻克6道世界级难题,比IMO金牌更震撼!陶哲轩指明新玩法


谷歌AI攻克6道世界级难题,比IMO金牌更震撼!陶哲轩指明新玩法


谷歌AI攻克6道世界级难题,比IMO金牌更震撼!陶哲轩指明新玩法


这个全新题库收录了16道专业数学家死磕过但至今全军覆没的真正未解之谜。


更绝的是,虽然没有标准答案,Epoch AI却给每道题写了自动评分程序来判断AI的解是否成立。


上线至今,没有任何AI解出哪怕一道——这个「零分」现状,反而恰恰证明了题库的价值所在。


谷歌AI攻克6道世界级难题,比IMO金牌更震撼!陶哲轩指明新玩法


FirstProof团队也没打算收手,已经官宣3月14日推出难度更变态的第二轮挑战。


谷歌AI攻克6道世界级难题,比IMO金牌更震撼!陶哲轩指明新玩法


陶哲轩:AI是我的「初级合著者」


那么,站在数学界绝对顶峰的人,到底怎么看这场风暴?


在最新访谈中,陶哲轩给出了一个极其精准的定位:AI现在是他的「初级合著者」。


他2023年曾预测到2026年AI能达到论文合著者水平,当时褒贬不一,现在看进度完全吻合甚至略有超前。


谷歌AI攻克6道世界级难题,比IMO金牌更震撼!陶哲轩指明新玩法


而比这个头衔更重要的,是陶哲轩描述的一种全新的数学研究范式。


他说,传统数学研究像是「个案研究」,一篇论文揪着一两个问题往死里磕,这是数学家几百年来的工作方式。但AI正在让数学家第一次有能力做「大样本普查」。


与此同时,数学研究中有大量极其繁琐的计算是人类极其讨厌做的,所以数学家们会绞尽脑汁想聪明办法绕过去。但AI不嫌烦,它乐意不知疲倦地把这些枯燥的推演全部跑完。


当AI被整合进人类的工作流,这些曾经让人望而却步的障碍就直接被跨过去了。


而在另一个维度上,AI还展现出一种独特的本事——它能系统性地扫描人类根本没精力去碰的问题长尾。


以埃尔德什留下的1000多个数学问题为例,AI能把它们从头到尾过一遍,从中挑出可突破的题目逐个击破。


人类不可能这么干,但AI可以,而且已经在这么干了。


陶哲轩甚至承认自己从AI的解题过程里学到了东西:


也许它用到了某篇1960年论文里我没见过的小技巧,它能做到那些人类专家看了一眼就懒得去试的事情。


谷歌AI攻克6道世界级难题,比IMO金牌更震撼!陶哲轩指明新玩法


下一个倒计时已经开始


回看这整场风暴,一条清晰的主线已经浮出水面:


从FrontierMath被快速刷穿,到FirstProof上Aletheia零人工干预拿下6题,再到陶哲轩亲口承认AI已是自己的「初级合著者」。


所有信号都在指向同一个事实:


AI正在以一种不可逆的姿态,嵌入人类数学研究的核心流程。


而最值得玩味的,是Epoch AI那个至今「零分」的Open Problems题库。


它的存在本身就是一个隐喻:


人类现在能拿来考AI的最后武器,是连自己都不知道答案的题目。


这道防线还能守多久?没人敢打包票。


但有一点几乎可以确定——


当3月14日FirstProof第二轮挑战赛开启的那一刻,今天这篇文章里的所有数字,可能就已经过时了。


参考资料:


https://x.com/rohanpaul_ai/status/2026559039241597070?s=20


https://www.theatlantic.com/technology/2026/02/ai-math-terrance-tao/686107/


文章来自于微信公众号 "新智元",作者 "新智元"

AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
AI代理

【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务,如比较价格、添加购物车、回复各种社交媒体等。

项目地址:https://github.com/browser-use/browser-use


2
AI工作流

【开源免费】字节工作流产品扣子两大核心业务:Coze Studio(扣子开发平台)和 Coze Loop(扣子罗盘)全面开源,而且采用的是 Apache 2.0 许可证,支持商用!

项目地址:https://github.com/coze-dev/coze-studio


【开源免费】n8n是一个可以自定义工作流的AI项目,它提供了200个工作节点来帮助用户实现工作流的编排。

项目地址:https://github.com/n8n-io/n8n

在线使用:https://n8n.io/(付费


【开源免费】DB-GPT是一个AI原生数据应用开发框架,它提供开发多模型管理(SMMF)、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL(智能体工作流编排)等多种技术能力,让围绕数据库构建大模型应用更简单、更方便。

项目地址:https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file



【开源免费】VectorVein是一个不需要任何编程基础,任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤,并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。

项目地址:https://github.com/AndersonBY/vector-vein?tab=readme-ov-file

在线使用:https://vectorvein.ai/付费

3
智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。

项目地址:https://github.com/Significant-Gravitas/AutoGPT


【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

4
RAG

【开源免费】graphrag是微软推出的RAG项目,与传统的通过 RAG 方法使用向量相似性作为搜索技术不同,GraphRAG是使用知识图谱在推理复杂信息时大幅提高问答性能。

项目地址:https://github.com/microsoft/graphrag

【开源免费】Dify是最早一批实现RAG,Agent,模型管理等一站式AI开发的工具平台,并且项目方一直持续维护。其中在任务编排方面相对领先对手,可以帮助研发实现像字节扣子那样的功能。

项目地址:https://github.com/langgenius/dify


【开源免费】RAGFlow是和Dify类似的开源项目,该项目在大文件解析方面做的更出色,拓展编排方面相对弱一些。

项目地址:https://github.com/infiniflow/ragflow/tree/main


【开源免费】phidata是一个可以实现将数据转化成向量存储,并通过AI实现RAG功能的项目

项目地址:https://github.com/phidatahq/phidata


【开源免费】TaskingAI 是一个提供RAG,Agent,大模型管理等AI项目开发的工具平台,比LangChain更强大的中间件AI平台工具。

项目地址:https://github.com/TaskingAI/TaskingAI