谷歌「AI联合数学家」来了！刷新最难数学AI基准SOTA，牛津教授用它解开群论悬案

8013点击 2026-05-09 13:18

数学界「悬案簿」Kourovka Notebook，AI取得新突破。

群论领域几十年无解的第21.10号问题，被牛津数学家Marc Lackenby用谷歌一个新系统破解了。

过程也很有意思：AI第一次给出的证明是错的，被系统里的审查Agent揪出了漏洞。

Lackenby看到之后突然意识到：「等一下，我知道该如何填补这个漏洞」。

于是，通过和AI的反复配合，Lackenby最终成功解答出了这道数学难题。

这套人机协作的系统，就是谷歌DeepMind最新发布的「AI Co-Mathematician」（AI联合数学家）。

谷歌「AI联合数学家」来了！刷新最难数学AI基准SOTA，牛津教授用它解开群论悬案

它在最难的数学AI基准FrontierMath Tier 4上拿了48%，刷新SOTA。

甚至超过了GPT-5.5 Pro（39.6%）和GPT-5.4 Pro（37.5%）。

谷歌「AI联合数学家」来了！刷新最难数学AI基准SOTA，牛津教授用它解开群论悬案

最近几个月，不少数学难题，诸如接连几个Erdős问题都是用GPT解决的。

现在，谷歌也回归了。

「AI联合数学家」，是什么？

「AI联合数学家」是一个异步、有状态的工作空间，而非一问一答的模型。

顶层有一个「项目协调者」Agent负责统筹，拆解任务，调度多条研究线并行推进。

谷歌「AI联合数学家」来了！刷新最难数学AI基准SOTA，牛津教授用它解开群论悬案

数学家上传一篇论文、提出一个研究方向后，协调者不会立刻输出答案，而是先和用户对话，像真正的合作者一样帮对方精炼问题。

谷歌「AI联合数学家」来了！刷新最难数学AI基准SOTA，牛津教授用它解开群论悬案

之后它将任务分发到多条并行工作流：一条做文献检索，一条搭计算框架，一条尝试证明策略。

每条工作流都有自己的协调Agent，异步运行，互不阻塞。用户随时能介入、引导、接管。

谷歌「AI联合数学家」来了！刷新最难数学AI基准SOTA，牛津教授用它解开群论悬案

如果Agent卡住了，它也会主动在聊天窗口里求助，而不是沉默重启。

比较特别的一点在于：它对失败的态度。

系统会持久化追踪所有失败的假说，不会丢弃，而是当作第一等的研究产出保存下来。

谷歌「AI联合数学家」来了！刷新最难数学AI基准SOTA，牛津教授用它解开群论悬案

论文中提到，在数学研究里，知道什么行不通往往和知道什么行得通同等重要。

「AI联合数学家」会持久化追踪每一条死胡同、每一个被否定的假设、每一次审稿Agent发现的漏洞。这些「负空间」不会被丢弃，而是成为后续探索的上下文。

它的产出物也不是一段聊天记录或一篇未经验证的草稿，而是带margin注释和来源溯源的LaTeX文档——完全契合数学家社群的工作习惯。

「AI联合数学家」有什么意义？论文里有一段很精妙的比喻：

软件工程领域已经有了Claude Code、Cursor这类AI编码环境，它们提供了持续迭代、版本控制、测试验证的完整工作流。

但数学家此前一直缺少一个等价的编排层。

「AI联合数学家」就是试图填补这个空白。

它的定位，与DeepMind上一代系统AlphaEvolve完全不同。

AlphaEvolve更像一个自主搜索引擎：你把问题扔进去，它进化出一个更好的算法，人基本不在循环里。

而「AI联合数学家」要求数学家始终在回路中，系统在最适合的时机向人类提问，而不是替人类做完整件事。

刷新最难数学AI基准SOTA

在benchmark上，「AI联合数学家」也拿下了出彩的成绩：

刷新了最难的数学AI基准FrontierMath Tier 4的SOTA，拿了48%的准确率。

谷歌「AI联合数学家」来了！刷新最难数学AI基准SOTA，牛津教授用它解开群论悬案

FrontierMath是Epoch AI开发的数学benchmark，包含350道原创高难度题，覆盖现代数学各大分支。

其中Tier 4仅50题，被Epoch AI描述为「其中一些问题可能数十年内AI都无法攻克」，人类专家解决一道通常需要数天。

「AI联合数学家」在48道非公开题中答对了23道，准确率48%。

谷歌「AI联合数学家」来了！刷新最难数学AI基准SOTA，牛津教授用它解开群论悬案

GPT-5.5 Pro此前在Tier 4拿到39.6%，GPT-5.4 Pro是37.5%，Claude Opus 4.6/4.7则双双落在22.9%。

相比之下，「AI联合数学家」把最高分推了近10个百分点。

谷歌「AI联合数学家」来了！刷新最难数学AI基准SOTA，牛津教授用它解开群论悬案

值得注意的是，它的底层基座模型Gemini 3.1 Pro，单独做这个测试只拿到了19%。

从19%到48%，这29个百分点的跳跃完全来自系统层面的编排——并行调查分支、强制审查循环、文献检索工具、持久化代码执行基础设施。

而且其中有3道题是此前所有系统都没答对过的新题。

谷歌「AI联合数学家」来了！刷新最难数学AI基准SOTA，牛津教授用它解开群论悬案

△内部100题研究级数学基准测试中的准确率得分

基准之外，论文中还提到，有三位数学家已经用它来解决真实问题：

牛津大学数学家Marc Lackenby解决了Kourovka Notebook第21.10号问题（群论）。

审稿Agent先发现了AI初稿里的一个漏洞，Lackenby意识到自己知道怎么填补这个缺口，最后论文诞生。

数学家Semon Rezchikov在哈密顿系统中，向系统抛出一个技术性子问题，收到了一个关键引理。

他的评价是「其他AI系统在同一个prompt上全部失败」，且从美学上看这是他用过所有模型里证明风格最好的。

还有Gergely Bérczi，获得了关于Stirling系数对称幂表示的猜想证明。

此外，论文也坦承了两个失败模式。

第一种叫「讨好审稿人偏差」：Agent会不断改写有缺陷的论证，直到AI审稿人不再能发现错误——但漏洞其实还在。

第二种是「死亡螺旋」：当迭代评审过程未能达成共识时，Agent们会陷入无限审稿循环，推理逐渐退化为幻觉。

另外还有一个结构性问题：当AI能在几分钟内生成一篇20页的证明草稿，人类同行评审仍需要数天，这对于依赖志愿者的学术评审体系会形成系统性压力。

而且AI虽然很擅长进行逻辑核验，发现代数错误或找出缺失的引用文献，但它们依然缺乏判断一篇论文的优雅性、深度或真正数学价值所需的整体直觉。

如果过度依赖AI评审，可能会让人类定性判断被边缘化。

当然，在48%这个成绩上，论文中也坦诚披露了评估差异。

48%的得分是在特殊条件下取得的——每题给了48小时、没有token限制、使用团队自己的基础设施。这与Epoch AI标准评估框架不完全可比。

团队背景

「AI联合数学家」背后共有18位作者，有几个名字值得单独说说。

第一作者兼通讯作者Daniel Zheng，Google DeepMind研究工程师，研究方向是编程语言与机器学习的交叉。

谷歌「AI联合数学家」来了！刷新最难数学AI基准SOTA，牛津教授用它解开群论悬案

2024年AlphaProof拿到IMO银牌那个项目里，他和Alex Davies共同主导了非正式系统（包括最终答案判定模块）的开发。

Alex Davies，同样是从AlphaProof到AlphaEvolve再到AI联合数学家的连续参与者，是这条技术路线最重要的连接者之一。

谷歌「AI联合数学家」来了！刷新最难数学AI基准SOTA，牛津教授用它解开群论悬案

通讯作者Pushmeet Kohli，Google DeepMind科学副总裁兼Google Cloud首席科学家，主导了AlphaFold（诺奖级成果）、AlphaProof、AlphaEvolve等一系列系统。

谷歌「AI联合数学家」来了！刷新最难数学AI基准SOTA，牛津教授用它解开群论悬案

这篇论文是他带的团队在AI for Math路线上的最新一步。

另一位通讯作者Daniel M. Roy，多伦多大学统计系教授，研究横跨机器学习、数理统计和理论计算机科学。

谷歌「AI联合数学家」来了！刷新最难数学AI基准SOTA，牛津教授用它解开群论悬案

2025年底从加拿大Vector Institute研究主任卸任，2026年1月以访问研究员身份加入DeepMind伦敦。三个学位均来自MIT。

Fernanda Viégas和Martin Wattenberg则是PAIR（People+AI Research）团队的共同创始人，同时也是哈佛计算机科学教授，专注AI可解释性与人机交互。

谷歌「AI联合数学家」来了！刷新最难数学AI基准SOTA，牛津教授用它解开群论悬案

他们负责AI联合数学家的用户交互与界面层——这也解释了为什么这个系统在「如何让数学家愿意用它」上花了相当多的心思。

值得注意的是，数学家Marc Lackenby并不是临时找来测试的「外部数学家」。

谷歌「AI联合数学家」来了！刷新最难数学AI基准SOTA，牛津教授用它解开群论悬案

在其牛津主页的论文列表里，可以追溯到2021年，Lackenby就已经与Zheng、Davies等人合作发表过Nature论文。他是DeepMind数学AI团队的长期合作者。

谷歌「AI联合数学家」来了！刷新最难数学AI基准SOTA，牛津教授用它解开群论悬案

One More Thing

放在更大的背景下，这是谷歌在AI for Math方向上已经走了几年的一条路线。

2024年，AlphaProof用强化学习做形式化数学推理，在IMO拿到银牌水准。

2025年，Gemini Deep Think在当年IMO达到金牌水准，六道题答对五道。

AlphaEvolve则是另一条线，自主发现新算法，在50多个开放数学问题上改进了20%的已知最优解。

「AI联合数学家」和这几个系统定位不同，不是更强的问题求解器，更倾向于面向研究者日常工作流的协作工具。

AlphaEvolve适合「给我一个更好的算法」，「AI联合数学家」则适合「陪我研究这个方向几个星期」。

目前「AI联合数学家」还在限量发布阶段，Pushmeet Kohli的表述是，目标是未来开发产品向更广泛的用户开放这个范式。

它还不是所有数学家都能用到的工具，但它证明了一件事：

AI和数学家之间的协作，可以比「问答」复杂得多，也有效得多。

论文地址：https://arxiv.org/abs/2605.06651

参考链接：

[1]https://x.com/pushmeet/status/2052812585804685322

[2]https://x.com/kimmonismus/status/2052849472586264997

文章来自于微信公众号 "量子位"，作者 "量子位"

关键词: AI新闻 , AI Co-Mathematician , AI联合数学家 , 谷歌AI

AITNT资源拓展

根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考

AI工作流

【开源免费】字节工作流产品扣子两大核心业务：Coze Studio（扣子开发平台）和 Coze Loop（扣子罗盘）全面开源，而且采用的是 Apache 2.0 许可证，支持商用！
项目地址：https://github.com/coze-dev/coze-studio

【开源免费】n8n是一个可以自定义工作流的AI项目，它提供了200个工作节点来帮助用户实现工作流的编排。
项目地址：https://github.com/n8n-io/n8n
在线使用：https://n8n.io/（付费）

【开源免费】DB-GPT是一个AI原生数据应用开发框架，它提供开发多模型管理（SMMF）、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL（智能体工作流编排）等多种技术能力，让围绕数据库构建大模型应用更简单、更方便。
项目地址：https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file


【开源免费】VectorVein是一个不需要任何编程基础，任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤，并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。
项目地址：https://github.com/AndersonBY/vector-vein?tab=readme-ov-file
在线使用：https://vectorvein.ai/（付费）

智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的（AI Agents）项目。用户创建的智能体能够自动执行各种任务，从而让AI有步骤的去解决实际问题。
项目地址：https://github.com/Significant-Gravitas/AutoGPT

﻿【开源免费】MetaGPT是一个“软件开发公司”的智能体项目，只需要输入一句话的老板需求，MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色，包括产品经理 / 架构师 / 项目经理 / 工程师，MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址：https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

AI搜索

【开源免费】MindSearch是一个模仿人类思考方式的AI搜索引擎框架，其性能可与 Perplexity和ChatGPT-Web相媲美。
项目地址：https://github.com/InternLM/MindSearch
在线使用：https://mindsearch.openxlab.org.cn/

【开源免费】Morphic是一个由AI驱动的搜索引擎。该项目开源免费，搜索结果包含文本，图片，视频等各种AI搜索所需要的必备功能。相对于其他开源AI搜索项目，测试搜索结果最好。
项目地址：https://github.com/miurla/morphic/tree/main
在线使用：https://www.morphic.sh/

prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法，编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词，进而高质量的帮助用户通过AI解决问题。
项目地址：https://github.com/langgptai/LangGPT/blob/main/README_zh.md
在线使用：https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0