谷歌AI解决IMO中84%的几何问题，o1一道没做对！Nature：AI已超过金牌得主平均水平

6680点击 2025-02-08 13:55

谷歌DeepMind最新数学AI，一举解决了2000-2024年IMO竞赛中84%的几何问题。

AlphaGeometry2论文发布，在总共50道题中完成了42道，相比去年的一代多完成了15道。

作为对比，纯语言模型OpenAI o1和Gemini Flash Thinking一道都解决不了。

Nature发文评价：DeepMind AI粉碎了数学难题，达到金牌得主水平，与顶级人类选手相当。

谷歌AI解决IMO中84%的几何问题，o1一道没做对！Nature：AI已超过金牌得主平均水平

就比如说2024年竞赛中的第四题，AlphaGeometry2完成它只需要19秒。

如图所示，这道题要求证明∠KIL和∠XPY的合等于180°（蓝色表示）。

AlphaGeometry2构造的辅助线用红色表示，E是BI延长线上的点，使得∠AEB=90°，通过E点进一步得到了几对相似三角形，最终完成证明。

谷歌AI解决IMO中84%的几何问题，o1一道没做对！Nature：AI已超过金牌得主平均水平

通讯作者Thang Luong分享了更疯狂的一道题，来自IMO Shortlist 2009。

根据谷歌咨询的IMO教练，此问题以前仅有数值解。

但AlphaGeometry2巧妙地构造出了复杂的辅助结构（红色表示），给出优雅的证明，这些辅助点的位置都是神经网络预测的。

谷歌AI解决IMO中84%的几何问题，o1一道没做对！Nature：AI已超过金牌得主平均水平

AlphaGeometry2四大升级

根据论文介绍，AlphaGeometry2取得大幅提升主要来自于4项升级：

- 扩展版的领域专用语言

- 升级版的符号推理引擎DDAR2

- 全新的搜索算法SKEST

- 更强大的语言模型

扩展几何领域专用语言

AlphaGeometry1中的领域专用语言只包含9个基本“谓词”，包括相等、垂直、平行、共线、共圆等。

这足以覆盖2000-2024年所有IMO几何问题中66%的情况，但无法表示线性方程、点/线/圆的移动，以及“计算某个角度”等常见问题。

谷歌AI解决IMO中84%的几何问题，o1一道没做对！Nature：AI已超过金牌得主平均水平

在进行补充之后，覆盖率从66%提高到88%。

借助领域专用语言，AlphaGeometry系统可以做到自动形式化和自动生成示意图。

谷歌AI解决IMO中84%的几何问题，o1一道没做对！Nature：AI已超过金牌得主平均水平

这样一来，只剩下12%涉及3D几何、不等式、非线性方程和可数的多个点问题。

对于这些问题，AI只能跳过，在图中标记为“Not attempted”。

谷歌AI解决IMO中84%的几何问题，o1一道没做对！Nature：AI已超过金牌得主平均水平

更强大、更快的符号推理引擎DDAR2

符号引擎推理是AlphaGeometry的核心组件，称为DDAR（Deductive Database

Arithmetic Reasoning，演绎数据库算术推理）。

它基于给定的一组核心初始事实，计算所有可推导事实的集合，遵循一组固定的演绎规则迭代地将新事实添加到集合中，直到不能再添加为止。

DDAR既负责生成语言模型的训练数据，在测试时也负责搜索推理步骤。

DDAR2有三个主要改进：

增加处理两个名称不同但坐标相同的点的能力。

谷歌AI解决IMO中84%的几何问题，o1一道没做对！Nature：AI已超过金牌得主平均水平

更快的算法：提取所有关键规则并硬编码，把最坏情况的时间复杂度从8次方减少到三次方级别；舍弃了关于角度和距离的显式规则，改为自动完成。

更快的代码实现，从Python改成C++，在AMD EPYC 7B13 64核CPU上快了300倍。

全新的搜索算法SKEST

多个配置不同的搜索树并行运行，通过知识共享机制相互启发，从而更高效地寻找证明路径。

在每个搜索树中，一个节点包括一次辅助结构构造和符号引擎的尝试。

如果成功了，所有搜索树便会终止。

如果失败了，这次尝试成功证明的事实会被记录到共享事实库中，事实对同一搜索树中的其他节点以及不同搜索树中的节点都可能有用。

谷歌AI解决IMO中84%的几何问题，o1一道没做对！Nature：AI已超过金牌得主平均水平

更强大的语言模型：最新Gemini

AlphaGeometry2的语言模型采用最新的Gemini架构，设计了三种训练方法：

在领域专用语言的自定义分词器上从头预训练在自然语言上微调预训练的数学版Gemini用额外的图像输入从头开始多模态训练。

通过实验得出如下结论：

分词器和训练数据，都不是关键因素。

较小词汇表的分词器和通用Gemini分词器，取得了相似的结果自然语言训练和领域专用语言训练，也是相似的结果

视觉信息和图示对解决几何问题并不重要，几何问题解决的核心在于代数推理，而不是几何推理。

单独使用多模态模型，没有显著提高系统的能力多模态模型生成的辅助点与其他模型不同，通过知识共享和其他模型组合起来可以提高整体性能

One More Thing

2023年，专门为AI设立的数学竞赛AIMO开办，第一个获得金牌的AI系统能赢500万美元奖金，但要求系统必须开源。

虽然现在AlphaGeometry2已经有了获得金牌的能力，但他不开源。

对这个领域感兴趣的团队还有机会哦～

最后，2025年的IMO竞赛将于7月份在澳大利亚举行。

论文地址：

https://arxiv.org/pdf/2502.03544

参考链接：

[1]https://x.com/lmthang/status/1887928665100665111

[2]https://www.nature.com/articles/d41586-025-00406-7#ref-CR2

文章来自微信公众号 “ 量子位 ”，作者梦晨

谷歌AI解决IMO中84%的几何问题，o1一道没做对！Nature：AI已超过金牌得主平均水平

关键词: DeepMind , AI , AlphaGeometry2 , 人工智能

AITNT资源拓展

根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考

AI数据分析

【开源免费】DeepBI是一款AI原生的数据分析平台。DeepBI充分利用大语言模型的能力来探索、查询、可视化和共享来自任何数据源的数据。用户可以使用DeepBI洞察数据并做出数据驱动的决策。
项目地址：https://github.com/DeepInsight-AI/DeepBI?tab=readme-ov-file
本地安装：https://www.deepbi.com/
【开源免费】airda(Air Data Agent)是面向数据分析的AI智能体，能够理解数据开发和数据分析需求、根据用户需要让数据可视化。
项目地址：https://github.com/hitsz-ids/airda

微调

【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台，可以对大语言模型（LLM）和多模态图文模型（VLM）进行预训练和轻量级微调。XTuner 支持多种微调算法，如 QLoRA、LoRA 和全量参数微调。
项目地址：https://github.com/InternLM/xtuner