AI | MO数学竞赛启动，陶哲轩力荐！50题对3道，百万大奖抱回家

7679点击 2024-04-03 16:24

【新智元导读】又一项针对AI模型的数学奥赛来了！只要在50道题中做出3道，就有可能把百万美元大奖抱回家。题目难度为人类的高中学术竞赛难度，包括基础算术、代数思维和几何推理。欢迎AI模型们踊跃报名。

AI大模型的数学竞赛，正在如火如荼地进行中。

就在刚刚，又一项针对AI参赛者的赛事官宣了。

挑战内容是，在6月27日之前提交一个AI模型，在一组50个测试题中表现良好。

何谓表现良好呢？此前官方测试的基准模型Gemma 7B，只能正确回答50个问题中的3个，而获奖者必须至少达到这个基准。

而获胜AI，可以直接把104.8万美元的大奖抱回家！

AI | MO数学竞赛启动，陶哲轩力荐！50题对3道，百万大奖抱回家

陶哲轩已经转发了消息，欢迎广大AI志士参赛。

AI | MO数学竞赛启动，陶哲轩力荐！50题对3道，百万大奖抱回家

本次比赛的目标是，创建能够解决以LaTeX格式编写的棘手数学难题的算法和模型。

而广大的参赛者，能够提高AI模型的数学推理技能，推动前沿知识的发展。

AI | MO数学竞赛启动，陶哲轩力荐！50题对3道，百万大奖抱回家

从大赛主页上可以看出，才不到两天时间里，已经有1515名参赛者，完成了112个提交。

AI | MO数学竞赛启动，陶哲轩力荐！50题对3道，百万大奖抱回家

比赛介绍

无论是构建工程学的奇迹还是设计复杂的金融模型，数学推理都扮演着基石的角色。

但目前，AI在这方面的能力还相对有限。

为了激发开发能够匹敌国际数学奥林匹克（IMO）顶尖参赛者表现的AI模型，kaggle设立了一个奖金高达1000万美元的AI数学奥林匹克（AIMO）。

不过，评估AI模型在数学推理方面的能力时，有一个主要挑战：训练-测试泄露问题。也就是，模型可能会在训练过程中不小心接触到测试题目。

为解决这一问题，比赛采用了一个由国际专家团队精心设计的数据集。这110道全新的数学题，覆盖了从基础算术到代数思维、几何推理等不同难度，大致相当于中级水平的高中数学竞赛。

在这些问题上，Gemma 7B的评分标准在公开和私人测试集上仅为3/50。

时间表

2024年4月1日：比赛开始。

2024年6月20日：报名截止。

2024年6月20日：团队合并最后期限。

2024年6月27日：最终提交截止。

奖项设置

进步奖（Progress Prize）：$1,048,576

排名前列的团队将获得以下奖金：

第一名：$131,072

第二名：$65,536

第三名：$32,768

第四名：$16,384

第五名：$8,192

如果前五名中的任一团队在公开和私有测试集上的得分都未能超过Gemma 7B的3/50基准，奖金将减少到原来的四分之一，具体数额如下：

第一名：$32,768

第二名：$16,384

第三名：$8,192

第四名：$4,096

第五名：$2,048

综合进步奖（Overall Progress Prize）：将授予在公开及私有测试集上至少获得47/50分的最高排名团队。在为排名前五的团队颁发奖金后，总奖金的剩余部分将颁发给综合进步奖获得者。

如果本次比赛产生了获胜者，其奖金不低于$794,624。如果没有团队获得该奖，剩余的奖金将转入下一届比赛，采用相同的奖金分配方式。

评估方法

提交内容将根据其预测标签和真实标签之间的准确性进行评估。

换言之，提交会按与真实标签完全匹配的预测标签的比例，来进行排名。

在本次竞赛中，每个真值标签都是介于0和999之间的整数（含0和999）。

代码要求

本次比赛的参赛作品需要通过Notebooks进行，并且必须满足以下条件：

- CPU Notebook <= 9 小时运行时间

- GPU Notebook <= 9 小时运行时间

- 禁止互联网访问

- 允许免费和公开的外部数据，包括预训练模型

- 提交文件必须命名为submission.csv

参考资料：

https://www.kaggle.com/competitions/ai-mathematical-olympiad-prize/overview

文章来自微信公众号“新智元”，作者:新智元

AI | MO数学竞赛启动，陶哲轩力荐！50题对3道，百万大奖抱回家

关键词: AI数学 , AI数学竞赛 , 大模型数学竞赛 , Gemma 7B