【新智元导读】又一项针对AI模型的数学奥赛来了!只要在50道题中做出3道,就有可能把百万美元大奖抱回家。题目难度为人类的高中学术竞赛难度,包括基础算术、代数思维和几何推理。欢迎AI模型们踊跃报名。
AI大模型的数学竞赛,正在如火如荼地进行中。
就在刚刚,又一项针对AI参赛者的赛事官宣了。
挑战内容是,在6月27日之前提交一个AI模型,在一组50个测试题中表现良好。
何谓表现良好呢?此前官方测试的基准模型Gemma 7B,只能正确回答50个问题中的3个,而获奖者必须至少达到这个基准。
而获胜AI,可以直接把104.8万美元的大奖抱回家!
陶哲轩已经转发了消息,欢迎广大AI志士参赛。
本次比赛的目标是,创建能够解决以LaTeX格式编写的棘手数学难题的算法和模型。
而广大的参赛者,能够提高AI模型的数学推理技能,推动前沿知识的发展。
从大赛主页上可以看出,才不到两天时间里,已经有1515名参赛者,完成了112个提交。
无论是构建工程学的奇迹还是设计复杂的金融模型,数学推理都扮演着基石的角色。
但目前,AI在这方面的能力还相对有限。
为了激发开发能够匹敌国际数学奥林匹克(IMO)顶尖参赛者表现的AI模型,kaggle设立了一个奖金高达1000万美元的AI数学奥林匹克(AIMO)。
不过,评估AI模型在数学推理方面的能力时,有一个主要挑战:训练-测试泄露问题。也就是,模型可能会在训练过程中不小心接触到测试题目。
为解决这一问题,比赛采用了一个由国际专家团队精心设计的数据集。这110道全新的数学题,覆盖了从基础算术到代数思维、几何推理等不同难度,大致相当于中级水平的高中数学竞赛。
在这些问题上,Gemma 7B的评分标准在公开和私人测试集上仅为3/50。
2024年4月1日:比赛开始。
2024年6月20日:报名截止。
2024年6月20日:团队合并最后期限。
2024年6月27日:最终提交截止。
进步奖(Progress Prize):$1,048,576
排名前列的团队将获得以下奖金:
第一名:$131,072
第二名:$65,536
第三名:$32,768
第四名:$16,384
第五名:$8,192
如果前五名中的任一团队在公开和私有测试集上的得分都未能超过Gemma 7B的3/50基准,奖金将减少到原来的四分之一,具体数额如下:
第一名:$32,768
第二名:$16,384
第三名:$8,192
第四名:$4,096
第五名:$2,048
综合进步奖(Overall Progress Prize):将授予在公开及私有测试集上至少获得47/50分的最高排名团队。在为排名前五的团队颁发奖金后,总奖金的剩余部分将颁发给综合进步奖获得者。
如果本次比赛产生了获胜者,其奖金不低于$794,624。如果没有团队获得该奖,剩余的奖金将转入下一届比赛,采用相同的奖金分配方式。
提交内容将根据其预测标签和真实标签之间的准确性进行评估。
换言之,提交会按与真实标签完全匹配的预测标签的比例,来进行排名。
在本次竞赛中,每个真值标签都是介于0和999之间的整数(含0和999)。
本次比赛的参赛作品需要通过Notebooks进行,并且必须满足以下条件:
- CPU Notebook <= 9 小时运行时间
- GPU Notebook <= 9 小时运行时间
- 禁止互联网访问
- 允许免费和公开的外部数据,包括预训练模型
- 提交文件必须命名为submission.csv
参考资料:
https://www.kaggle.com/competitions/ai-mathematical-olympiad-prize/overview
文章来自微信公众号“新智元”,作者:新智元