
o1/Claude集体翻车!陶哲轩等60+顶尖数学家合力提出新数学基准,大模型正确率通通不足2%
o1/Claude集体翻车!陶哲轩等60+顶尖数学家合力提出新数学基准,大模型正确率通通不足2%让大模型集体吃瘪,数学题正确率通通不到2%!
让大模型集体吃瘪,数学题正确率通通不到2%!
Epoch AI推出数学基准FrontierMath,目前前沿模型测试成功率均低于2%!OpenAI研究科学家Noam Brown说道:「我喜欢看到新评估的前沿模型通过率如此之低。这种感觉就像一觉醒来,外面是一片崭新的雪地,完全没有人迹。」或许,FrontierMath测试成功率突破的那一天,会是AI发展过程中一个全新的里程碑。
万万没想到,现在的国产AI搜索,竟然让我成功读懂了陶哲轩推荐的论文。
Transformer解决了三体问题?Meta研究者发现,132年前的数学难题——发现全局李雅普诺夫函数,可以被Transformer解决了。「我们不认为Transformer是在推理,它可能是出于对数学问题的深刻理解,产生了超级直觉。」AI可以搞基础数学研究了,陶哲轩预言再成真。
能拿下数学奥赛银牌水平的AI是否达到了12岁陶哲轩的水平? 陶神本人的回答来了
AI已完全融入数学家的工作流中。陶哲轩刚刚宣布,最新方程理论项目已完成99.9963%,众包之力外加AI辅助取得了重大成绩。他认为,剩余大约700个让人类头疼的难题,AI或许更有潜力。
陶哲轩发起的「众包」数学研究项目终于快要迎来胜利时刻!
诺贝尔物理学奖和化学奖被AI「包圆」后,人们再次确信:基础科学研究的范式,已经被AI从根本上改变。
想参加陶哲轩发起的「众包」数学研究项目吗? 机会来了!
o1消息满天飞。