
陶哲轩携AI再战数学!o4-mini秒怂弃赛,Claude 20分钟通关
陶哲轩携AI再战数学!o4-mini秒怂弃赛,Claude 20分钟通关陶哲轩YouTube视频第二弹震撼来袭!这一次,他让AI挑战在Lean中形式化代数蕴含证明,结果Claude约20分通关,o4-mini太过谨慎直接「弃赛」。
陶哲轩YouTube视频第二弹震撼来袭!这一次,他让AI挑战在Lean中形式化代数蕴含证明,结果Claude约20分通关,o4-mini太过谨慎直接「弃赛」。
菲尔兹奖得主陶哲轩再放大招,仅数天时间,开源的概念验证工具借助Copilot迭代至2.0版本。而在最新视频中,他甚至用AI在33分钟「盲做」形式化一页证明,效率惊人。
本周二,我们报道了菲尔兹奖得主陶哲轩的一个开源项目 —— 在大模型的协助下编写了一个概念验证软件工具,来验证涉及任意正参数的给定估计是否成立(在常数因子范围内)。这才几天的时间,这个估计验证工具的 2.0 版本就来了!
DeepSeek放大招!新模型专注数学定理证明,大幅刷新多项高难基准测试。在普特南测试上,新模型DeepSeek-Prover-V2直接把记录刷新到49道。目前的第一名在657道题中只做出10道题,为Kimi与AIME2024冠军团队Numina合作成果Kimina-Prover。
AIMO2冠军「答卷」公布了!英伟达团队NemoSkills拔得头筹,开源了OpenMath-Nemotron系列AI模型,1.5B小模型击败14B-DeepSeek「推理大模型」!
AI辅助人类,完成了首个非平凡研究数学证明,破解了50年未解的数学难题!在南大校友的研究中,这个难题中q=3的情况,由o3-mini-high给出了精确解。
AIMO2最终结果出炉了!英伟达团队NemoSkills拔得头筹,凭借14B小模型破解了34道奥数题,完胜DeepSeek R1。
数学题, 一直是检验 AI 实力的 “硬核考场” —— 公式推导、逻辑链条、抽象思维缺一不可 。最近,我好了几天时间对国内外 7 款大厂模型展开了一场 “数学高考 ”,用阿里全球数学竞赛 + 中国奥赛真题实测它们的智商上限。
“大模型推广大神”陶哲轩又来分享他的亲测体验了。这一次o3-mini一眼识破并且纠正了他的一个错误,然后在它的帮助下快速完成了一道数学题的解答。
在32道高等数学测试中,LLM表现出色,平均能得分90.4(按百分制计算)。GPT-4o和Mistral AI更是几乎没错!向量计算、几何分析、积分计算、优化问题等,高等AI模型轻松拿捏。研究发现,再提示(Re-Prompting)对提升准确率至关重要。