
英伟达AI奥赛夺冠,1.5B数学碾压DeepSeek-R1!代码全系开源,陶哲轩点赞
英伟达AI奥赛夺冠,1.5B数学碾压DeepSeek-R1!代码全系开源,陶哲轩点赞AIMO2冠军「答卷」公布了!英伟达团队NemoSkills拔得头筹,开源了OpenMath-Nemotron系列AI模型,1.5B小模型击败14B-DeepSeek「推理大模型」!
AIMO2冠军「答卷」公布了!英伟达团队NemoSkills拔得头筹,开源了OpenMath-Nemotron系列AI模型,1.5B小模型击败14B-DeepSeek「推理大模型」!
AI辅助人类,完成了首个非平凡研究数学证明,破解了50年未解的数学难题!在南大校友的研究中,这个难题中q=3的情况,由o3-mini-high给出了精确解。
AIMO2最终结果出炉了!英伟达团队NemoSkills拔得头筹,凭借14B小模型破解了34道奥数题,完胜DeepSeek R1。
数学题, 一直是检验 AI 实力的 “硬核考场” —— 公式推导、逻辑链条、抽象思维缺一不可 。最近,我好了几天时间对国内外 7 款大厂模型展开了一场 “数学高考 ”,用阿里全球数学竞赛 + 中国奥赛真题实测它们的智商上限。
“大模型推广大神”陶哲轩又来分享他的亲测体验了。这一次o3-mini一眼识破并且纠正了他的一个错误,然后在它的帮助下快速完成了一道数学题的解答。
在32道高等数学测试中,LLM表现出色,平均能得分90.4(按百分制计算)。GPT-4o和Mistral AI更是几乎没错!向量计算、几何分析、积分计算、优化问题等,高等AI模型轻松拿捏。研究发现,再提示(Re-Prompting)对提升准确率至关重要。
o3-mini成功挑战图论中专家级证明,还得到了陶哲轩盛赞。经过实测后,他总结称LLM并非是数学研究万能解法,其价值取决于问题得性质和调教AI的方式。
猜想界的皇冠——黎曼猜想,离被证明的那一天不远了。Grok 3便是关键所在:暴力计算+验证器能让AI穷举所有解法,再加上AI辅助科学家打出的组合拳,下一个诺奖级突破近在咫尺。
DeepSeek团队最新力作一上线,就获得Ai2研究所大牛推荐,和DeepSeek铁粉们的热情研读!他们提出的CodeI/O全新方法,通过代码提取了LLM推理模式,在逻辑、数学等推理任务上得到显著改进。
Scale AI 等提出的新基准再次暴露了大语言模型的弱点。