o3-mini数学推理暴打DeepSeek-R1?AIME 2025初赛曝数据集污染大瓜
o3-mini数学推理暴打DeepSeek-R1?AIME 2025初赛曝数据集污染大瓜就在刚刚,AIME 2025 I数学竞赛的大模型参赛结果出炉,o3-mini取得78%的最好成绩,DeepSeek R1拿到了65%,取得第四名。然而一位教授却发现,某些1.5B小模型竟也能拿到50%,莫非真的存在数据集污染?
来自主题: AI资讯
10055 点击 2025-02-10 11:21
就在刚刚,AIME 2025 I数学竞赛的大模型参赛结果出炉,o3-mini取得78%的最好成绩,DeepSeek R1拿到了65%,取得第四名。然而一位教授却发现,某些1.5B小模型竟也能拿到50%,莫非真的存在数据集污染?
QwQ 具有神奇的推理能力。 一个刚发布两天的开源模型,正在 AI 数学奥林匹克竞赛 AIMO 上创造新纪录。
离“人形机器人人人造”时代更进一步。
在探索「数学之美」的路上,人工智能到底走到哪一步了?说到这个话题,可能没人比数学家陶哲轩更懂。他几乎是最常用 AI 辅助证明的数学家之一,还在今年的 AI 数学奥林匹克竞赛(AIMO 进步奖)担任了顾问委员。
未来智能于5月15日举办2024讯飞耳机新品发布会,推出了iFLYBUDS Pro2、iFLYBUDS 2以及viaim Kit 2三款新品。这一系列新品将为用户带来更优质的会议体验和便捷的沟通解决方案,引领着AIGC行业发展的新趋势。
视觉模型,同样遵循「参数越多性能越强」的规律?刚刚,一项来自苹果公司的研究验证了这个猜想。