
o3-mini数学推理暴打DeepSeek-R1?AIME 2025初赛曝数据集污染大瓜
o3-mini数学推理暴打DeepSeek-R1?AIME 2025初赛曝数据集污染大瓜就在刚刚,AIME 2025 I数学竞赛的大模型参赛结果出炉,o3-mini取得78%的最好成绩,DeepSeek R1拿到了65%,取得第四名。然而一位教授却发现,某些1.5B小模型竟也能拿到50%,莫非真的存在数据集污染?
来自主题: AI资讯
7676 点击 2025-02-10 11:21
就在刚刚,AIME 2025 I数学竞赛的大模型参赛结果出炉,o3-mini取得78%的最好成绩,DeepSeek R1拿到了65%,取得第四名。然而一位教授却发现,某些1.5B小模型竟也能拿到50%,莫非真的存在数据集污染?