AI资讯新闻榜单内容搜索-数学推理

o3-mini数学推理暴打DeepSeek-R1？AIME 2025初赛曝数据集污染大瓜

就在刚刚，AIME 2025 I数学竞赛的大模型参赛结果出炉，o3-mini取得78%的最好成绩，DeepSeek R1拿到了65%，取得第四名。然而一位教授却发现，某些1.5B小模型竟也能拿到50%，莫非真的存在数据集污染？

来自主题: AI资讯

9100 点击 2025-02-10 11:21

小模型也能击败o1？微软全华人团队提出rStar-Math算法，三大革命性技术突破，不仅让SLM在数学推理能力上刷新SOTA，更是挤进了全美20%顶尖高中生榜单。

来自主题: AI技术研报

3661 点击 2025-01-10 15:51

对 AI 研究者来说，数学既是一类难题，也是一个标杆，能够成为衡量 AI 技术的发展重要尺度。近段时间，随着 AI 推理能力的提升，使用 AI 来证明数学问题已经成为一个重要的研究探索方向。

来自主题: AI技术研报

7130 点击 2024-12-24 15:37

近期，OpenAI 号称最强推理模型的推出，引发了社区的热议，无论是性能还是价格，都产生了不少话题。最近，我们对 o1 新发布的 o1 满血版、o1 pro mode 模型进行了高难度数学测试，旨在深入探究其在数学推理方面的能力表现。

来自主题: AI技术研报

7788 点击 2024-12-23 09:31

OpenAI o1的数学推理能力是否真的那么强？近日，来自港大的研究人员对模型进行了严格的AB测试，在非公开的国家队奥数题面前，o1证明了自己的实力。

来自主题: AI技术研报

6643 点击 2024-12-21 11:30

目前大语言模型（Large Language Models, LLMs）的推理能力备受关注。从思维链（Chain of Thought，CoT）技术提出，到以 o1 为代表的长思考模型发布，大模型正在展现出接近人类甚至领域专家的水平，其中数学推理是一个典型任务。

来自主题: AI技术研报

8041 点击 2024-12-12 10:06

本文将介绍数学推理场景下的首个分布外检测研究成果。

来自主题: AI技术研报

3245 点击 2024-12-02 14:14

AtomThink 是一个包括 CoT 注释引擎、原子步骤指令微调、政策搜索推理的全流程框架，旨在通过将 “慢思考 “能力融入多模态大语言模型来解决高阶数学推理问题。量化结果显示其在两个基准数学测试中取得了大幅的性能增长，并能够轻易迁移至不同的多模态大模型当中。

来自主题: AI技术研报

6357 点击 2024-11-30 16:45

大模型不会照搬训练数据中的数学推理，回答事实问题和推理问题的「思路」也不一样。

来自主题: AI技术研报

7785 点击 2024-11-22 16:53

自从 OpenAI 发布展现出前所未有复杂推理能力的 o1 系列模型以来，全球掀起了一场 AI 能力 “复现” 竞赛。近日，上海交通大学 GAIR 研究团队在 o1 模型复现过程中取得新的突破，通过简单的知识蒸馏方法，团队成功使基础模型在数学推理能力上超越 o1-preview。

来自主题: AI技术研报

6094 点击 2024-11-22 16:46