实测国内外大模型数学能力：YiXin-Distill-Qwen-72B登顶，半数大厂模型不及格？

# 热门搜索 #

大模型

人工智能

openai

融资

chatGPT

实测国内外大模型数学能力：YiXin-Distill-Qwen-72B登顶，半数大厂模型不及格？

8544点击 2025-04-01 14:25

数学题，一直是检验 AI 实力的 “硬核考场” —— 公式推导、逻辑链条、抽象思维缺一不可。最近，我好了几天时间对国内外 7 款大厂模型展开了一场 “数学高考 ”，用阿里全球数学竞赛 + 中国奥赛真题实测它们的智商上限。

实测国内外大模型数学能力：YiXin-Distill-Qwen-72B登顶，半数大厂模型不及格？

参战选手：

国产新星：DeepSeek R1、混元 T1、通义 QwQ、YiXin-Distill-Qwen-72B
国际选手：Grok 3 beta、Gemini 2.0 Flash Thinking、o3-mini

其中，YiXin-Distill-Qwen-72B 需要 8 张 3090/4090 显卡才能跑起标准版，而它的 “AWQ 量化版” 仅需 2 张卡即可运行，其他模型则直接使用官方页面，确保公平对决。

YiXin-Distill-Qwen-72B 部署指南：https://github.com/YiXin-AILab/YiXin-Distill-Qwen-72B

fp16 的版本：https://huggingface.co/YiXin-AILab/YiXin-Distill-Qwen-72B

AWQ 的版本：https://huggingface.co/YiXin-AILab/YiXin-Distill-Qwen-72B-AWQ。

#01

成绩汇总

先上结论，题目主要取自 “阿里巴巴全球数学竞赛” 和 “中国数学奥林匹克（CMO）” 的真题，在这 10 道难度比较高的数学题中，一共有 13 个小问，正确得 1 分，错误不得分，半对得 0.5 分，各个模型的正确率为：

实测国内外大模型数学能力：YiXin-Distill-Qwen-72B登顶，半数大厂模型不及格？

其中国内模型 DeepSeek R1 和 YiXin 两家的平均推理步骤最长，尤其是后者，还会出现截断的情况。

详细得分情况如下：

实测国内外大模型数学能力：YiXin-Distill-Qwen-72B登顶，半数大厂模型不及格？

#02

详细题目

1、爷爷有 60 元钱，去超市买了 20 元蔬菜，收银员可能怎么给爷爷找零钱？

o3-mini：

实测国内外大模型数学能力：YiXin-Distill-Qwen-72B登顶，半数大厂模型不及格？

Grok 3：

实测国内外大模型数学能力：YiXin-Distill-Qwen-72B登顶，半数大厂模型不及格？

DeepSeek R1：

实测国内外大模型数学能力：YiXin-Distill-Qwen-72B登顶，半数大厂模型不及格？

混元 T1：

实测国内外大模型数学能力：YiXin-Distill-Qwen-72B登顶，半数大厂模型不及格？

通义 QwQ：

实测国内外大模型数学能力：YiXin-Distill-Qwen-72B登顶，半数大厂模型不及格？

Gemini 2.0 Flash Thinking：

实测国内外大模型数学能力：YiXin-Distill-Qwen-72B登顶，半数大厂模型不及格？

YiXin-Distill-Qwen-72B：

实测国内外大模型数学能力：YiXin-Distill-Qwen-72B登顶，半数大厂模型不及格？

2、小明和小华每天走路去上学。小明每分钟走 48 米，小华每分钟走 55 米，小华从家到学校所用的时间比小明多 4 分钟。小华家离学校有多远？下面哪种方法是错误的，说说你的理由。

方法 1：55 x 4 = 220（米），384 + 220 = 604（米）
方法 2：384/48 = 8（分），55 x（8 + 4）= 660（米）

o3-mini：

实测国内外大模型数学能力：YiXin-Distill-Qwen-72B登顶，半数大厂模型不及格？

Grok 3：

实测国内外大模型数学能力：YiXin-Distill-Qwen-72B登顶，半数大厂模型不及格？

DeepSeek R1：

实测国内外大模型数学能力：YiXin-Distill-Qwen-72B登顶，半数大厂模型不及格？

混元 T1：

实测国内外大模型数学能力：YiXin-Distill-Qwen-72B登顶，半数大厂模型不及格？

混元比较奇怪，最终答案是对的，但最终判断里把方法 2 也判断为错的。

通义 QwQ：

实测国内外大模型数学能力：YiXin-Distill-Qwen-72B登顶，半数大厂模型不及格？

Gemini 2.0 Flash Thinking：

实测国内外大模型数学能力：YiXin-Distill-Qwen-72B登顶，半数大厂模型不及格？

YiXin-Distill-Qwen-72B：

实测国内外大模型数学能力：YiXin-Distill-Qwen-72B登顶，半数大厂模型不及格？

3、看不见的塔几位同学假期组成一个小组去某市旅游，该市有 6 座塔，它们的位置分别为 A、B、C、D、E、F。

同学们自由行动一段时间后，每位同学都发现，自己在所在的位置只能看到位于 A、B、C、D 处的四座塔，而看不到位于 E 和 F 的塔，已知（1）同学们的位置和塔的位置均视为同一平面上的点，且这些点彼此不重合；（2）A、B、C、D、E、F 中任意 3 点不共线；（3）看不到塔的唯一可能就是视线被其它的塔所阻挡，例如，如果某位同学所在的位置 P 和 A、B 共线，且 A 在线段 PB 上，那么该同学就看不到位于 B 处的塔。

请问，这个旅游小组最多可能有多少名同学？

（A）3；（B）4；（C）6；（D）12

o3-mini：

实测国内外大模型数学能力：YiXin-Distill-Qwen-72B登顶，半数大厂模型不及格？

Grok 3：

实测国内外大模型数学能力：YiXin-Distill-Qwen-72B登顶，半数大厂模型不及格？

DeepSeek R1：

实测国内外大模型数学能力：YiXin-Distill-Qwen-72B登顶，半数大厂模型不及格？

混元 T1：

实测国内外大模型数学能力：YiXin-Distill-Qwen-72B登顶，半数大厂模型不及格？

通义 QwQ：

实测国内外大模型数学能力：YiXin-Distill-Qwen-72B登顶，半数大厂模型不及格？

Gemini 2.0 Flash Thinking：

实测国内外大模型数学能力：YiXin-Distill-Qwen-72B登顶，半数大厂模型不及格？

YiXin-Distill-Qwen-72B：

实测国内外大模型数学能力：YiXin-Distill-Qwen-72B登顶，半数大厂模型不及格？

实测国内外大模型数学能力：YiXin-Distill-Qwen-72B登顶，半数大厂模型不及格？

4、春节期间，某牛奶公司推出了新春盲盒活动：每盒牛奶都附赠一个 “红包” 其中有下列 “虎”、“生”、“威” 中的一款图案。集齐两个 “虎”，一个 “生”一个 “威” 即可拼齐成为 “虎虎生威” 全家福。

这项活动一经推出，就成为了网红爆款，很多人希望能够集齐一整套。假设红包上的图案是独立随机分布的，并且没法从红包外表上区分，“虎”、“生”、“威” 三款红包盲盒按均匀概率 1/3 分布，请问收集齐一整套 “虎虎生威” 全家福所需要购买的牛奶盒数的数学期望是多少？

o3-mini：

实测国内外大模型数学能力：YiXin-Distill-Qwen-72B登顶，半数大厂模型不及格？

Grok 3：

实测国内外大模型数学能力：YiXin-Distill-Qwen-72B登顶，半数大厂模型不及格？

实测国内外大模型数学能力：YiXin-Distill-Qwen-72B登顶，半数大厂模型不及格？

DeepSeek R1：

实测国内外大模型数学能力：YiXin-Distill-Qwen-72B登顶，半数大厂模型不及格？

实测国内外大模型数学能力：YiXin-Distill-Qwen-72B登顶，半数大厂模型不及格？

混元 T1：

实测国内外大模型数学能力：YiXin-Distill-Qwen-72B登顶，半数大厂模型不及格？

实测国内外大模型数学能力：YiXin-Distill-Qwen-72B登顶，半数大厂模型不及格？

通义 QwQ：

实测国内外大模型数学能力：YiXin-Distill-Qwen-72B登顶，半数大厂模型不及格？

实测国内外大模型数学能力：YiXin-Distill-Qwen-72B登顶，半数大厂模型不及格？

实测国内外大模型数学能力：YiXin-Distill-Qwen-72B登顶，半数大厂模型不及格？

Gemini 2.0 Flash Thinking：

实测国内外大模型数学能力：YiXin-Distill-Qwen-72B登顶，半数大厂模型不及格？

YiXin-Distill-Qwen-72B：

实测国内外大模型数学能力：YiXin-Distill-Qwen-72B登顶，半数大厂模型不及格？

实测国内外大模型数学能力：YiXin-Distill-Qwen-72B登顶，半数大厂模型不及格？

5、小明玩战机游戏。初始积分为 2，在游戏进行中，积分会随着时间线性地连续减少（速率为每单位时间段扣除 1）。游戏开始后，每隔一个随机时间段（时长为互相独立的参数为 1 的指数分布），就会有一架敌机出现在屏幕上。

当敌机出现时，小明立即进行操作，可以瞬间击落对方，或者瞬间被对方击落。如被敌机击落，则游戏结束。如小明击落敌机，则会获得 1.5 个积分，并且可以选择在击落该次敌机后立即退出游戏，或者继续游戏。如选择继续游戏，则须等待到下一架敌机出现，中途不能主动退出。

游戏的难度不断递增：出现的第 n 架敌机，小明击落对方的概率为（0.85）^n，被击落的概率为 1 -（0.85）^n，且与之前的事件独立。在任何时刻，如果积分降到 0，则游戏自动结束。

问题部分：

（1）如果游戏中，小明被击落后，其之前的积分保持。那么为了游戏结束时的累积积分的数学期望最大化，小明应该在其击落第几架敌机后主动结束游戏？（

A） 1；（B）3；（C）2；（D）4。

（2）假设游戏中，小明被击落后，其之前积累的积分会清零。那么为了结束时的期望积分最大化，小明也会选择一个最优的时间主动结束游戏。请问在游戏结束时（小明主动结束、或积分减到 0），下列哪一个选项最接近游戏结束时小明的期望积分？（

A）4；（B）2；（C）8；（D）6。

o3-mini：

实测国内外大模型数学能力：YiXin-Distill-Qwen-72B登顶，半数大厂模型不及格？

Grok 3：

实测国内外大模型数学能力：YiXin-Distill-Qwen-72B登顶，半数大厂模型不及格？

DeepSeek R1：

实测国内外大模型数学能力：YiXin-Distill-Qwen-72B登顶，半数大厂模型不及格？

混元 T1：

实测国内外大模型数学能力：YiXin-Distill-Qwen-72B登顶，半数大厂模型不及格？

通义 QwQ：

实测国内外大模型数学能力：YiXin-Distill-Qwen-72B登顶，半数大厂模型不及格？

Gemini 2.0 Flash Thinking：

实测国内外大模型数学能力：YiXin-Distill-Qwen-72B登顶，半数大厂模型不及格？

YiXin-Distill-Qwen-72B：

实测国内外大模型数学能力：YiXin-Distill-Qwen-72B登顶，半数大厂模型不及格？

实测国内外大模型数学能力：YiXin-Distill-Qwen-72B登顶，半数大厂模型不及格？

6、用最少的推理步骤解决一下问题：如 n 是不小于 3 的自然数，以 f(n) 表示不是 n 的因子的最小自然数，例如 f(12) = 5。如果 f(n) 3，又可作 f(f(n))、类似地，如果，f(f(n)) ≥ 3，又可作 f(f(f(n))) 等等。如果 f(f(...f(n) ...)) = 2，共有 k 个 f 就把 k 叫做 n 的 “长度 ”，如果 l 表示 n 的长度，试对任意自然数 n（n 大于等于 3），求 In，并证明你的结论。

o3-mini：

实测国内外大模型数学能力：YiXin-Distill-Qwen-72B登顶，半数大厂模型不及格？

Grok 3：

实测国内外大模型数学能力：YiXin-Distill-Qwen-72B登顶，半数大厂模型不及格？

DeepSeek R1：

实测国内外大模型数学能力：YiXin-Distill-Qwen-72B登顶，半数大厂模型不及格？

混元 T1：

实测国内外大模型数学能力：YiXin-Distill-Qwen-72B登顶，半数大厂模型不及格？

通义 QwQ：

实测国内外大模型数学能力：YiXin-Distill-Qwen-72B登顶，半数大厂模型不及格？

Gemini 2.0 Flash Thinking：

实测国内外大模型数学能力：YiXin-Distill-Qwen-72B登顶，半数大厂模型不及格？

YiXin-Distill-Qwen-72B：

实测国内外大模型数学能力：YiXin-Distill-Qwen-72B登顶，半数大厂模型不及格？

实测国内外大模型数学能力：YiXin-Distill-Qwen-72B登顶，半数大厂模型不及格？

7、设 S 为复平面上的单位圆周（即模为 1 的复数的集合），f 为从 S 到 S 的映射，对于任意 z 属于 S，定义 f^1 (z) = f(z)，f^2 (z) = f(f(z))； …，f^k(z) = f(f^{k-1}(z)。如果 c 属于 S，使得 f^1© ≠ c，f^2© ≠ c，…，f(n-1)© ≠ c，f^n© = c，则称 c 为 f 的 n- 周期点。设 m 是大于 1 的自然数，f 定义为 f(z) = z^m，试计算 f 的 1989- 周期点的个数。

o3-mini：

实测国内外大模型数学能力：YiXin-Distill-Qwen-72B登顶，半数大厂模型不及格？

Grok 3：

实测国内外大模型数学能力：YiXin-Distill-Qwen-72B登顶，半数大厂模型不及格？

DeepSeek R1：

实测国内外大模型数学能力：YiXin-Distill-Qwen-72B登顶，半数大厂模型不及格？

混元 T1：

实测国内外大模型数学能力：YiXin-Distill-Qwen-72B登顶，半数大厂模型不及格？

通义 QwQ：

实测国内外大模型数学能力：YiXin-Distill-Qwen-72B登顶，半数大厂模型不及格？

Gemini 2.0 Flash Thinking：

实测国内外大模型数学能力：YiXin-Distill-Qwen-72B登顶，半数大厂模型不及格？

YiXin-Distill-Qwen-72B：

实测国内外大模型数学能力：YiXin-Distill-Qwen-72B登顶，半数大厂模型不及格？

实测国内外大模型数学能力：YiXin-Distill-Qwen-72B登顶，半数大厂模型不及格？

8、空间中有 1989 个点，其中任何三点不共线，把它们分成点数各不相同的30 组，在任何三个不同的组中各取一点为顶点作三角形，求各组的点的个数分别为多少时三角形的个数最大。

o3-mini：

实测国内外大模型数学能力：YiXin-Distill-Qwen-72B登顶，半数大厂模型不及格？

Grok 3：

实测国内外大模型数学能力：YiXin-Distill-Qwen-72B登顶，半数大厂模型不及格？

DeepSeek R1：

实测国内外大模型数学能力：YiXin-Distill-Qwen-72B登顶，半数大厂模型不及格？

混元 T1：

实测国内外大模型数学能力：YiXin-Distill-Qwen-72B登顶，半数大厂模型不及格？

通义 QwQ：

实测国内外大模型数学能力：YiXin-Distill-Qwen-72B登顶，半数大厂模型不及格？

Gemini 2.0 Flash Thinking：

实测国内外大模型数学能力：YiXin-Distill-Qwen-72B登顶，半数大厂模型不及格？

YiXin-Distill-Qwen-72B：

实测国内外大模型数学能力：YiXin-Distill-Qwen-72B登顶，半数大厂模型不及格？

添加图片注释，不超过 140 字（可选）

实测国内外大模型数学能力：YiXin-Distill-Qwen-72B登顶，半数大厂模型不及格？

9、设 x 是一个自然数，若一串自然数 x0 = 1 < x1 < x2 < … < xl = x 满足 xi-i|xi(i =1, 2, … l)，则称 {x0, x1, …… ,xl} 为 x 的一条因子链。l 称为该因子链的长度。L (x) 与 R(x) 分别表示 x 的最长因子链的长度和最长因子链的条数，对于 x =5^k*31^m *1990^n，k、m、n 都是自然数，试求 L(x) 与 R (x)。

o3-mini：

实测国内外大模型数学能力：YiXin-Distill-Qwen-72B登顶，半数大厂模型不及格？

Grok 3：

实测国内外大模型数学能力：YiXin-Distill-Qwen-72B登顶，半数大厂模型不及格？

DeepSeek R1：

实测国内外大模型数学能力：YiXin-Distill-Qwen-72B登顶，半数大厂模型不及格？

混元 T1：

实测国内外大模型数学能力：YiXin-Distill-Qwen-72B登顶，半数大厂模型不及格？

通义 QwQ：

实测国内外大模型数学能力：YiXin-Distill-Qwen-72B登顶，半数大厂模型不及格？

Gemini 2.0 Flash Thinking：

实测国内外大模型数学能力：YiXin-Distill-Qwen-72B登顶，半数大厂模型不及格？

YiXin-Distill-Qwen-72B：

实测国内外大模型数学能力：YiXin-Distill-Qwen-72B登顶，半数大厂模型不及格？

添加图片注释，不超过 140 字（可选）

实测国内外大模型数学能力：YiXin-Distill-Qwen-72B登顶，半数大厂模型不及格？

10、平面上有一凸四边形 ABCD。（1）如果平面上存在一点 P，使得△ABP，△BCP，△CDP，△DAP 面积都相等，问四边形 ABCD 应满足什么条件？（2）满足（1）的点 P，平面上最多有几个？证明你的结论。

PS：（1）的答案：四边形 ABCD 有一条对角线平分面积，或者在对角线分成的四个三角形中有一个为四边形面积的一半。

o3-mini：

实测国内外大模型数学能力：YiXin-Distill-Qwen-72B登顶，半数大厂模型不及格？

Grok 3：

实测国内外大模型数学能力：YiXin-Distill-Qwen-72B登顶，半数大厂模型不及格？

DeepSeek R1：

实测国内外大模型数学能力：YiXin-Distill-Qwen-72B登顶，半数大厂模型不及格？

混元 T1：

实测国内外大模型数学能力：YiXin-Distill-Qwen-72B登顶，半数大厂模型不及格？

通义 QwQ：

实测国内外大模型数学能力：YiXin-Distill-Qwen-72B登顶，半数大厂模型不及格？

Gemini 2.0 Flash Thinking：

实测国内外大模型数学能力：YiXin-Distill-Qwen-72B登顶，半数大厂模型不及格？

YiXin-Distill-Qwen-72B：

实测国内外大模型数学能力：YiXin-Distill-Qwen-72B登顶，半数大厂模型不及格？

实测国内外大模型数学能力：YiXin-Distill-Qwen-72B登顶，半数大厂模型不及格？

#03

大模型解题能力观察与思考

经过我 “呕心沥血” 地对多个大模型做的数学能力测试，基本可以得出这么几个结论：

1、大模型复杂数学能力基线提升很快

推理大模型在涉及多步推理的几何、概率嵌套问题或开放性复杂应用题时，表现都比之前有了大幅提升，进一步证明了 “慢思考” 的强大之处。

2、解题风格差异显著

o3-mini/Grok 3/通义 QwQ：解题步骤相对简洁，推理过程不啰嗦；

DeepSeek R1/混元 T1/YiXin：解题步骤相对更长，且推理过程中有很多反思和校验，有些啰嗦；

Gemini 2.0 Flash Thinking：解题步骤真的很长，出现问的中文问题，推理过程全是英文的情况，推理过程的啰嗦程度最高。

3、“非技术性” 错误偶发，纠错能力强

部分错误并非源于模型数学能力不足，而是对题意理解偏差或符号误读，但是测试也发现，在问题中出现符号局部错误、或者公式局部错误，不影响对题意的理解，例如：p_i\in(0, 1),i = 1, 2, …, 5 写成了 p_i \in(0, 1),j = 1, 2, …, 5，不影响结果。

4、未来方向：专业化与工具整合

当前模型已经能处理老多复杂数学问题了，未来可通过以下路径让数学能力更上一层楼：

插件扩展：接入计算引擎（如 Wolfram Alpha）弥补符号运算短板；

垂直训练：针对数理逻辑构建专属微调数据集，强化推理因果链；交互式修正：允许用户实时指出错误步骤，动态调整解题路径。

5、给用户的建议

学生群体：可借助大模型快速验证基础题答案，但需警惕其对复杂问题的 “自信式错误”，更要注意大模型是个学习工具，一定要自己思考；教育工作者：需设计更 “反套路” 题目以检验 AI 辅助下的真实学习效果；开发者：应优化提示词设计，明确解题边界，避免模型过度 “脑补”。

总的来说，我感觉大模型的数学能力已经从 “玩具级” 迈入 “工具级”，走向可信赖的 “研究级”，未来的竞争或许聚焦于：谁能更精准地平衡 “思维模拟” 与 “事实严谨性”，我还是蛮期待的。

文章来自微信公众号 “ AI产品阿颖 “

实测国内外大模型数学能力：YiXin-Distill-Qwen-72B登顶，半数大厂模型不及格？

关键词: AI , 模型测试 , AI数学能力 , YiXin-Distill-Qwen-72B

添加客服微信openai178，进AITNT官方交流群

AITNT-国内领先的一站式人工智能新闻资讯网站

AITNT资源拓展

根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考

1

微调

【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台，可以对大语言模型（LLM）和多模态图文模型（VLM）进行预训练和轻量级微调。XTuner 支持多种微调算法，如 QLoRA、LoRA 和全量参数微调。
项目地址：https://github.com/InternLM/xtuner

2

prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法，编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词，进而高质量的帮助用户通过AI解决问题。
项目地址：https://github.com/langgptai/LangGPT/blob/main/README_zh.md
在线使用：https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0