实测国内外大模型数学能力:YiXin-Distill-Qwen-72B登顶,半数大厂模型不及格?

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
AITNT-国内领先的一站式人工智能新闻资讯网站 搜索
实测国内外大模型数学能力:YiXin-Distill-Qwen-72B登顶,半数大厂模型不及格?
7695点击    2025-04-01 14:25

数学题, 一直是检验 AI 实力的 “硬核考场” —— 公式推导、逻辑链条、抽象思维缺一不可 。最近,我好了几天时间对国内外 7 款大厂模型展开了一场 “数学高考 ”,用阿里全球数学竞赛 + 中国奥赛真题实测它们的智商上限。


实测国内外大模型数学能力:YiXin-Distill-Qwen-72B登顶,半数大厂模型不及格?


参战选手:


  • 国产新星:DeepSeek R1、混元 T1、通义 QwQ、YiXin-Distill-Qwen-72B
  • 国际选手:Grok 3 beta、Gemini 2.0 Flash Thinking、o3-mini


其中,YiXin-Distill-Qwen-72B 需要 8 张 3090/4090 显卡才能跑起标准版,而它的 “AWQ 量化版” 仅需 2 张卡即可运行,其他模型则直接使用官方页面, 确保公平对决。


YiXin-Distill-Qwen-72B 部署指南:https://github.com/YiXin-AILab/YiXin-Distill-Qwen-72B

fp16 的版本:https://huggingface.co/YiXin-AILab/YiXin-Distill-Qwen-72B

AWQ 的版本:https://huggingface.co/YiXin-AILab/YiXin-Distill-Qwen-72B-AWQ。


#01

成绩汇总


先上结论,题目主要取自 “阿里巴巴全球数学竞赛” 和 “中国数学奥林匹克(CMO)” 的真题,在这 10 道难度比较高的数学题中,一共有 13 个小问,正确得 1 分,错误不得分,半对得 0.5 分,各个模型的正确率为:


实测国内外大模型数学能力:YiXin-Distill-Qwen-72B登顶,半数大厂模型不及格?


其中国内模型 DeepSeek R1 和 YiXin 两家的平均推理步骤最长,尤其是后者,还会出现截断的情况。


详细得分情况如下:


实测国内外大模型数学能力:YiXin-Distill-Qwen-72B登顶,半数大厂模型不及格?


#02

详细题目


1、爷爷有 60 元钱,去超市买了 20 元蔬菜,收银员可能怎么给爷爷找零钱?


o3-mini:


实测国内外大模型数学能力:YiXin-Distill-Qwen-72B登顶,半数大厂模型不及格?


Grok 3:


实测国内外大模型数学能力:YiXin-Distill-Qwen-72B登顶,半数大厂模型不及格?


DeepSeek R1:


实测国内外大模型数学能力:YiXin-Distill-Qwen-72B登顶,半数大厂模型不及格?


混元 T1:


实测国内外大模型数学能力:YiXin-Distill-Qwen-72B登顶,半数大厂模型不及格?


通义 QwQ:


实测国内外大模型数学能力:YiXin-Distill-Qwen-72B登顶,半数大厂模型不及格?



Gemini 2.0 Flash Thinking:


实测国内外大模型数学能力:YiXin-Distill-Qwen-72B登顶,半数大厂模型不及格?

YiXin-Distill-Qwen-72B:


实测国内外大模型数学能力:YiXin-Distill-Qwen-72B登顶,半数大厂模型不及格?


2、小明和小华每天走路去上学。小明每分钟走 48 米, 小华每分钟走 55 米,小华从家到学校所用的时间比小明多 4 分钟。小华家离学校有多远?下面哪种方法是错误的,说说你的理由。


  • 方法 1:55 x 4 = 220(米),384 + 220 = 604(米)
  • 方法 2:384/48 = 8(分),55 x(8 + 4)= 660(米)


o3-mini:


实测国内外大模型数学能力:YiXin-Distill-Qwen-72B登顶,半数大厂模型不及格?


Grok 3:


实测国内外大模型数学能力:YiXin-Distill-Qwen-72B登顶,半数大厂模型不及格?


DeepSeek R1:


实测国内外大模型数学能力:YiXin-Distill-Qwen-72B登顶,半数大厂模型不及格?


混元 T1:


实测国内外大模型数学能力:YiXin-Distill-Qwen-72B登顶,半数大厂模型不及格?


混元比较奇怪,最终答案是对的,但最终判断里把方法 2 也判断为错的。


通义 QwQ:


实测国内外大模型数学能力:YiXin-Distill-Qwen-72B登顶,半数大厂模型不及格?


Gemini 2.0 Flash Thinking:


实测国内外大模型数学能力:YiXin-Distill-Qwen-72B登顶,半数大厂模型不及格?


YiXin-Distill-Qwen-72B:


实测国内外大模型数学能力:YiXin-Distill-Qwen-72B登顶,半数大厂模型不及格?


3、看不见的塔几位同学假期组成一个小组去某市旅游,该市有 6 座塔,它们的位置分别为 A、B、C、D、E、F。


同学们自由行动一段时间后,每位同学都发现,自己在所在的位置只能看到位于 A、B、C、D 处的四座塔,而看不到位于 E 和 F 的塔,已知(1)同学们的位置和塔的位置均视为同一平面上的点,且这些点彼此不重合;(2)A、B、C、D、E、F 中任意 3 点不共线;(3)看不到塔的唯一可能就是视线被其它的塔所阻挡,例如,如果某位同学所在的位置 P 和 A、B 共线,且 A 在线段 PB 上,那么该同学就看不到位于 B 处的塔。


请问,这个旅游小组最多可能有多少名同学?


(A)3;(B)4;(C)6;(D)12


o3-mini:


实测国内外大模型数学能力:YiXin-Distill-Qwen-72B登顶,半数大厂模型不及格?


Grok 3:


实测国内外大模型数学能力:YiXin-Distill-Qwen-72B登顶,半数大厂模型不及格?


DeepSeek R1:


实测国内外大模型数学能力:YiXin-Distill-Qwen-72B登顶,半数大厂模型不及格?


混元 T1:


实测国内外大模型数学能力:YiXin-Distill-Qwen-72B登顶,半数大厂模型不及格?


通义 QwQ:


实测国内外大模型数学能力:YiXin-Distill-Qwen-72B登顶,半数大厂模型不及格?


Gemini 2.0 Flash Thinking:


实测国内外大模型数学能力:YiXin-Distill-Qwen-72B登顶,半数大厂模型不及格?


YiXin-Distill-Qwen-72B:


实测国内外大模型数学能力:YiXin-Distill-Qwen-72B登顶,半数大厂模型不及格?



实测国内外大模型数学能力:YiXin-Distill-Qwen-72B登顶,半数大厂模型不及格?


4、春节期间,某牛奶公司推出了新春盲盒活动:每盒牛奶都附赠一个 “红包” 其中有下列 “虎”、“生”、“威” 中的一款图案。集齐两个 “虎”,一个 “生”一个 “威” 即可拼齐成为 “虎虎生威” 全家福。


这项活动一经推出,就成为了网红爆款,很多人希望能够集齐一整套。假设红包上的图案是独立随机分布的,并且没法从红包外表上区分,“虎”、“生”、“威” 三款红包盲盒按均匀概率 1/3 分布,请问收集齐一整套 “虎虎生威” 全家福所需要购买的牛奶盒数的数学期望是多少?


o3-mini:


实测国内外大模型数学能力:YiXin-Distill-Qwen-72B登顶,半数大厂模型不及格?




Grok 3:


实测国内外大模型数学能力:YiXin-Distill-Qwen-72B登顶,半数大厂模型不及格?



实测国内外大模型数学能力:YiXin-Distill-Qwen-72B登顶,半数大厂模型不及格?


DeepSeek R1:



实测国内外大模型数学能力:YiXin-Distill-Qwen-72B登顶,半数大厂模型不及格?

实测国内外大模型数学能力:YiXin-Distill-Qwen-72B登顶,半数大厂模型不及格?


混元 T1:


实测国内外大模型数学能力:YiXin-Distill-Qwen-72B登顶,半数大厂模型不及格?


实测国内外大模型数学能力:YiXin-Distill-Qwen-72B登顶,半数大厂模型不及格?


通义 QwQ:


实测国内外大模型数学能力:YiXin-Distill-Qwen-72B登顶,半数大厂模型不及格?

实测国内外大模型数学能力:YiXin-Distill-Qwen-72B登顶,半数大厂模型不及格?

实测国内外大模型数学能力:YiXin-Distill-Qwen-72B登顶,半数大厂模型不及格?


Gemini 2.0 Flash Thinking:


实测国内外大模型数学能力:YiXin-Distill-Qwen-72B登顶,半数大厂模型不及格?


YiXin-Distill-Qwen-72B:


实测国内外大模型数学能力:YiXin-Distill-Qwen-72B登顶,半数大厂模型不及格?


实测国内外大模型数学能力:YiXin-Distill-Qwen-72B登顶,半数大厂模型不及格?


5、小明玩战机游戏。初始积分为 2,在游戏进行中,积分会随着时间线性地连续减少(速率为每单位时间段扣除 1)。游戏开始后,每隔一个随机时间段(时长为互相独立的参数为 1 的指数分布),就会有一架敌机出现在屏幕上。


当敌机出现时,小明立即进行操作,可以瞬间击落对方,或者瞬间被对方击落。如被敌机击落,则游戏结束。如小明击落敌机,则会获得 1.5 个积分,并且可以选择在击落该次敌机后立即退出游戏,或者继续游戏。如选择继续游戏,则须等待到下一架敌机出现,中途不能主动退出。


游戏的难度不断递增:出现的第 n 架敌机,小明击落对方的概率为(0.85)^n,被击落的概率为 1 -(0.85)^n,且与之前的事件独立。在任何时刻, 如果积分降到 0,则游戏自动结束。

问题部分:


(1)如果游戏中,小明被击落后,其之前的积分保持。那么为了游戏结束时的累积积分的数学期望最大化,小明应该在其击落第几架敌机后主动结束游戏?(


A) 1;(B)3;(C)2;(D)4。


(2)假设游戏中,小明被击落后,其之前积累的积分会清零。那么为了结束时的期望积分最大化,小明也会选择一个最优的时间主动结束游戏。请问在游戏结束时(小明主动结束 、或积分减到 0),下列哪一个选项最接近游戏结束时小明的期望积分? (


A)4;(B)2;(C)8;(D)6。


o3-mini:


实测国内外大模型数学能力:YiXin-Distill-Qwen-72B登顶,半数大厂模型不及格?


Grok 3:


实测国内外大模型数学能力:YiXin-Distill-Qwen-72B登顶,半数大厂模型不及格?


DeepSeek R1:


实测国内外大模型数学能力:YiXin-Distill-Qwen-72B登顶,半数大厂模型不及格?


混元 T1:


实测国内外大模型数学能力:YiXin-Distill-Qwen-72B登顶,半数大厂模型不及格?


通义 QwQ:

实测国内外大模型数学能力:YiXin-Distill-Qwen-72B登顶,半数大厂模型不及格?


Gemini 2.0 Flash Thinking:


实测国内外大模型数学能力:YiXin-Distill-Qwen-72B登顶,半数大厂模型不及格?


YiXin-Distill-Qwen-72B:


实测国内外大模型数学能力:YiXin-Distill-Qwen-72B登顶,半数大厂模型不及格?


实测国内外大模型数学能力:YiXin-Distill-Qwen-72B登顶,半数大厂模型不及格?


6、用最少的推理步骤解决一下问题:如 n 是不小于 3 的自然数, 以 f(n) 表示不是 n 的因子的最小自然数,例如 f(12) = 5。如果 f(n) 3,又可作 f(f(n))、类似地,如果,f(f(n)) ≥ 3,又可作 f(f(f(n))) 等等。如果 f(f(...f(n) ...)) = 2,共有 k 个 f 就把 k 叫做 n 的 “长度 ”,如果 l 表示 n 的长度,试对任意自然数 n(n 大于等于 3),求 In,并证明你的结论。


o3-mini:


实测国内外大模型数学能力:YiXin-Distill-Qwen-72B登顶,半数大厂模型不及格?


Grok 3:


实测国内外大模型数学能力:YiXin-Distill-Qwen-72B登顶,半数大厂模型不及格?


DeepSeek R1:


实测国内外大模型数学能力:YiXin-Distill-Qwen-72B登顶,半数大厂模型不及格?


混元 T1:


实测国内外大模型数学能力:YiXin-Distill-Qwen-72B登顶,半数大厂模型不及格?


通义 QwQ:


实测国内外大模型数学能力:YiXin-Distill-Qwen-72B登顶,半数大厂模型不及格?


Gemini 2.0 Flash Thinking:


实测国内外大模型数学能力:YiXin-Distill-Qwen-72B登顶,半数大厂模型不及格?


YiXin-Distill-Qwen-72B:


实测国内外大模型数学能力:YiXin-Distill-Qwen-72B登顶,半数大厂模型不及格?



实测国内外大模型数学能力:YiXin-Distill-Qwen-72B登顶,半数大厂模型不及格?



7、设 S 为复平面上的单位圆周(即模为 1 的复数的集合),f 为从 S 到 S 的 映射,对于任意 z 属于 S,定义 f^1 (z) = f(z),f^2 (z) = f(f(z)); …,f^k(z) = f(f^{k-1}(z)。如果 c 属于 S,使得 f^1© ≠ c,f^2© ≠ c,…,f(n-1)© ≠ c,f^n© = c,则称 c 为 f 的 n- 周期点。设 m 是大于 1 的自然数,f 定义为 f(z) = z^m,试计算 f 的 1989- 周期点的个数。


o3-mini:


实测国内外大模型数学能力:YiXin-Distill-Qwen-72B登顶,半数大厂模型不及格?


Grok 3:


实测国内外大模型数学能力:YiXin-Distill-Qwen-72B登顶,半数大厂模型不及格?


DeepSeek R1:


实测国内外大模型数学能力:YiXin-Distill-Qwen-72B登顶,半数大厂模型不及格?


混元 T1:


实测国内外大模型数学能力:YiXin-Distill-Qwen-72B登顶,半数大厂模型不及格?


通义 QwQ:


实测国内外大模型数学能力:YiXin-Distill-Qwen-72B登顶,半数大厂模型不及格?


Gemini 2.0 Flash Thinking:


实测国内外大模型数学能力:YiXin-Distill-Qwen-72B登顶,半数大厂模型不及格?


YiXin-Distill-Qwen-72B:


实测国内外大模型数学能力:YiXin-Distill-Qwen-72B登顶,半数大厂模型不及格?


实测国内外大模型数学能力:YiXin-Distill-Qwen-72B登顶,半数大厂模型不及格?


8、空间中有 1989 个点,其中任何三点不共线,把它们分成点数各不相同的30 组,在任何三个不同的组中各取一点为顶点作三角形,求各组的点的个数分别为多少时三角形的个数最大。


o3-mini:


实测国内外大模型数学能力:YiXin-Distill-Qwen-72B登顶,半数大厂模型不及格?


Grok 3:


实测国内外大模型数学能力:YiXin-Distill-Qwen-72B登顶,半数大厂模型不及格?


DeepSeek R1:


实测国内外大模型数学能力:YiXin-Distill-Qwen-72B登顶,半数大厂模型不及格?


混元 T1:


实测国内外大模型数学能力:YiXin-Distill-Qwen-72B登顶,半数大厂模型不及格?


通义 QwQ:


实测国内外大模型数学能力:YiXin-Distill-Qwen-72B登顶,半数大厂模型不及格?


Gemini 2.0 Flash Thinking:


实测国内外大模型数学能力:YiXin-Distill-Qwen-72B登顶,半数大厂模型不及格?


YiXin-Distill-Qwen-72B:


实测国内外大模型数学能力:YiXin-Distill-Qwen-72B登顶,半数大厂模型不及格?


添加图片注释,不超过 140 字(可选)



实测国内外大模型数学能力:YiXin-Distill-Qwen-72B登顶,半数大厂模型不及格?


9、设 x 是一个自然数,若一串自然数 x0 = 1 < x1 < x2 < … < xl = x 满足 xi-i|xi(i =1, 2, … l),则称 {x0, x1, …… ,xl} 为 x 的一条因子链。l 称为该因子链的长度。L (x) 与 R(x) 分别表示 x 的最长因子链的长度和最长因子链的条数,对于 x =5^k*31^m *1990^n,k、m、n 都是自然数,试求 L(x) 与 R (x)。


o3-mini:


实测国内外大模型数学能力:YiXin-Distill-Qwen-72B登顶,半数大厂模型不及格?


Grok 3:


实测国内外大模型数学能力:YiXin-Distill-Qwen-72B登顶,半数大厂模型不及格?


DeepSeek R1:


实测国内外大模型数学能力:YiXin-Distill-Qwen-72B登顶,半数大厂模型不及格?


混元 T1:


实测国内外大模型数学能力:YiXin-Distill-Qwen-72B登顶,半数大厂模型不及格?


通义 QwQ:


实测国内外大模型数学能力:YiXin-Distill-Qwen-72B登顶,半数大厂模型不及格?


Gemini 2.0 Flash Thinking:


实测国内外大模型数学能力:YiXin-Distill-Qwen-72B登顶,半数大厂模型不及格?


YiXin-Distill-Qwen-72B:


实测国内外大模型数学能力:YiXin-Distill-Qwen-72B登顶,半数大厂模型不及格?


添加图片注释,不超过 140 字(可选)



实测国内外大模型数学能力:YiXin-Distill-Qwen-72B登顶,半数大厂模型不及格?


10、平面上有一凸四边形 ABCD。(1)如果平面上存在一点 P,使得△ABP,△BCP,△CDP,△DAP 面积都相等,问四边形 ABCD 应满足什么条件?(2)满足(1)的点 P,平面上最多有几个?证明你的结论。


PS:(1)的答案:四边形 ABCD 有一条对角线平分面积,或者在对角线分成的四个三角形中有一个为四边形面积的一半。


o3-mini:


实测国内外大模型数学能力:YiXin-Distill-Qwen-72B登顶,半数大厂模型不及格?


Grok 3:


实测国内外大模型数学能力:YiXin-Distill-Qwen-72B登顶,半数大厂模型不及格?


DeepSeek R1:


实测国内外大模型数学能力:YiXin-Distill-Qwen-72B登顶,半数大厂模型不及格?


混元 T1:


实测国内外大模型数学能力:YiXin-Distill-Qwen-72B登顶,半数大厂模型不及格?


通义 QwQ:

实测国内外大模型数学能力:YiXin-Distill-Qwen-72B登顶,半数大厂模型不及格?


Gemini 2.0 Flash Thinking:


实测国内外大模型数学能力:YiXin-Distill-Qwen-72B登顶,半数大厂模型不及格?


YiXin-Distill-Qwen-72B:


实测国内外大模型数学能力:YiXin-Distill-Qwen-72B登顶,半数大厂模型不及格?


实测国内外大模型数学能力:YiXin-Distill-Qwen-72B登顶,半数大厂模型不及格?



#03

大模型解题能力观察与思考


经过我 “呕心沥血” 地对多个大模型做的数学能力测试,基本可以得出这么几个结论:


1、大模型复杂数学能力基线提升很快

推理大模型在涉及多步推理的几何、概率嵌套问题或开放性复杂应用题时,表现都比之前有了大幅提升,进一步证明了 “慢思考” 的强大之处 。


2、解题风格差异显著

o3-mini/Grok 3/通义 QwQ:解题步骤相对简洁, 推理过程不啰嗦;

DeepSeek R1/混元 T1/YiXin:解题步骤相对更长,且推理过程中有很多反思和校验,有些啰嗦;

Gemini 2.0 Flash Thinking:解题步骤真的很长,出现问的中文问题,推理过程全是英文的情况, 推理过程的啰嗦程度最高 。


3、“非技术性” 错误偶发,纠错能力强

部分错误并非源于模型数学能力不足,而是对题意理解偏差或符号误读,但是测试也发现,在问题中出现符号局部错误、或者公式局部错误,不影响对题意的理解,例如:p_i\in(0, 1),i = 1, 2, …, 5 写成了 p_i \in(0, 1),j = 1, 2, …, 5,不影响结果。


4、未来方向:专业化与工具整合

当前模型已经能处理老多复杂数学问题了,未来可通过以下路径让数学能力更上一层楼:


  • 插件扩展:接入计算引擎(如 Wolfram Alpha)弥补符号运算短板;


  • 垂直训练:针对数理逻辑构建专属微调数据集,强化推理因果链;交互式修正:允许用户实时指出错误步骤, 动态调整解题路径。


5、给用户的建议


  • 学生群体:可借助大模型快速验证基础题答案,但需警惕其对复杂问题的 “自信式错误”,更要注意大模型是个学习工具,一定要自己思考;教育工作者:需设计更 “反套路” 题目以检验 AI 辅助下的真实学习效果;开发者:应优化提示词设计,明确解题边界,避免模型过度 “脑补”。


总的来说,我感觉大模型的数学能力已经从 “玩具级” 迈入 “工具级”,走向可信赖的 “研究级”,未来的竞争或许聚焦于:谁能更精准地平衡 “思维模拟” 与 “事实严谨性”,我还是蛮期待的 。



文章来自微信公众号 “  AI产品阿颖 “


实测国内外大模型数学能力:YiXin-Distill-Qwen-72B登顶,半数大厂模型不及格?

AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
微调

【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台,可以对大语言模型(LLM)和多模态图文模型(VLM)进行预训练和轻量级微调。XTuner 支持多种微调算法,如 QLoRA、LoRA 和全量参数微调。

项目地址:https://github.com/InternLM/xtuner

2
prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。

项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md

在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0