数学题, 一直是检验 AI 实力的 “硬核考场” —— 公式推导、逻辑链条、抽象思维缺一不可 。最近,我好了几天时间对国内外 7 款大厂模型展开了一场 “数学高考 ”,用阿里全球数学竞赛 + 中国奥赛真题实测它们的智商上限。
参战选手:
其中,YiXin-Distill-Qwen-72B 需要 8 张 3090/4090 显卡才能跑起标准版,而它的 “AWQ 量化版” 仅需 2 张卡即可运行,其他模型则直接使用官方页面, 确保公平对决。
YiXin-Distill-Qwen-72B 部署指南:https://github.com/YiXin-AILab/YiXin-Distill-Qwen-72B
fp16 的版本:https://huggingface.co/YiXin-AILab/YiXin-Distill-Qwen-72B
AWQ 的版本:https://huggingface.co/YiXin-AILab/YiXin-Distill-Qwen-72B-AWQ。
先上结论,题目主要取自 “阿里巴巴全球数学竞赛” 和 “中国数学奥林匹克(CMO)” 的真题,在这 10 道难度比较高的数学题中,一共有 13 个小问,正确得 1 分,错误不得分,半对得 0.5 分,各个模型的正确率为:
其中国内模型 DeepSeek R1 和 YiXin 两家的平均推理步骤最长,尤其是后者,还会出现截断的情况。
详细得分情况如下:
1、爷爷有 60 元钱,去超市买了 20 元蔬菜,收银员可能怎么给爷爷找零钱?
o3-mini:
Grok 3:
DeepSeek R1:
混元 T1:
通义 QwQ:
Gemini 2.0 Flash Thinking:
YiXin-Distill-Qwen-72B:
2、小明和小华每天走路去上学。小明每分钟走 48 米, 小华每分钟走 55 米,小华从家到学校所用的时间比小明多 4 分钟。小华家离学校有多远?下面哪种方法是错误的,说说你的理由。
o3-mini:
Grok 3:
DeepSeek R1:
混元 T1:
混元比较奇怪,最终答案是对的,但最终判断里把方法 2 也判断为错的。
通义 QwQ:
Gemini 2.0 Flash Thinking:
YiXin-Distill-Qwen-72B:
3、看不见的塔几位同学假期组成一个小组去某市旅游,该市有 6 座塔,它们的位置分别为 A、B、C、D、E、F。
同学们自由行动一段时间后,每位同学都发现,自己在所在的位置只能看到位于 A、B、C、D 处的四座塔,而看不到位于 E 和 F 的塔,已知(1)同学们的位置和塔的位置均视为同一平面上的点,且这些点彼此不重合;(2)A、B、C、D、E、F 中任意 3 点不共线;(3)看不到塔的唯一可能就是视线被其它的塔所阻挡,例如,如果某位同学所在的位置 P 和 A、B 共线,且 A 在线段 PB 上,那么该同学就看不到位于 B 处的塔。
请问,这个旅游小组最多可能有多少名同学?
(A)3;(B)4;(C)6;(D)12
o3-mini:
Grok 3:
DeepSeek R1:
混元 T1:
通义 QwQ:
Gemini 2.0 Flash Thinking:
YiXin-Distill-Qwen-72B:
4、春节期间,某牛奶公司推出了新春盲盒活动:每盒牛奶都附赠一个 “红包” 其中有下列 “虎”、“生”、“威” 中的一款图案。集齐两个 “虎”,一个 “生”一个 “威” 即可拼齐成为 “虎虎生威” 全家福。
这项活动一经推出,就成为了网红爆款,很多人希望能够集齐一整套。假设红包上的图案是独立随机分布的,并且没法从红包外表上区分,“虎”、“生”、“威” 三款红包盲盒按均匀概率 1/3 分布,请问收集齐一整套 “虎虎生威” 全家福所需要购买的牛奶盒数的数学期望是多少?
o3-mini:
Grok 3:
DeepSeek R1:
混元 T1:
通义 QwQ:
Gemini 2.0 Flash Thinking:
YiXin-Distill-Qwen-72B:
5、小明玩战机游戏。初始积分为 2,在游戏进行中,积分会随着时间线性地连续减少(速率为每单位时间段扣除 1)。游戏开始后,每隔一个随机时间段(时长为互相独立的参数为 1 的指数分布),就会有一架敌机出现在屏幕上。
当敌机出现时,小明立即进行操作,可以瞬间击落对方,或者瞬间被对方击落。如被敌机击落,则游戏结束。如小明击落敌机,则会获得 1.5 个积分,并且可以选择在击落该次敌机后立即退出游戏,或者继续游戏。如选择继续游戏,则须等待到下一架敌机出现,中途不能主动退出。
游戏的难度不断递增:出现的第 n 架敌机,小明击落对方的概率为(0.85)^n,被击落的概率为 1 -(0.85)^n,且与之前的事件独立。在任何时刻, 如果积分降到 0,则游戏自动结束。
问题部分:
(1)如果游戏中,小明被击落后,其之前的积分保持。那么为了游戏结束时的累积积分的数学期望最大化,小明应该在其击落第几架敌机后主动结束游戏?(
A) 1;(B)3;(C)2;(D)4。
(2)假设游戏中,小明被击落后,其之前积累的积分会清零。那么为了结束时的期望积分最大化,小明也会选择一个最优的时间主动结束游戏。请问在游戏结束时(小明主动结束 、或积分减到 0),下列哪一个选项最接近游戏结束时小明的期望积分? (
A)4;(B)2;(C)8;(D)6。
o3-mini:
Grok 3:
DeepSeek R1:
混元 T1:
通义 QwQ:
Gemini 2.0 Flash Thinking:
YiXin-Distill-Qwen-72B:
6、用最少的推理步骤解决一下问题:如 n 是不小于 3 的自然数, 以 f(n) 表示不是 n 的因子的最小自然数,例如 f(12) = 5。如果 f(n) 3,又可作 f(f(n))、类似地,如果,f(f(n)) ≥ 3,又可作 f(f(f(n))) 等等。如果 f(f(...f(n) ...)) = 2,共有 k 个 f 就把 k 叫做 n 的 “长度 ”,如果 l 表示 n 的长度,试对任意自然数 n(n 大于等于 3),求 In,并证明你的结论。
o3-mini:
Grok 3:
DeepSeek R1:
混元 T1:
通义 QwQ:
Gemini 2.0 Flash Thinking:
YiXin-Distill-Qwen-72B:
7、设 S 为复平面上的单位圆周(即模为 1 的复数的集合),f 为从 S 到 S 的 映射,对于任意 z 属于 S,定义 f^1 (z) = f(z),f^2 (z) = f(f(z)); …,f^k(z) = f(f^{k-1}(z)。如果 c 属于 S,使得 f^1© ≠ c,f^2© ≠ c,…,f(n-1)© ≠ c,f^n© = c,则称 c 为 f 的 n- 周期点。设 m 是大于 1 的自然数,f 定义为 f(z) = z^m,试计算 f 的 1989- 周期点的个数。
o3-mini:
Grok 3:
DeepSeek R1:
混元 T1:
通义 QwQ:
Gemini 2.0 Flash Thinking:
YiXin-Distill-Qwen-72B:
8、空间中有 1989 个点,其中任何三点不共线,把它们分成点数各不相同的30 组,在任何三个不同的组中各取一点为顶点作三角形,求各组的点的个数分别为多少时三角形的个数最大。
o3-mini:
Grok 3:
DeepSeek R1:
混元 T1:
通义 QwQ:
Gemini 2.0 Flash Thinking:
YiXin-Distill-Qwen-72B:
添加图片注释,不超过 140 字(可选)
9、设 x 是一个自然数,若一串自然数 x0 = 1 < x1 < x2 < … < xl = x 满足 xi-i|xi(i =1, 2, … l),则称 {x0, x1, …… ,xl} 为 x 的一条因子链。l 称为该因子链的长度。L (x) 与 R(x) 分别表示 x 的最长因子链的长度和最长因子链的条数,对于 x =5^k*31^m *1990^n,k、m、n 都是自然数,试求 L(x) 与 R (x)。
o3-mini:
Grok 3:
DeepSeek R1:
混元 T1:
通义 QwQ:
Gemini 2.0 Flash Thinking:
YiXin-Distill-Qwen-72B:
添加图片注释,不超过 140 字(可选)
10、平面上有一凸四边形 ABCD。(1)如果平面上存在一点 P,使得△ABP,△BCP,△CDP,△DAP 面积都相等,问四边形 ABCD 应满足什么条件?(2)满足(1)的点 P,平面上最多有几个?证明你的结论。
PS:(1)的答案:四边形 ABCD 有一条对角线平分面积,或者在对角线分成的四个三角形中有一个为四边形面积的一半。
o3-mini:
Grok 3:
DeepSeek R1:
混元 T1:
通义 QwQ:
Gemini 2.0 Flash Thinking:
YiXin-Distill-Qwen-72B:
经过我 “呕心沥血” 地对多个大模型做的数学能力测试,基本可以得出这么几个结论:
1、大模型复杂数学能力基线提升很快
推理大模型在涉及多步推理的几何、概率嵌套问题或开放性复杂应用题时,表现都比之前有了大幅提升,进一步证明了 “慢思考” 的强大之处 。
2、解题风格差异显著
o3-mini/Grok 3/通义 QwQ:解题步骤相对简洁, 推理过程不啰嗦;
DeepSeek R1/混元 T1/YiXin:解题步骤相对更长,且推理过程中有很多反思和校验,有些啰嗦;
Gemini 2.0 Flash Thinking:解题步骤真的很长,出现问的中文问题,推理过程全是英文的情况, 推理过程的啰嗦程度最高 。
3、“非技术性” 错误偶发,纠错能力强
部分错误并非源于模型数学能力不足,而是对题意理解偏差或符号误读,但是测试也发现,在问题中出现符号局部错误、或者公式局部错误,不影响对题意的理解,例如:p_i\in(0, 1),i = 1, 2, …, 5 写成了 p_i \in(0, 1),j = 1, 2, …, 5,不影响结果。
4、未来方向:专业化与工具整合
当前模型已经能处理老多复杂数学问题了,未来可通过以下路径让数学能力更上一层楼:
5、给用户的建议
总的来说,我感觉大模型的数学能力已经从 “玩具级” 迈入 “工具级”,走向可信赖的 “研究级”,未来的竞争或许聚焦于:谁能更精准地平衡 “思维模拟” 与 “事实严谨性”,我还是蛮期待的 。
文章来自微信公众号 “ AI产品阿颖 “
【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台,可以对大语言模型(LLM)和多模态图文模型(VLM)进行预训练和轻量级微调。XTuner 支持多种微调算法,如 QLoRA、LoRA 和全量参数微调。
项目地址:https://github.com/InternLM/xtuner
【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。
项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md
在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0