大模型我问你，你是什么数学水平？

大模型我问你，你是什么数学水平？｜AI测评师

10998点击 2024-11-27 16:08

完蛋了，高考落榜了！

最近在刷小红书，被数学题刷屏。

题目不能说很难，但评论区真的很难评，比如下面这题。

大模型我问你，你是什么数学水平？｜AI测评师

图源/小红书截图

不是说好的中国人人均数学天才吗？怎么遇到了这样的小学生题目，还能牵扯出一堆稀奇古怪的答案，难道这就是传说中的AI（人工）幻觉？

人脑会宕机，但大模型被喂了这么多数据，一定会聪明地回答。本期AI测评师，我得好好问问大模型们，你们的数学水瓶，究竟有多高？

大模型我问你，你是什么数学水平？｜AI测评师

图源/网络

图形解题，难倒大模型

先说说最新的和数学有关的消息：11月16日，月之暗面宣布推出数学大模型k0-math，其数学能力对标OpenAI o1系列可公开使用的两个模型o1-mini和o1-preview。

看起来数学水平应该不错？网上download了一张求角度的题，目测应该初中生水平，不知道kimi会给出什么答案呢？（补充一句，根据kimi自己的说法，想要体验k0-math，得先下载app）

大模型我问你，你是什么数学水平？｜AI测评师

图源/网络

把图丢进去后，kimi框框一顿输出：

大模型我问你，你是什么数学水平？｜AI测评师

图源/Kimi截图

说得很好，还有非常详细的过程分析，不过，答案是错的。

大模型我问你，你是什么数学水平？｜AI测评师

图源/本人做题

上面是本人求了一半的答案，只是增加了一条辅助线（AE垂直BC），都可以知道∠DAE=30°，那比∠DAE大的∠DAC，怎么会算到15°？

不行，既然kimi不知道，我得问问Qwen。

毕竟2个月前，通义千问还是信誓旦旦地说Qwen2.5-Math可是世界领先的数学开源大语言模型啊。

优点有很多，比如Qwen2.5系列扩展为同时支持使用思维链和工具集成推理（TIR，Tool-integrated Reasoning）解决中英双语的数学题；比如，Qwen2.5-Math-72B-Instruct在TIR模式下几乎获得了满分，解决了几乎所有的问题。

大模型我问你，你是什么数学水平？｜AI测评师

图源/Kimi截图

大模型我问你，你是什么数学水平？｜AI测评师

图源/Kimi截图

话很密，但是没有答案。于是，我又追问了（疲惫.jpg）

大模型我问你，你是什么数学水平？｜AI测评师

图源/Kimi截图

大模型我问你，你是什么数学水平？｜AI测评师

图源/Kimi截图

啊这，啊这，啊这，正确答案是45°！！！怎会错得如此离谱？？？

需要注意的是，通义千问网页版，并不代表最新的Qwen2.5。如果想要体验Qwen2.5可以去魔塔社区（网址戳这里 https://modelscope.cn/studios/Qwen/Qwen2.5-Coder-demo）。比较遗憾的是，只给文字提问，没法看图解题，咱这题算是没法过Qwen2.5的了。

困难总比办法多，还记得不久前开学季，我们让夸克做题么？拿这题试试。

大模型我问你，你是什么数学水平？｜AI测评师

图源/夸克截图

呼，做题还得是你啊！

不过夸克这是拍题解答，用的是灵知学习大模型，正好这道题在题库中，所以不仅有解题步骤，还有解题视频，逐帧讲解。

难题还得交给Qwen2.5

如果图形题太难，那纯文字描述题呢？

新题目，咱们上个难度，选2022年清华大学强基计划数学试题。

大模型我问你，你是什么数学水平？｜AI测评师

图源/网络

选题目3，无他，唯好复制尔。

先考验kimi，很好，创造了一个错误答案。

大模型我问你，你是什么数学水平？｜AI测评师

图源/Kimi截图

再问问Qwen2.5。

大模型我问你，你是什么数学水平？｜AI测评师

图源/Qwen2.5截图

解题过程很长，就不都放了，但至少答案符合选项了！而且和正确答案一对，还真是。

大模型我问你，你是什么数学水平？｜AI测评师

图源/网络

那国外的大模型呢？会比我们强吗？

这个是meta-llama3.1。

大模型我问你，你是什么数学水平？｜AI测评师

图源/meta-llama3.1截图

这个是microsoft/Phi3.5。

大模型我问你，你是什么数学水平？｜AI测评师

图源/microsoft/Phi3.5截图

这是GPT-4o给出的答案。好消息是，总算接近了；坏消息是，接反了。

大模型我问你，你是什么数学水平？｜AI测评师

图源/ChatGPT截图

当我发出灵魂拷问时，GPT沉默了。

大模型我问你，你是什么数学水平？｜AI测评师

图源/ChatGPT截图

从这个角度看，是不是很人工呢？（沉默，人类才会有的反应）

结论

做了两道题，水母君也得出了一些粗浅的结论：

1）对于大多数大模型而言，图形题的解读还存在不少难点，很容易得出错误答案。如果是夸克灵知等拥有大量题库的垂类大模型，只要题库内有，就可以检索出答案，弊端在于“无思考”痕迹。

2）当题目上难度时，Qwen2.5是相对聪明的，可以解答高考题目，且有详尽的解答过程。

3）数学是世界难题，大模型也得高考落榜。

文章来自于“左键”，作者“左键”。

大模型我问你，你是什么数学水平？｜AI测评师

关键词: AI , AI测评 , AI数学 , 人工智能

AITNT资源拓展

根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考

免费使用GPT-4o

【免费】ffa.chat是一个完全免费的GPT-4o镜像站点，无需魔法付费，即可无限制使用GPT-4o等多个海外模型产品。
在线使用：https://ffa.chat/