完蛋了,高考落榜了!
最近在刷小红书,被数学题刷屏。
题目不能说很难,但评论区真的很难评,比如下面这题。
图源/小红书截图
不是说好的中国人人均数学天才吗?怎么遇到了这样的小学生题目,还能牵扯出一堆稀奇古怪的答案,难道这就是传说中的AI(人工)幻觉?
人脑会宕机,但大模型被喂了这么多数据,一定会聪明地回答。本期AI测评师,我得好好问问大模型们,你们的数学水瓶,究竟有多高?
图源/网络
先说说最新的和数学有关的消息:11月16日,月之暗面宣布推出数学大模型k0-math,其数学能力对标OpenAI o1系列可公开使用的两个模型o1-mini和o1-preview。
看起来数学水平应该不错?网上download了一张求角度的题,目测应该初中生水平,不知道kimi会给出什么答案呢?(补充一句,根据kimi自己的说法,想要体验k0-math,得先下载app)
图源/网络
把图丢进去后,kimi框框一顿输出:
图源/Kimi截图
说得很好,还有非常详细的过程分析,不过,答案是错的。
图源/本人做题
上面是本人求了一半的答案,只是增加了一条辅助线(AE垂直BC),都可以知道∠DAE=30°,那比∠DAE大的∠DAC,怎么会算到15°?
不行,既然kimi不知道,我得问问Qwen。
毕竟2个月前,通义千问还是信誓旦旦地说Qwen2.5-Math可是世界领先的数学开源大语言模型啊。
优点有很多,比如Qwen2.5系列扩展为同时支持使用思维链和工具集成推理(TIR,Tool-integrated Reasoning)解决中英双语的数学题;比如,Qwen2.5-Math-72B-Instruct在TIR模式下几乎获得了满分,解决了几乎所有的问题。
图源/Kimi截图
图源/Kimi截图
话很密,但是没有答案。于是,我又追问了(疲惫.jpg)
图源/Kimi截图
图源/Kimi截图
啊这,啊这,啊这,正确答案是45°!!!怎会错得如此离谱???
需要注意的是,通义千问网页版,并不代表最新的Qwen2.5。如果想要体验Qwen2.5可以去魔塔社区(网址戳这里 https://modelscope.cn/studios/Qwen/Qwen2.5-Coder-demo)。比较遗憾的是,只给文字提问,没法看图解题,咱这题算是没法过Qwen2.5的了。
困难总比办法多,还记得不久前开学季,我们让夸克做题么?拿这题试试。
图源/夸克截图
呼,做题还得是你啊!
不过夸克这是拍题解答,用的是灵知学习大模型,正好这道题在题库中,所以不仅有解题步骤,还有解题视频,逐帧讲解。
如果图形题太难,那纯文字描述题呢?
新题目,咱们上个难度,选2022年清华大学强基计划数学试题。
图源/网络
选题目3,无他,唯好复制尔。
先考验kimi,很好,创造了一个错误答案。
图源/Kimi截图
再问问Qwen2.5。
图源/Qwen2.5截图
解题过程很长,就不都放了,但至少答案符合选项了!而且和正确答案一对,还真是。
图源/网络
那国外的大模型呢?会比我们强吗?
这个是meta-llama3.1。
图源/meta-llama3.1截图
这个是microsoft/Phi3.5。
图源/microsoft/Phi3.5截图
这是GPT-4o给出的答案。好消息是,总算接近了;坏消息是,接反了。
图源/ChatGPT截图
当我发出灵魂拷问时,GPT沉默了。
图源/ChatGPT截图
从这个角度看,是不是很人工呢?(沉默,人类才会有的反应)
做了两道题,水母君也得出了一些粗浅的结论:
1)对于大多数大模型而言,图形题的解读还存在不少难点,很容易得出错误答案。如果是夸克灵知等拥有大量题库的垂类大模型,只要题库内有,就可以检索出答案,弊端在于“无思考”痕迹。
2)当题目上难度时,Qwen2.5是相对聪明的,可以解答高考题目,且有详尽的解答过程。
3)数学是世界难题,大模型也得高考落榜。
文章来自于“左键”,作者“左键”。