大模型我问你,你是什么数学水平?|AI测评师

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
AITNT-国内领先的一站式人工智能新闻资讯网站 搜索
大模型我问你,你是什么数学水平?|AI测评师
7121点击    2024-11-27 16:08

完蛋了,高考落榜了!


最近在刷小红书,被数学题刷屏。


题目不能说很难,但评论区真的很难评,比如下面这题。


大模型我问你,你是什么数学水平?|AI测评师

图源/小红书截图


不是说好的中国人人均数学天才吗?怎么遇到了这样的小学生题目,还能牵扯出一堆稀奇古怪的答案,难道这就是传说中的AI(人工)幻觉?


人脑会宕机,但大模型被喂了这么多数据,一定会聪明地回答。本期AI测评师,我得好好问问大模型们,你们的数学水瓶,究竟有多高?


大模型我问你,你是什么数学水平?|AI测评师

图源/网络


图形解题,难倒大模型


先说说最新的和数学有关的消息:11月16日,月之暗面宣布推出数学大模型k0-math,其数学能力对标OpenAI o1系列可公开使用的两个模型o1-mini和o1-preview。


看起来数学水平应该不错?网上download了一张求角度的题,目测应该初中生水平,不知道kimi会给出什么答案呢?(补充一句,根据kimi自己的说法,想要体验k0-math,得先下载app)


大模型我问你,你是什么数学水平?|AI测评师

图源/网络


把图丢进去后,kimi框框一顿输出:


大模型我问你,你是什么数学水平?|AI测评师

图源/Kimi截图


说得很好,还有非常详细的过程分析,不过,答案是错的。


大模型我问你,你是什么数学水平?|AI测评师

图源/本人做题


上面是本人求了一半的答案,只是增加了一条辅助线(AE垂直BC),都可以知道∠DAE=30°,那比∠DAE大的∠DAC,怎么会算到15°?


不行,既然kimi不知道,我得问问Qwen。


毕竟2个月前,通义千问还是信誓旦旦地说Qwen2.5-Math可是世界领先的数学开源大语言模型啊。


优点有很多,比如Qwen2.5系列扩展为同时支持使用思维链和工具集成推理(TIR,Tool-integrated Reasoning)解决中英双语的数学题;比如,Qwen2.5-Math-72B-Instruct在TIR模式下几乎获得了满分,解决了几乎所有的问题。


大模型我问你,你是什么数学水平?|AI测评师

图源/Kimi截图


大模型我问你,你是什么数学水平?|AI测评师

图源/Kimi截图


话很密,但是没有答案。于是,我又追问了(疲惫.jpg)


大模型我问你,你是什么数学水平?|AI测评师

图源/Kimi截图


大模型我问你,你是什么数学水平?|AI测评师

图源/Kimi截图


啊这,啊这,啊这,正确答案是45°!!!怎会错得如此离谱???


需要注意的是,通义千问网页版,并不代表最新的Qwen2.5。如果想要体验Qwen2.5可以去魔塔社区(网址戳这里 https://modelscope.cn/studios/Qwen/Qwen2.5-Coder-demo)。比较遗憾的是,只给文字提问,没法看图解题,咱这题算是没法过Qwen2.5的了。


困难总比办法多,还记得不久前开学季,我们让夸克做题么?拿这题试试。


大模型我问你,你是什么数学水平?|AI测评师

图源/夸克截图


呼,做题还得是你啊!


不过夸克这是拍题解答,用的是灵知学习大模型,正好这道题在题库中,所以不仅有解题步骤,还有解题视频,逐帧讲解。


难题还得交给Qwen2.5


如果图形题太难,那纯文字描述题呢?


新题目,咱们上个难度,选2022年清华大学强基计划数学试题。


大模型我问你,你是什么数学水平?|AI测评师

图源/网络


选题目3,无他,唯好复制尔。


先考验kimi,很好,创造了一个错误答案。


大模型我问你,你是什么数学水平?|AI测评师

图源/Kimi截图


再问问Qwen2.5。


大模型我问你,你是什么数学水平?|AI测评师

图源/Qwen2.5截图


解题过程很长,就不都放了,但至少答案符合选项了!而且和正确答案一对,还真是。


大模型我问你,你是什么数学水平?|AI测评师

图源/网络


那国外的大模型呢?会比我们强吗?


这个是meta-llama3.1。


大模型我问你,你是什么数学水平?|AI测评师

图源/meta-llama3.1截图


这个是microsoft/Phi3.5。


大模型我问你,你是什么数学水平?|AI测评师

图源/microsoft/Phi3.5截图


这是GPT-4o给出的答案。好消息是,总算接近了;坏消息是,接反了。


大模型我问你,你是什么数学水平?|AI测评师

图源/ChatGPT截图


当我发出灵魂拷问时,GPT沉默了。


大模型我问你,你是什么数学水平?|AI测评师

图源/ChatGPT截图


从这个角度看,是不是很人工呢?(沉默,人类才会有的反应)


结论


做了两道题,水母君也得出了一些粗浅的结论:


1)对于大多数大模型而言,图形题的解读还存在不少难点,很容易得出错误答案。如果是夸克灵知等拥有大量题库的垂类大模型,只要题库内有,就可以检索出答案,弊端在于“无思考”痕迹。


2)当题目上难度时,Qwen2.5是相对聪明的,可以解答高考题目,且有详尽的解答过程。


3)数学是世界难题,大模型也得高考落榜。


文章来自于“左键”,作者“左键”。


大模型我问你,你是什么数学水平?|AI测评师

关键词: AI , AI测评 , AI数学 , 人工智能
AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
免费使用GPT-4o

【免费】ffa.chat是一个完全免费的GPT-4o镜像站点,无需魔法付费,即可无限制使用GPT-4o等多个海外模型产品。

在线使用:https://ffa.chat/