# 热门搜索 #
搜索
Mistral最新开源数学模型 Mathstral,能不能算对 9.11 和 9.9谁大?|AI 鲜测
8945点击    2024-07-19 12:40

这几日,AI 圈又一“震惊”事件!!


不过并不是谁家又推出的新模型有多强,而是包括 GPT-4o、Gemini在内的一系列大模型都算不对 9.11 和 9.9 两个数字谁大谁小。


一个最简单的比大小的数学问题,竟然都做不对,愚蠢的 AI,聪明的人类。


当然,这件事带来的正面反思要比看热闹的意义大得多,在提示词优化和模型的理解方面网友们展开了很多讨论。


事情刚过了一天,有着“欧洲 OpenAI”之称的 Mistral,以希腊数学家阿基米德 2311 年诞辰为名,推出了一款名为Mathstral的模型,专攻数学推理和科学,以及第一个基于Mamba2架构的开源模型——Codestral Mamba(7B),专攻代码生成。


Mistral CEO Arthur Mensch 称这是这家巴黎AI公司对即将在月底召开的巴黎奥运会的献礼。



Mathstral 基于 Mistral 7B 构建,支持的上下文窗口长度为32k,遵循的开源协议为Apache 2.0 license。


从公布的能力上来看,Mathstral 在初等数学(elementary_mathematics)、高中物理(high_school_physics)和大学物理(college_physics),这些领域回答表现最好。在专业会计(professional_accounting)、美国税收政策(us_tax_policy)和人类性学(human_sexuality)这些领域则完全不在行。



Mathstral 在数据集测试中,在具有挑战性的Odyssey Math maj@16和GRE数学测试中表现最好。虽然在解决一般数学问题方面略逊于 DeepSeek Math 7B,但在需要深入推理的难题上展现出了强大的优势。


此外,Mathstral 在 AMC 和 AIME 竞赛中的表现也不容忽视,证明了其在解决竞赛级别数学问题上的潜力。


PS:Qwen2-7B 的数学能力也挺强啊。



几乎是第一时间 Ollma 就上线了对Mathstral的支持。


https://ollama.com/library/mathstral


我们来试一下 Mathstral是不是真的数学强无敌!


9.11>9.9?


第一题就是比大小,结果有点出人意料,在保持同一提示词的前提下,还是算错了。



更换了一下提示词顺序,不仅给出了详细且正确的解题思路,而且答案也是对的。



上难度题目测试


难度上升一些,算一道阿基米德分牛问题(Archimedes' Problema Bovinum)。


虽然给出了非常长的解题过程,但是最终的答案还是错误的。不仅答案错误,而且也没能审题。


题干:


太阳神有一牛群,由白、黑、花、棕四种颜色的公、母牛组成。


在公牛中,白牛数多于棕牛数,多出之数相当于黑牛数的1/2+1/3;黑牛数多于棕牛数,多出之数相当于花牛数的1/4+1/5;花牛数多于棕牛数,多出之数相当于白牛数的1/6+1/7.


在母牛中,白牛数是全体黑牛数的1/3+1/4;黑牛数是全体花牛数1/4+1/5;花牛数是全体棕牛数的1/5+1/6;棕牛数是全体白牛数的1/6+1/7.


问这牛群是怎样组成的?


答案:



再算一道证明题。


题干:



答案:



虽然证明的思路和过程是对的,但有很多多余的操作,既没有化简式子,也对后续推导没有帮助。而且在步骤12之后直接应用柯西不等式,跳过了中间的一些关键步骤,使得论证不够严谨。


令人可惜的是,测试了三道题,错了两道,第三道解题还不是那么完美。


初等数学题测试


我们降低一些标准,测试一些初等数学题:


已知不等式 3x-a ≤ 0 的正整数解恰是 1 , 2 , 3 ,则 a 的取值范围是?


Mathstral 给出的解题思路和答案都是正确的。



作为一个 7B 规模的模型,Mathstral开箱即用的效果没有想象中那么好,对于复杂逻辑的题目会出现审题不清、逻辑出错等问题。


通过Ollama部署的 Mathstral 推理时间每道题在2-3秒左右,如果提升推理时间,可能会有更好的表现。


在推出 Mathstral 的同一时间,Mistral.AI也推出了其第一个基于Mamba2架构的开源模型——Codestral Mamba(7B)。


我们接下来也会对Codestral Mamba有更详细的体验评测。


文章来源于“硅星人Pro”




AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
免费使用GPT-4o

【免费】ffa.chat是一个完全免费的GPT-4o镜像站点,无需魔法付费,即可无限制使用GPT-4o等多个海外模型产品。

在线使用:https://ffa.chat/

2
prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。

项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md

在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0