Mistral新旗舰决战Llama 3.1!最强开源Large 2 123B,扛鼎多语言编程全能王

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
AITNT-国内领先的一站式人工智能新闻资讯网站 搜索
Mistral新旗舰决战Llama 3.1!最强开源Large 2 123B,扛鼎多语言编程全能王
8507点击    2024-07-25 21:50

昨天正式发布的Llama 3.1模型,让AI社区着实为之兴奋。


但是仔细一想就能发现——405B的参数规模,基本是没法让个人开发者在本地运行了。


比如昨天刚发布,就有一位勇敢的推特网友亲测,用一张英伟达4090运行Llama 3.1。


Mistral新旗舰决战Llama 3.1!最强开源Large 2 123B,扛鼎多语言编程全能王


结果可想而知,等了30分钟模型才开始回应,缓缓吐出一个「The」。


Mistral新旗舰决战Llama 3.1!最强开源Large 2 123B,扛鼎多语言编程全能王


最后结果是,Llama给出完整回应,整整用了20个小时。


Mistral新旗舰决战Llama 3.1!最强开源Large 2 123B,扛鼎多语言编程全能王


根据Artificial Analysis的估算,你需要部署含2张8×H100的DGX超算才能在本地运行405B。


看来,小扎对Llama 3.1成为开源AI界Linux的期待,可能和现实有不少的差距。目前的硬件能力,很难支持405B模型的大范围全量运行。


此时,又一位开源巨头Mistral精准踩点,发布了他们的最新旗舰模型Mistral Large 2。


Mistral新旗舰决战Llama 3.1!最强开源Large 2 123B,扛鼎多语言编程全能王


Mistral Large 2在代码生成、数学和推理等方面的能力明显增强,可以与GPT-4o和Llama 3.1一较高下。


而且,模型参数量仅有123B,不到Llama 3.1 405B的三分之一,完全可以在单个节点上以大吞吐量运行。


成本效率、速度和性能的「三角形战士」,Mistral Large当之无愧——


和GPT-4o比,它开源;和Llama 3.1 450B比,它参数少;和Llama 3 70B比,它性能好。


推特网友惊呼,「开源AI就这么卷起来了吗!」


Mistral新旗舰决战Llama 3.1!最强开源Large 2 123B,扛鼎多语言编程全能王


短短一周时间内,GPT-4o mini、Llama 3.1、Mistral Large 2相继发布,有些让人应接不暇。


「我躺了,你们先卷着。」


Mistral新旗舰决战Llama 3.1!最强开源Large 2 123B,扛鼎多语言编程全能王


但躺平阵营中绝对不包含ollama。前脚Mistral刚官宣,这边就火速更新。


Mistral新旗舰决战Llama 3.1!最强开源Large 2 123B,扛鼎多语言编程全能王


果然,参数量砍去一大半之后,本地部署难度就大大下降了。


同样从ollama上下载模型,用96GB内存还是可以顺利运行起来的。


Mistral新旗舰决战Llama 3.1!最强开源Large 2 123B,扛鼎多语言编程全能王


虽然3 token/s的生成速度慢了点,但比起用20个小时等模型响应,已经是质的飞跃了。


Mistral新旗舰决战Llama 3.1!最强开源Large 2 123B,扛鼎多语言编程全能王


用前段时间击穿GPT-4o的「9.11 vs. 9.9」问题测试Large 2,没想到它竟然答对了。


Mistral新旗舰决战Llama 3.1!最强开源Large 2 123B,扛鼎多语言编程全能王


值得一提的是,Mistral Large首代发布还不到半年(2024年2月),但并没有开源,用户只能通过官方API或Azure访问。


刚发布的Mistral Large 2则已经将模型权重托管到了HuggingFace仓库中,向研究和非商业用途开放,但商业用途的部署仍需要直接联系Mistral以取得许可。


Mistral新旗舰决战Llama 3.1!最强开源Large 2 123B,扛鼎多语言编程全能王


HuggingFace地址:https://huggingface.co/mistralai/Mistral-Large-Instruct-2407


不仅上下文窗口从上一代的32k增长到了128k(同Llama 3.1),而且有强大的多语言能力,支持数十种自然语言以及80多种编程语言。


令人印象深刻的是,Mistral Large的预训练版本在MMLU上的准确率可以达到84%。


这个成绩已经超过了340B参数的Nemotron,而且与GPT-4(85.1%)和Llama 3.1(87.3%)基本处于同一水平,可以说是将模型性能/成本的Pareto最优边界又向前推进了一步。


Mistral新旗舰决战Llama 3.1!最强开源Large 2 123B,扛鼎多语言编程全能王


出自Llama 3.1论文


代码与推理


基于Mistral之前训练Codestral 22B和Codestral Mamba的经验,研究团队对Mistral Large 2也进行了大量代码训练,支持包括Python、Java、C、C++、JavaScript 和Bash在内的80多种语言。

在代码生成方面,Mistral Large 2远远优于Llama 3.1 70B和之前的Mistral Large,与Llama 3.1 405B不相上下。


Mistral新旗舰决战Llama 3.1!最强开源Large 2 123B,扛鼎多语言编程全能王


团队在提高模型的推理能力方面也投入了大量精力。在训练过程中,特别关注减少模型的「幻觉」。


实现方法就是通过微调,让模型的响应更加谨慎而敏锐,确保它提供可靠、准确的输出。


此外,经过训练的Mistral Large 2还被赋予了一个品质:承认自己并非无所不知。


在无法找到解决方案,或没有足够信息支撑有效回答时,模型会直接承认而非「不懂装懂」。


Mistral Large 2这种对答案准确性的「责任感」,提升了在数学基准上的表现,展现了更强的推理和解决问题的能力。


在用于代码生成的HumanEval和HumanEval Plus基准测试中,它的表现优于Claude 3.5 Sonnet和Llama 3.1,仅次于GPT-4o。


Mistral新旗舰决战Llama 3.1!最强开源Large 2 123B,扛鼎多语言编程全能王


代码生成基准测试


在MultiPL-E基准上,Mistral Large 2的平均生成准确率领先Llama 3.1将近1个百分点,而且可以媲美GPT-4o。


纵向比较也可以看出,Codestral系列的经验对Mistral Large 2有不少助益。仅仅过了5个月,Mistral Large系列的生成准确率就从58.8%飙升至74.4%。


Mistral新旗舰决战Llama 3.1!最强开源Large 2 123B,扛鼎多语言编程全能王


而且,在以数学为重点的基准测试中(GSM8K和MATH),它的表现也可圈可点。


Mistral新旗舰决战Llama 3.1!最强开源Large 2 123B,扛鼎多语言编程全能王


GSM8K(8-shot)和MATH(0-shot,无CoT)基准测试


指令执行与对齐


Mistral Large 2的指令执行和对话能力也得到了显著提升,在执行精确指令和处理长时间多轮对话方面表现尤为出色。


以下是其在Wild Bench和Arena Hard基准测试上的表现:


Mistral新旗舰决战Llama 3.1!最强开源Large 2 123B,扛鼎多语言编程全能王


通用对齐基准测试


在一些基准测试中,生成较长的回答通常会提高得分。


然而,在许多商业应用中,答案的简洁至关重要——简短的模型响应可以促进更快速的交互,让推理过程更加高效且降低成本。


Mistral声称Large 2可以比领先的人工智能模型产生更简洁的响应,因为后者倾向于喋喋不休。


下图展示了不同模型在MT Bench基准测试中问题的平均生成长度:


Mistral新旗舰决战Llama 3.1!最强开源Large 2 123B,扛鼎多语言编程全能王


语言多样性


如今,许多商业应用涉及处理多语言文档。


尽管大多数模型以英语为中心,但Mistral Large 2在大量多语言数据上进行了训练。


比如,在法语、德语、西班牙语、意大利语、葡萄牙语、荷兰语、俄语、中文、日语、韩语、阿拉伯语和印地语等多种语言上,Mistral Large 2都有出色的性能。


以下是Mistral Large 2在多语言MMLU基准测试中的表现结果,并与之前的Mistral Large、Llama 3.1模型以及Cohere的Command R+进行了比较:


Mistral新旗舰决战Llama 3.1!最强开源Large 2 123B,扛鼎多语言编程全能王


在下图的8种语言上,Mistral Large 2的性能可以媲美Llama 3.1 405。但值得注意的是,所有模型似乎都在中文MMLU上取得了最低分。


Mistral新旗舰决战Llama 3.1!最强开源Large 2 123B,扛鼎多语言编程全能王


工具使用与函数调用


Mistral Large 2具备了更强的函数调用和检索能力,能够熟练执行并行和顺序的函数调用,准确率甚至超过了GPT-4o。


Mistral新旗舰决战Llama 3.1!最强开源Large 2 123B,扛鼎多语言编程全能王


这意味着,Mistral Large 2可以成为复杂商业应用的核心引擎。


除了直接从HuggingFace上下载权重,用户可以通过官方API平台la Plateforme访问或微调模型,免费聊天机器人le chat也已经部署了Mistral Large 2。


Vertex AI、Azure Studio等第三方云平台也托管了Mistral Large 2的API。


Mistral新旗舰决战Llama 3.1!最强开源Large 2 123B,扛鼎多语言编程全能王


文章来源于“新智元”,作者“新智元


Mistral新旗舰决战Llama 3.1!最强开源Large 2 123B,扛鼎多语言编程全能王

关键词: Mistral , Llama 3.1 , Large 2 , AI编程 , AI
AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
免费使用GPT-4o

【免费】ffa.chat是一个完全免费的GPT-4o镜像站点,无需魔法付费,即可无限制使用GPT-4o等多个海外模型产品。

在线使用:https://ffa.chat/

2
微调

【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台,可以对大语言模型(LLM)和多模态图文模型(VLM)进行预训练和轻量级微调。XTuner 支持多种微调算法,如 QLoRA、LoRA 和全量参数微调。

项目地址:https://github.com/InternLM/xtuner