# 热门搜索 #
搜索
明星AI独角兽Mistral AI亮出大模型新王炸,代码和数学能力超群
3995点击    2024-07-19 10:37


智东西7月17日消息,昨日据VentureBeat报道,法国AI创企Mistral AI近日推出了两款新AI模型,一个是面向程序员和开发人员的代码生成模型Codestral Mamba 7B,另一个是专为数学相关推理和科学发现而设计的AI模型Mathstral 7B。


Codestral Mamba 7B具有更快的推理速度和更长的上下文,即使在输入文本较长的情况下也能提供快速响应时间。同时,该模型可处理多达256000个token的输入,是GPT-4o的两倍。


Mathstral 7B有一个32K上下文窗口,并将使用Apache 2.0开源许可证,它可以在具有更多推理时间计算的基准上获得优于其他数学推理模型的效果,该模型还具备微调功能。


一、代码生成模型能够处理更长的上下文


资金雄厚的法国AI初创公司Mistral AI以其强大的开源AI模型而闻名,如今在其不断增长的大型语言模型(LLM)系列中推出了两个新条目:一个基于数学的模型和一个面向程序员和开发人员的代码生成模型,该模型基于其他研究人员去年年底开发的新架构Mamba。


Mamba试图通过简化其注意力机制来提高大多数领先的LLM使用的transformer架构的效率。基于Mamba的模型与更常见的基于Transformer的模型不同,它可能具有更快的推理速度和更大的上下文窗口。包括AI21在内的其他公司和开发人员已经发布了基于它的新AI模型。


现在,使用这种新架构,Mistral AI恰如其分地将其命名为Codestral Mamba 7B,即使在输入文本较长的情况下也能提供快速响应时间。Codestral Mamba适用于代码生产力用例,尤其是对于更本地的编码项目。


Mistral AI测试了该模型,该模型将在Mistral AI的la Plateforme API上免费使用,处理多达256000个token的输入,是OpenAI的GPT-4o的两倍。


Mistral AI表明,在HumanEval等基准测试中,Codestral Mamba比竞争对手的开源模型CodeLlama 7B、CodeGemma-1.17B和DeepSeek 表现得更好。


▲(图源:Mistral AI)


开发人员可以从其GitHub存储库和HuggingFace修改和部署Codestral Mamba。它将通过开源Apache 2.0许可证提供。


Mistral AI声称早期版本的Codestral优于CodeLlama 70B和DeepSeek Coder 33B等其他代码生成器。


代码生成和编码助手已成为AI模型广泛使用的应用程序,由OpenAI提供支持的GitHub的Copilot、亚马逊的CodeWhisperer和Codenium等平台越来越受欢迎。


二、数学推理模型能力超群,还具备微调功能


Mistral AI推出的第二个模型是Mathstral 7B,这是一个专为数学相关推理和科学发现而设计的AI模型。Mistral AI通过Project Numina开发了 Mathstral。


Mathstral有一个32K上下文窗口,并将使用Apache 2.0开源许可证。Mistral AI称,该模型的表现优于所有为数学推理设计的模型。它可以在具有更多推理时间计算的基准上获得“明显更好的结果”。用户可以按原样使用它或微调模型。


Mistral AI在一篇博客文章中说:“Mathstral是另一个例子,展示了在为特定目的构建模型时实现出色的性能——这是我们在la Plateforme中积极推广的开发理念,特别是其新的微调功能。”


▲(图源:Mistral AI)


Mathstral可以通过Mistral AI的la Plataforme和HuggingFace访问。


Mistral AI倾向于在开源系统上提供其模型,该公司一直在与OpenAI和Anthropic等其他AI开发人员竞争。


该公司最近在B轮融资中筹集了6.4亿美元,估值接近60亿美元。该公司还获得了微软和IBM等科技巨头的投资。


结语:大模型性能之战卷出新高度


从产业角度来看,Mistral AI的新模型突显了AI工具向专业化发展的趋势,通过提供如Mistral 7B和Codestral Mamba 7B这样的强大且可访问的模型,Mistral AI正在成为AI领域的重要参与者,促进创新和实用应用的发展。


这些模型还强调了开源AI的重要性,鼓励技术社区内的合作与更高的透明度。通过向更广泛的受众提供强大的AI工具,进一步推进AI大模型领域的迅速迭代于发展。


来源:VentureBeat


本文来自微信公众号“智东西”(ID:zhidxcom),作者:罗添瑾


AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
免费使用GPT-4o

【免费】ffa.chat是一个完全免费的GPT-4o镜像站点,无需魔法付费,即可无限制使用GPT-4o等多个海外模型产品。

在线使用:https://ffa.chat/

2
微调

【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台,可以对大语言模型(LLM)和多模态图文模型(VLM)进行预训练和轻量级微调。XTuner 支持多种微调算法,如 QLoRA、LoRA 和全量参数微调。

项目地址:https://github.com/InternLM/xtuner