ChatGPT 人工智能 GPT4 伦理 生成式 医疗 监管 安全 机器学习 深度学习 神经网络 计算机视觉 强化学习 模型 算法 应用 开发 研究 工具 平台 框架 数据集 训练 部署 安全 合规 培训 投资 LLM,llm AI,ai,Ai 大模型 大语言模型 制图 生图 绘图 文生图 文生视频 生成式AI AGI 世界模型 sora chatGPT,chatgpt,ChatGpt claude openai Llama deepseek midjourney 红熊猫模型 Red panda,panda Stable Diffusion,StableDiffusion,stable DALL- E 3 DALL E DALL Flux,flux 扩散模型 混元大模型 文心一言 通义千问 可灵 Pika PixelDance 豆包 月之暗面 零一万物 阶跃星辰 搜索增强 MiniMax Talkie Agent prompt fastai LangChain TTS 微调 提示词 知识库 智能体
# 热门搜索 #
搜索
开源版OpenAI再出「神作」,小模型吊打Llama 3!Ministral系列问世,边缘AI革命开启
2677点击    2024-10-23 13:48

Mistral 7B仅仅发布一周年,法国AI初创小模型「les Ministraux」就打败它了。


它堪称是,世界上最好的边缘模型。



Ministral 3B和Ministral 8B这两款轻量级模型,专为边缘设备打造。


截至目前,它们正式加入Mixtral、Pixtral、Codestral、Mathstral行列,成为Mistral一员。



别看仅有30亿参数,在指令跟随基准上,完全超越了Llama 3 8B,以及前辈模型Mistral 7B。


而且Ministral 3B和Ministral 8B在大模型竞技场中的测试,均拿下了媲美Gemma 2、Llama 3.1开源模型的成绩。



世界上最好的边缘模型


Ministral 3B和Ministral 8B都支持高达128k上下文(目前在vLLM上为32k)。


在知识、常识、推理、函数调用、效率等方面,为低于10B参数模型设立了新标杆。


而且,Ministral 8B还有配备了滑动窗口注意机制(sliding-window attention),以实现更快和内存高效的推理。


不论是管理复杂的AI智能体工作流,还是创建专门的任务助手,它们均可以被微调到各种用例中。



赶超开源模型,击败Mistral 7B


研究人员在多项基准测试中,评估了Les Minimrau的性能。


其中包括知识与常识、代码、数学、多语言四大方面。


预训练模型


如下图所示,与Gema 2 2B、Llama 3.2 3B相比较,Minstral 3B在以上基准上,取得了最优成绩。


在与Llama 3.1 8B、Mistral 7B相比较过程中,仅有代码能力,Minstral 8B还有些差距,其余放方面均是性能最高的模型。



如下是,更加直观可视化柱状图,Minstral 8B在各项评测中,占据首位。



指令模型


再来看微调后的指令模型,性能比较的结果。


在大模型竞技场中,Minstral 3B在不同基准上,实现了最优。Minstral 8B仅在Wild bench上,略逊于Gema 2 9B。


另外,在代码、数学、函数调用方面,两款新模型性能大幅超越其余模型。



下图,可以直观看出指令微调后的Minstral 3B比更大的Mistral 7B的改进。



如下是指令微调后的Minstral 8B模型,与其他模型的性能对比直观图。



边缘计算皆可用,0.1美金百万token


如今,大模型在实际落地中,不如小模型来的更切实际。


越来越多的用户,希望对关键应用程序能够进行本地优先推理,比如设备上翻译、不用联网智能助理,自动机器人等等。


正如官博所述,Les Minimraux正为这些场景,提供了高计算效率、低延迟的解决方案。


当与Mistral Large等更大的模型结合使用时,les Ministraux还可以作为多步智能体工作流中,进行函数调用的高效中介。


通过微调,它们能以极低的延迟和成本基于用户意图,跨多个上下文处理输入解析、任务路由和调用API。


价格


根据官方公布的价格所示,Minstral 8B输入输出价格为百万token,0.1美元。Minstral 3B则为百万token0.04美元。



开源版OpenAI,不再Open


自去年成立以来,Mistral曾以磁力链方式开源了多款媲美OpenAI的模型,一路走红得到AI社区的认可。


这家总部位于巴黎的Mistral,由Meta、谷歌DeepMind前员工创立。



几个月前,它以60亿美金估值,完成6.4亿美元新一轮融资,并随之推出了一款GPT-4级别的模型——Mistral Large 2。


此外,他们在今年,还推出了一个专家混合模型Mixtral 8x22B。


它包含了一个编码模型Codestral,以及一个数学推理和科学发现的模型。



不过,今年这家明星公司陷入了巨大争议,因为它变得不再那么open。



年初,有消息爆料称,微软宣布将收购Mistral一些股份,并对其投资,意味着它的模型将在Azure AI进行托管。


甚至,还有Reddit网友发现,Mistral已从官网中,移除了致力于开源的承诺。



在一些模型的调用上,Mistral也开启了收费模式,包括这次同样如此。


有网友就此吐槽,不是开源的。



要知道,对于一家初创公司来说,一直坚持开源代码是一个巨大的挑战。


就比如反面教材Stability AI,完全放弃了开源的商业模式,也转向了收费策略。


对于Mistral也是如此,若要持续打造优秀的模型,只有这一种选择。


参考资料:


https://x.com/dchaplot/status/1846575384718172448


https://x.com/GuillaumeLample/status/1846566817650679966


文章来自于微信公众号“新智元”


AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
AI工作流

【开源免费】n8n是一个可以自定义工作流的AI项目,它提供了200个工作节点来帮助用户实现工作流的编排。

项目地址:https://github.com/n8n-io/n8n

在线使用:https://n8n.io/(付费)


【开源免费】DB-GPT是一个AI原生数据应用开发框架,它提供开发多模型管理(SMMF)、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL(智能体工作流编排)等多种技术能力,让围绕数据库构建大模型应用更简单、更方便。

项目地址:https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file



【开源免费】VectorVein是一个不需要任何编程基础,任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤,并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。

项目地址:https://github.com/AndersonBY/vector-vein?tab=readme-ov-file

在线使用:https://vectorvein.ai/(付费)

2
智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。

项目地址:https://github.com/Significant-Gravitas/AutoGPT


【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

3
微调

【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台,可以对大语言模型(LLM)和多模态图文模型(VLM)进行预训练和轻量级微调。XTuner 支持多种微调算法,如 QLoRA、LoRA 和全量参数微调。

项目地址:https://github.com/InternLM/xtuner