全面超越GPT3.5！Mistral AI发布「神秘模型」托管平台，22人估值20亿美元

8093点击 2023-12-14 10:07

创办于 5 月的法国大模型公司 Mistral AI 最近有了一系列动作。

彭博社报道，Mistral 正在完成 4.87 亿美元的融资，估值 20 亿美元，其中英伟达、Salesforce 参与，a16z 领投。

联合创始人、CEO Arthur Mensch 登上芬兰创投大会 Slush，与资方 Lightspeed 的合伙人 Paul Murphy 进行了一场访谈。

同时 Mistral AI 发布了引爆开源社区的首个 MoE 开源模型 Mixtral 8x7B，跑分与 GPT-3.5 平分秋色。

昨天，Mistral AI 上线开放平台 La plateforme（法语，平台），首次商业化动作。其中还上架了一款全面超越 GPT-3.5 的「中尺寸」模型。

全面超越GPT3.5！Mistral AI发布「神秘模型」托管平台，22人估值20亿美元

一周之内，Mistral 成为最受好评和期待的大模型创业公司。甚至在 Google 陷入 Gemini 宣传视频「作假」的风波时，其简单粗暴地直接发 torrent 的开源动作吸引了大量粉丝。（更甚至它都没说「开源」，而是「权重开源」open weights。)

全面超越GPT3.5！Mistral AI发布「神秘模型」托管平台，22人估值20亿美元

网友玩梗，Mistral 和 Google 走在了交付和宣传的两个极端上。

全面超越GPT3.5！Mistral AI发布「神秘模型」托管平台，22人估值20亿美元

首个MoE开源

媲美GPT3.5的「开放权重」模型

Mixtral 8x7B 是一个高质量的 SMoE（稀疏混合专家模型），开放权重（open weights），Apache 2.0 可商用，在大多数 benchmark 上表现优于 Llama 2 70B，但推理速度快 6 倍。

Mistral 特别强调，在大多数基准测试中，该 MoE 模型表现优于 GPT-3.5。

32k token 上下文，语言兼容英语、法语、意大利语、德语和西班牙语，代码生成表现出色。

同时发布了 Instruct 版本的微调模型，MT-Bench 8.3 分。

Mistral 表示，Mixtral 共 46.7B 参数，但每 token 仅使用 12.9B，意味着等同于 12.9B 的推理速度和成本。

跑分结果：

全面超越GPT3.5！Mistral AI发布「神秘模型」托管平台，22人估值20亿美元

关于 Mixtral 8x7B 模型本身的详细信息，可以直接访问官网查看：

https://mistral.ai/news/mixtral-of-experts/

开放平台

超越GPT3.5的神秘「中尺寸」模型

Mistral AI 刚刚发布了开放平台 La plateforme，首先上架三款模型。

小小杯，Mistral-tiny。目前提供 Mistral 7B Instruct v0.2 这一 Mistral 7B Instruct 的更新小版本。Mistral-tiny 仅支持英语，并在 MT-Bench 测试中获得 7.6 分。

小杯，Mistral-small。Mixtral 8x7B，如上述。

中杯，Mistral-medium。目前最高档模型，MT-Bench 8.6 分，benchmark 全面超越 GPT-3.5。

全面超越GPT3.5！Mistral AI发布「神秘模型」托管平台，22人估值20亿美元

同时提供了 embed endpoint，一个具有 1024 嵌入维度的嵌入模型，设计有检索能力，MTEB 55.26 分。

「我们的 API 遵循最初由我们亲爱的竞争对手提出的流行聊天界面的规格。我们提供了 Python 和 Javascript 客户端库，以查询我们的终端节点。」

「每个 endpoint 都在性能和价格之间进行了不同的权衡。」

API 即日起开放注册，「在平台稳定到完全自助服务前，可能会有一些问题。」

全面超越GPT3.5！Mistral AI发布「神秘模型」托管平台，22人估值20亿美元

「小模型」路线

20 多个员工，20 亿美元

6 个月前，三名来自 Meta 和 DeepMind 的研究人员在法国巴黎创办了 Mistral AI，种子轮融资 1.13 亿美元，刚刚又被曝完成了 4.87 亿美元的融资，估值 20 亿美元。

现在 Mistral AI 的投资人包括，a16z、英伟达、Salesforce、Lightspeed 以及 Google 董事长 Eric Schmidt 等。

联创三人，Arthur Mensch，CEO，前 DeepMind 研究科学家；Guillaume Lample，首席科学家，前 Meta 研究科学家，Llama 项目带头；Timothee Lacroix，CTO，前 Llama 工程带头。

全面超越GPT3.5！Mistral AI发布「神秘模型」托管平台，22人估值20亿美元

目前，Mistral AI 仅有 22 名员工。

全面超越GPT3.5！Mistral AI发布「神秘模型」托管平台，22人估值20亿美元

创立之初，Mistral AI 坚定开源路线，Mensch 在活动上表示，「我们知道，一直高度致力于此的团队，可以快速开发最先进的模型，我们可以将这个领域变得更加开放，让开发者能够拥有更多机会，去开发专业模型，自己的模型，在解决问题的基础上让模型越小越好。」

所以，Mistral AI 选择尽可能训练一个高质量的小模型，7B。在开源模型基础上，应用开发者可以把模型拿来自己训微调，为自己的产品开发专业的模型。

「因为，如果你只有个别厂商的几个 API，你很难做到差异化。但如果你能对模型进行更深层次的访问，你就能创造出更有趣的东西。」

三个月前，Mistral 7B 开源，（也是简单粗暴发磁链），很快在开源社区获得了大量好评，开发者在 7B 模型基础上开发了众多微调模型，很多在特定任务上表现远超 base model。

相比 OpenAI 大而全的 AGI 路线，Mensch 认为 Mistral AI 选择的是更务实的方向，「具有成本效益，低延迟，通过专有数据实现高度差异化等等」。

文章来自于微信公众号 “Founder Park”，作者 “Founder Park”

关键词: Mistral AI , chatGPT , Mixtral 8x7B

AITNT资源拓展

根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考

微调

【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台，可以对大语言模型（LLM）和多模态图文模型（VLM）进行预训练和轻量级微调。XTuner 支持多种微调算法，如 QLoRA、LoRA 和全量参数微调。
项目地址：https://github.com/InternLM/xtuner