ChatGPT 人工智能 GPT4 伦理 生成式 医疗 监管 安全 机器学习 深度学习 神经网络 计算机视觉 强化学习 模型 算法 应用 开发 研究 工具 平台 框架 数据集 训练 部署 安全 合规 培训 投资 LLM,llm AI,ai,Ai 大模型 大语言模型 制图 生图 绘图 文生图 文生视频 生成式AI AGI 世界模型 sora chatGPT,chatgpt,ChatGpt claude openai Llama deepseek midjourney 红熊猫模型 Red panda,panda Stable Diffusion,StableDiffusion,stable DALL- E 3 DALL E DALL Flux,flux 扩散模型 混元大模型 文心一言 通义千问 可灵 Pika PixelDance 豆包 月之暗面 零一万物 阶跃星辰 搜索增强 MiniMax Talkie Agent prompt fastai LangChain TTS 微调 提示词 知识库 智能体
# 热门搜索 #
搜索
一条磁力链接席卷AI圈,87GB种子直接开源8x7B MoE模型
8691点击    2023-12-10 14:35

「高端」的开源,往往采用最朴素的发布方式。


昨天,Mistral AI 在 X 平台甩出一条磁力链接,宣布了新的开源动作。



没有长篇官方博客,没有刻意加速的 Demo,这家公司算是当下大模型领域的「一股清流」。


打开一看,发现是接近 87 GB 的种子:



参数配置什么样?很多人放弃了周末,第一时间下载运行起来。


看上去,Mistral 8x7B 使用了与 GPT-4 非常相似的架构,但是「缩小版」: 


  • 8 个专家总数,而不是 16 名(减少一半) 
  • 每个专家为 7B 参数,而不是 166B(减少 24 倍)
  • 42B 总参数(估计)而不是 1.8T(减少 42 倍)
  • 与原始 GPT-4 相同的 32K 上下文


在发布后 24 小时内,已经有开发者做出了在线体验网站:https://replicate.com/nateraw/mixtral-8x7b-32kseqlen


有研究者称:「闭源大模型走到结局了。」



这周已经引发群嘲的谷歌,也再次被 Cue 到:



专家混合 (MoE) 是 LLM 中常用的一种技术,旨在提高其效率和准确性。这种方法的工作原理是将复杂的任务划分为更小、更易于管理的子任务,每个子任务都由专门的迷你模型或「专家」处理。


具体来说,「专家层」是较小的神经网络,经过训练在特定领域具有高技能,每个专家处理相同的输入,但处理方式与其特定的专业相一致;「门控网络」是 MoE 架构的决策者,能评估哪位专家最适合给定的输入数据。网络计算输入与每个专家之间的兼容性分数,然后使用这些分数来确定每个专家在任务中的参与程度。


我们都知道,OpenAI 团队一直对 GPT-4 的参数量和训练细节守口如瓶。早些时候,有人爆料 GPT-4 是采用了由 8 个专家模型组成的集成系统。后来又有传闻称,ChatGPT 也只是百亿参数级的模型(大概在 200 亿左右)。


传闻无从证明,但 Mistral 8x7B 可能提供了一种「非常接近 GPT-4」的开源选项。从模型元数据中可以看出,对于每个 token 的推理,Mistral 8x7B 仅使用 2 个专家。


更让人感觉有趣的是,这是该公司官方账号自开通以来发布的第三条内容,两次重要发布均无文字说明,配图什么的更是不存在:



9 月底的那条链接发布的是 Mistral 7B,该模型至今仍被称为「最好的 7B 模型」,在每个基准测试中都优于 Llama-2 13B,并且在代码、数学和推理方面优于 LLaMA-1 34B。


Mistral AI 成立于 2023 年 5 月,是一家法国人工智能初创公司,也是为数不多来自欧洲的大模型开源领域的明星团队。


Mistral AI 曾在 6 月获得了创纪录的 1.18 亿美元种子轮融资,还是在仅有 7 页 PPT 的情况下,据说这是欧洲历史上最大的种子轮融资。



Mistral AI 团队成员。


公司创始人之一 Arthur Mensch 曾在 10 月份向《金融时报》表示,Mistral AI 的技术比美国的一些强大竞争对手开发的技术更高效、成本更低。


技术实力的优越,也为这家公司带来了投资者的持续关注。


近日,《金融时报》报道了 Mistral AI 新一轮融资的动态:新一轮融资约 4 亿欧元,主要由股权组成,可能在下周官宣。目前,公司的最新估值在 20 亿欧元左右。

知情人士透露,新一轮融资由硅谷著名风投 Andreessen Horowitz 牵头,其他参与者还包括英伟达、Salesforce、General Catalyst、法国巴黎银行等。

Mistral AI 的其他投资者还包括谷歌前 CEO 埃里克・施密特 (Eric Schmidt)、法国电信亿万富翁泽维尔・尼尔 (Xavier Niel) 和法国国家支持的投资银行 Bpifrance。

这篇报道还提到,Arthur Mensch 表示「虽然公司尚未赚到任何钱,但预计这种情况将在年底前发生改变,因为该公司准备了一个新平台,供客户访问其人工智能模型。」


参考链接:https://www.ft.com/content/ea29ddf8-91cb-45e8-86a0-f501ab7ad9bb


文章来自于微信公众号 “机器之心”


关键词: Mistral AI , 8x7B MoE , MoE