AI TNT— 让一部分先用AI实现商业化

# 热门搜索 #

大模型

人工智能

openai

融资

chatGPT

搜索: Mixtral

开源模型进展盘点：最新Mixtral、Llama 3、Phi-3、OpenELM到底有多好？

开源模型进展盘点：最新Mixtral、Llama 3、Phi-3、OpenELM到底有多好？

深度学习领域知名研究者、Lightning AI 的首席人工智能教育者 Sebastian Raschka 对 AI 大模型有着深刻的洞察，也会经常把一些观察的结果写成博客。在一篇 5 月中发布的博客中，他盘点分析了 4 月份发布的四个主要新模型：Mixtral、Meta AI 的 Llama 3、微软的 Phi-3 和苹果的 OpenELM。

来自主题: AI技术研报

8099 点击 2024-06-02 14:42

微软让MoE长出多个头，大幅提升专家激活率

微软让MoE长出多个头，大幅提升专家激活率

MH-MoE 能优化几乎所有专家，实现起来非常简单。

来自主题: AI资讯

9414 点击 2024-05-14 13:14

终于有人调查了小模型过拟合：三分之二都有数据污染，微软Phi-3、Mixtral 8x22B被点名

终于有人调查了小模型过拟合：三分之二都有数据污染，微软Phi-3、Mixtral 8x22B被点名

当前最火的大模型，竟然三分之二都存在过拟合问题？

来自主题: AI技术研报

4294 点击 2024-05-03 20:54

全球最大开源模型再刷爆纪录！4800亿参数MoE击败Llama 3、Mixtral

全球最大开源模型再刷爆纪录！4800亿参数MoE击败Llama 3、Mixtral

就在刚刚，拥有128位专家和4800亿参数的Arctic，成功登上了迄今最大开源MoE模型的宝座。

来自主题: AI技术研报

9497 点击 2024-04-25 19:53

本周（4.8-4.14）AI界发生了什么？

本周（4.8-4.14）AI界发生了什么？

太平洋时间4月9日，谷歌、OpenAl、Mistral在24小时内，接连发布大模型重磅更新。

来自主题: AI资讯

8834 点击 2024-04-15 10:37

打破MoE训练效率与性能瓶颈，华为盘古稀疏大模型全新架构LocMoE出炉

打破MoE训练效率与性能瓶颈，华为盘古稀疏大模型全新架构LocMoE出炉

2023 年 12 月，首个开源 MoE 大模型 Mixtral 8×7B 发布，在多种基准测试中，其表现近乎超越了 GPT-3.5 和 LLaMA 2 70B，而推理开销仅相当于 12B 左右的稠密模型。为进一步提升模型性能，稠密 LLM 常由于其参数规模急剧扩张而面临严峻的训练成本。

来自主题: AI技术研报

8747 点击 2024-02-04 13:59

最佳开源模型刷新多项SOTA，首次超越Mixtral Instruct！「开源版GPT-4」家族迎来大爆发

最佳开源模型刷新多项SOTA，首次超越Mixtral Instruct！「开源版GPT-4」家族迎来大爆发

Mixtral 8x7B模型开源后，AI社区再次迎来一大波微调实践。来自Nous Research应用研究小组团队微调出新一代大模型Nous-Hermes 2 Mixtral 8x7B，在主流基准测试中击败了Mixtral Instruct。

来自主题: AI技术研报

6642 点击 2024-01-19 14:25

开源模型新纪录：超越Mixtral 8x7B Instruct的模型来了

开源模型新纪录：超越Mixtral 8x7B Instruct的模型来了

从 Llama、Llama 2 到 Mixtral 8x7B，开源模型的性能记录一直在被刷新。由于 Mistral 8x7B 在大多数基准测试中都优于 Llama 2 70B 和 GPT-3.5，因此它也被认为是一种「非常接近 GPT-4」的开源选项。

来自主题: AI技术研报

5729 点击 2024-01-16 14:18

一条磁力链爆全网，Mixtral 8x7B论文来了！碾压Llama 2 70B，每token仅需激活13B参数

一条磁力链爆全网，Mixtral 8x7B论文来了！碾压Llama 2 70B，每token仅需激活13B参数

爆火社区的Mixtral 8x7B模型，今天终于放出了arXiv论文！所有模型细节全部公开了。

来自主题: AI资讯

5758 点击 2024-01-10 17:01

8x7B MoE与Flash Attention 2结合，不到10行代码实现快速推理

8x7B MoE与Flash Attention 2结合，不到10行代码实现快速推理

前段时间，Mistral AI 公布的 Mixtral 8x7B 模型爆火整个开源社区，其架构与 GPT-4 非常相似，很多人将其形容为 GPT-4 的「缩小版」。

来自主题: AI技术研报

4617 点击 2024-01-01 11:08

上一页当前第1页,共2页下一页