8x7B MoE与Flash Attention 2结合，不到10行代码实现快速推理

6906点击 2024-01-01 11:08

感兴趣的小伙伴，可以跟着操作过程试一试。

前段时间，Mistral AI 公布的 Mixtral 8x7B 模型爆火整个开源社区，其架构与 GPT-4 非常相似，很多人将其形容为 GPT-4 的「缩小版」。

我们都知道，OpenAI 团队一直对 GPT-4 的参数量和训练细节守口如瓶。Mistral 8x7B 的放出，无疑给广大开发者提供了一种「非常接近 GPT-4」的开源选项。

在基准测试中，Mistral 8x7B 的表现优于 Llama 2 70B，在大多数标准基准测试上与 GPT-3.5 不相上下，甚至略胜一筹。

8x7B MoE与Flash Attention 2结合，不到10行代码实现快速推理

随着这项研究的出现，很多人表示：「闭源大模型已经走到了结局。」

8x7B MoE与Flash Attention 2结合，不到10行代码实现快速推理

短短几周的时间，机器学习爱好者 Vaibhav (VB) Srivastav 表示：随着 AutoAWQ（支持 Mixtral、LLaVa 等模型的量化）最新版本的发布，现在用户可以将 Mixtral 8x7B Instruct 与 Flash Attention 2 结合使用，达到快速推理的目的，实现这一功能大约只需 24GB GPU VRAM、不到十行代码。

8x7B MoE与Flash Attention 2结合，不到10行代码实现快速推理

AutoAWQ 地址：https://github.com/casper-hansen/AutoAWQ

操作过程是这样的：

首先是安装 AutoAWQ 以及 transformers：

pip install autoawq git+https://github. com/huggingface/transformers.git

第二步是初始化 tokenizer 和模型：

8x7B MoE与Flash Attention 2结合，不到10行代码实现快速推理

第三步是初始化 TextStreamer：

8x7B MoE与Flash Attention 2结合，不到10行代码实现快速推理

第四步对输入进行 Token 化：

8x7B MoE与Flash Attention 2结合，不到10行代码实现快速推理

第五步生成：

8x7B MoE与Flash Attention 2结合，不到10行代码实现快速推理

当你配置好项目后，就可以与 Mixtral 进行对话，例如对于用户要求「如何做出最好的美式咖啡？通过简单的步骤完成」，Mixtral 会按照 1、2、3 等步骤进行回答。

8x7B MoE与Flash Attention 2结合，不到10行代码实现快速推理

项目中使用的代码：

8x7B MoE与Flash Attention 2结合，不到10行代码实现快速推理

Srivastav 表示上述实现也意味着用户可以使用 AWQ 运行所有的 Mixtral 微调，并使用 Flash Attention 2 来提升它们。

看到这项研究后，网友不禁表示：真的很酷。

8x7B MoE与Flash Attention 2结合，不到10行代码实现快速推理

更多相关链接，请参考：

模型地址：https://huggingface.co/models?search=mixtral%20awq

Transformer 中量化技术：https://huggingface.co/docs/transformers/main/en/quantization

文章来自微信公众号 “机器之心pro”，作者机器之心

Mistral AI Mixtral 8x7B GPT-4

AITNT资源拓展

根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考

微调

【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台，可以对大语言模型（LLM）和多模态图文模型（VLM）进行预训练和轻量级微调。XTuner 支持多种微调算法，如 QLoRA、LoRA 和全量参数微调。
项目地址：https://github.com/InternLM/xtuner