国产黑马砸来百万算力福利，Llama 3微调快去冲！H800点击就送，1.99元玩转4090

6077点击 2024-04-28 15:12

Llama 3诞生整整一周后，直接将开源AI大模型推向新的高度。

Meta官方统计显示，模型下载量已突破120万次，在最大开源平台HF上已经有600+微调的Llama 3变体。

更值得一提的是，Llama 3 70B指令微调版已在大模型Chatbot Arena排行榜上并列第一（英语），总体榜单位列第六，并在多个基准测试上的表现均大幅超过已有竞品。

可见，Llama 3已经成为AI应用的最新优选。

问题来了，想要动手微调测试Llama 3，如何用？

不仅好用还便宜

想体验Llama 3等AI任务，还需要有GPU等算力支持。目前主流的AI云主机有AWS、AutoDL、阿里云等。但GPU资源不仅昂贵稀缺，供应商普遍还要求使用者必须预先进行高额投入，按年或提前数个月预付定金。

潞晨云不仅提供了便捷易用的AI解决方案，还为力求为广大AI开发者和其他提供了随开随用的廉价算力：

国产黑马砸来百万算力福利，Llama 3微调快去冲！H800点击就送，1.99元玩转4090

原价19.99元/卡时的H800-80GB-NVLINK，限时特供低至5.99元/卡时！

对于使用较稳定的长期需求，在潞晨云还可以按月、按年租用，获得进一步折扣。

潞晨云还为新用户准备了多种形式的优惠代金券活动，注册即可白嫖H800、A800、4090、910B等高端算力，构建属于自己的AI大模型！（新注册用户自动获得代金券额度）

手把手教你部署和训练Llama 3

创建云主机

打开算力市场，按照筛选目标算力。

国产黑马砸来百万算力福利，Llama 3微调快去冲！H800点击就送，1.99元玩转4090

可以看到如图所示的控制台页面，右边是两台可用的服务器，每台上有8块可租用的GPU，我们选择一个，点击「8卡可租」按钮，进入算力市场界面。

国产黑马砸来百万算力福利，Llama 3微调快去冲！H800点击就送，1.99元玩转4090

在租用配置选择界面，为自己的云主机取一个名字并选择任务所需数量的显卡，Llama 3 8B推理可以在单卡H800上完成），因此，此处选择1卡H800。

推理

Colossal-Inference现已适配支持了Llama 3推理加速。在潞晨云，你可以选择推理镜像，使用Colossal-Inference进行推理优化提速，体验Llama 3的自然语言生成能力。

国产黑马砸来百万算力福利，Llama 3微调快去冲！H800点击就送，1.99元玩转4090

前期准备

Llama 3模型权重已准备好，无需额外安装步骤。

推理生成

运行生成脚本

进行多卡TP推理，如下例使用两卡生成

吞吐脚本

运行吞吐Benchmark测试

单卡H100对Llama 3-8B进行Benchmark结果与vLLM对比（例：输入序列长度128，输出长度256）

国产黑马砸来百万算力福利，Llama 3微调快去冲！H800点击就送，1.99元玩转4090

微调与继续预训练

潞晨云在原有 Llama 2 汉化项目中，支持了 Llama 3 的继续预训练与微调。在这里，你可以通过选择训练镜像，快速对 Llama 3 进行继续预训练与微调。

国产黑马砸来百万算力福利，Llama 3微调快去冲！H800点击就送，1.99元玩转4090

前期准备

1. 编译安装 Colossal-AI

2. 创建训练需要的文件夹

3. 修改 hostfile

注：可通过 apt install iproute2 -y 在镜像中安装 ip addr 指令查看镜像内 ip 地址

数据准备

当前路径：/root/ColossalAI/applications/Colossal-LLaMA/

1. 继续预训练

2. 微调

运行成功后，data_output_dirs 文件夹内会自动生成 3 个子文件夹，其中，arrow 文件夹中的数据可用来直接训练。

此外，潞晨云还提供了简单数据集以供测试，处理好数据集可见：/root/notebook/common_data/tokenized-cpt-data

训练脚本

当前路径：/root/ColossalAI/applications/Colossal-LLaMA/

1. 修改 config 文件

2. 参考训练脚本

大规模训练

对于大规模预训练等场景，结合Llama 3 序列变长、embedding增大等特性，潞晨云针对3D混合并行场景进行了优化，通过自定义流水线切分、gradient checkpoint策略，可以进一步精细化控制每个GPU的内存占用和速度，从而达到整体训练效率的提升。

国产黑马砸来百万算力福利，Llama 3微调快去冲！H800点击就送，1.99元玩转4090

潞晨云使用整数线性规划搜索出在64x H100上最适合Llama 3 70B的切分、gradient checkpoint策略，最终训练可以达到每卡410+ TFLOPS的卓越性能。

详情可参考：https://github.com/hpcaitech/ColossalAI/tree/main/examples/language/llama

此例子附上了潞晨云测试时使用的配置。使用方法如下：

欢度五一，百万福利大放送！羊毛速薅

潞晨云已准备首期百万元的代金券，后续还会不断放出，可以持续关注！

注册即送：新账户注册即送50元代金券，便捷试用多种AI算力。

企业认证：完成企业认证的账户可额外获得1000元代金券，可稳定测试多机H800等稀缺资源。

在线评价：用户在社交媒体和专业论坛（如知乎、小红书、微博、CSDN等）上分享使用体验，有效分享一次可得100元代金券。每月最佳分享可额外再获500元代金券（根据点赞、评论等真实活跃度；每个账号最多每月各计一次；发布24小时后请找小客服核对验证）

加入用户群：不定时发放特价资源、代金券等优惠活动。

本文来自微信公众号“新智元”

国产黑马砸来百万算力福利，Llama 3微调快去冲！H800点击就送，1.99元玩转4090

关键词: GPU , AI算力 , H800 , AI芯片 , H100集群

AITNT资源拓展

根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考

微调

【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台，可以对大语言模型（LLM）和多模态图文模型（VLM）进行预训练和轻量级微调。XTuner 支持多种微调算法，如 QLoRA、LoRA 和全量参数微调。
项目地址：https://github.com/InternLM/xtuner