ChatGPT 人工智能 GPT4 伦理 生成式 医疗 监管 安全 机器学习 深度学习 神经网络 计算机视觉 强化学习 模型 算法 应用 开发 研究 工具 平台 框架 数据集 训练 部署 安全 合规 培训 投资 LLM,llm AI,ai,Ai 大模型 大语言模型 制图 生图 绘图 文生图 文生视频 生成式AI AGI 世界模型 sora chatGPT,chatgpt,ChatGpt claude openai Llama deepseek midjourney 红熊猫模型 Red panda,panda Stable Diffusion,StableDiffusion,stable DALL- E 3 DALL E DALL Flux,flux 扩散模型 混元大模型 文心一言 通义千问 可灵 Pika PixelDance 豆包 月之暗面 零一万物 阶跃星辰 搜索增强 MiniMax Talkie Agent prompt fastai LangChain TTS 微调 提示词 知识库 智能体
# 热门搜索 #
搜索
国产黑马砸来百万算力福利,Llama 3微调快去冲!H800点击就送,1.99元玩转4090
5528点击    2024-04-28 15:12

Llama 3诞生整整一周后,直接将开源AI大模型推向新的高度。


Meta官方统计显示,模型下载量已突破120万次,在最大开源平台HF上已经有600+微调的Llama 3变体。



更值得一提的是,Llama 3 70B指令微调版已在大模型Chatbot Arena排行榜上并列第一(英语),总体榜单位列第六,并在多个基准测试上的表现均大幅超过已有竞品。


可见,Llama 3已经成为AI应用的最新优选。


问题来了,想要动手微调测试Llama 3,如何用?


最新安利来了!


最近,小编无意发现潞晨云上的算力价格非常便宜,比如H800-80GB-NVLINK只需5.99元/卡时,而4090甚至低至1.99元/卡时。


与此同时,还会附赠免费的测试代金券。




一通测试下来,小编们发现不仅便宜,而且非常方便好用和功能丰富。


最关键的是,它还有配套的从推理到微调和预训练的实践教程。


体验地址在这里:https://cloud.luchentech.com/



据介绍,在64卡H100集群上,经过潞晨Colossal-AI优化,相比微软+英伟达方案,可提升Llama 3 70B的训练性能近20%,推理性能也优于vLLM等方案。


不仅好用还便宜


想体验Llama 3等AI任务,还需要有GPU等算力支持。目前主流的AI云主机有AWS、AutoDL、阿里云等。但GPU资源不仅昂贵稀缺,供应商普遍还要求使用者必须预先进行高额投入,按年或提前数个月预付定金。


潞晨云不仅提供了便捷易用的AI解决方案,还为力求为广大AI开发者和其他提供了随开随用的廉价算力:



原价19.99元/卡时的H800-80GB-NVLINK,限时特供低至5.99元/卡时!


对于使用较稳定的长期需求,在潞晨云还可以按月、按年租用,获得进一步折扣。


潞晨云还为新用户准备了多种形式的优惠代金券活动,注册即可白嫖H800、A800、4090、910B等高端算力,构建属于自己的AI大模型!(新注册用户自动获得代金券额度)


手把手教你部署和训练Llama 3


创建云主机


打开算力市场,按照筛选目标算力。



可以看到如图所示的控制台页面,右边是两台可用的服务器,每台上有8块可租用的GPU,我们选择一个,点击「8卡可租」按钮,进入算力市场界面。



在租用配置选择界面,为自己的云主机取一个名字并选择任务所需数量的显卡,Llama 3 8B推理可以在单卡H800上完成),因此,此处选择1卡H800。


推理


Colossal-Inference现已适配支持了Llama 3推理加速。在潞晨云,你可以选择推理镜像,使用Colossal-Inference进行推理优化提速,体验Llama 3的自然语言生成能力。



前期准备


Llama 3模型权重已准备好,无需额外安装步骤。


推理生成


运行生成脚本


进行多卡TP推理,如下例使用两卡生成


吞吐脚本


运行吞吐Benchmark测试


单卡H100对Llama 3-8B进行Benchmark结果与vLLM对比(例:输入序列长度128,输出长度256)



微调与继续预训练


潞晨云在原有 Llama 2 汉化项目中,支持了 Llama 3 的继续预训练与微调。在这里,你可以通过选择训练镜像,快速对 Llama 3 进行继续预训练与微调。



前期准备


1. 编译安装 Colossal-AI


2. 创建训练需要的文件夹


3. 修改 hostfile


注:可通过 apt install iproute2 -y 在镜像中安装 ip addr 指令查看镜像内 ip 地址


数据准备


当前路径:/root/ColossalAI/applications/Colossal-LLaMA/


1. 继续预训练


2. 微调


运行成功后,data_output_dirs 文件夹内会自动生成 3 个子文件夹,其中,arrow 文件夹中的数据可用来直接训练。


此外,潞晨云还提供了简单数据集以供测试,处理好数据集可见:/root/notebook/common_data/tokenized-cpt-data


训练脚本


当前路径:/root/ColossalAI/applications/Colossal-LLaMA/


1. 修改 config 文件


2. 参考训练脚本


大规模训练


对于大规模预训练等场景,结合Llama 3 序列变长、embedding增大等特性,潞晨云针对3D混合并行场景进行了优化,通过自定义流水线切分、gradient checkpoint策略,可以进一步精细化控制每个GPU的内存占用和速度,从而达到整体训练效率的提升。



潞晨云使用整数线性规划搜索出在64x H100上最适合Llama 3 70B的切分、gradient checkpoint策略,最终训练可以达到每卡410+ TFLOPS的卓越性能。


详情可参考:https://github.com/hpcaitech/ColossalAI/tree/main/examples/language/llama


此例子附上了潞晨云测试时使用的配置。使用方法如下:


欢度五一,百万福利大放送!羊毛速薅


潞晨云已准备首期百万元的代金券,后续还会不断放出,可以持续关注!


  • 注册即送:新账户注册即送50元代金券,便捷试用多种AI算力。


  • 企业认证:完成企业认证的账户可额外获得1000元代金券,可稳定测试多机H800等稀缺资源。


  • 在线评价:用户在社交媒体和专业论坛(如知乎、小红书、微博、CSDN等)上分享使用体验,有效分享一次可得100元代金券。每月最佳分享可额外再获500元代金券(根据点赞、评论等真实活跃度;每个账号最多每月各计一次;发布24小时后请找小客服核对验证)


  • 加入用户群:不定时发放特价资源、代金券等优惠活动。


本文来自微信公众号“新智元”


关键词: GPU , AI算力 , H800 , AI芯片 , H100集群
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
微调

【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台,可以对大语言模型(LLM)和多模态图文模型(VLM)进行预训练和轻量级微调。XTuner 支持多种微调算法,如 QLoRA、LoRA 和全量参数微调。

项目地址:https://github.com/InternLM/xtuner