# 热门搜索 #
搜索
老黄不止卖铲子了:英伟达配合Llama3.1推出定制模型、推理服务
6979点击    2024-07-27 19:59

芯片巨头英伟达,在AI时代一直被类比为在淘金热中“卖铲子”的背后赢家。



现在他不装了,也要亲自下场“挖金矿”


配合最强开源大模型Llama3.1,推出NVIDIA AI Foundry和NVIDIA NIM推理微服务两大新业务。


Foundry在芯片行业指“铸造厂”,比如台积电制造其他公司设计的芯片。


NVIDIA AI Foundry,代表英伟达可以定制化制造大模型了:


NVIDIA AI Foundry 提供从数据策管、合成数据生成、微调、检索、防护到评估的全方位生成式AI模型服务。


NVIDIA NIM在年初的GTC大会上首次亮相,使用几行代码就可以在云、数据中心、工作站和PC上部署AI模型。


现在则又新加一个标签:将Llama 3.1模型部署到生产中的最快途径,吞吐量最多可比不使用NIM运行推理时高出2.5倍



为什么在这个时间点出手?


黄仁勋表示:“Meta的Llama 3.1开源模型标志着全球企业采用生成式 AI 的关键时刻已经到来”


企业可以将Llama 3.1 NIM 微服务与与全新NVIDIA NeMo Retriever NIM微服务组合使用,为AI copilot、助手和数字人虚拟形象搭建先进的检索工作流。


NVIDIA和Meta还一起为Llama 3.1提供了一种提炼方法,供开发者为生成式AI应用创建更小的自定义Llama 3.1模型。这使企业能够在更多加速基础设施(如 AI 工作站和笔记本电脑)上运行由Llama驱动的AI应用。


之前老黄与小扎见面,交换皮衣穿,原来是商量这些合作去了(手动狗头)。



自定义模型+加速部署全流程服务


Llama 3.1系列模型发布还没几天,手快的企业已经用在生产中了。


Aramco、AT&T和优步,成为首批使用面向Llama 3.1全新NVIDIA NIM微服务的公司。


咨询巨头埃森哲更进一步,借助NVIDIA AI Foundry为自己以及咨询客户创建自定义Llama 3.1 模型,


从自定义模型到加速部署,被英伟达打造进了同一套流程。



企业自有数据,可使用NeMo Curator开源Python库完成快速且可扩展的数据集准备和大模型用例的管理,包括基础模型预训练、领域自适应预训练 (DAPT)、监督微调 (SFT) 和参数高效微调 (PEFT)。


接下来使用NeMo Customizer简化大模型的微调和对齐。最初支持两种流行的参数高效微调技术:LoRA和P-Tuning。未来还将添加对完全对齐技术的支持,包括监督式微调(SFT)、从人类反馈中进行强化学习(RLHF)、直接偏好优化(DPO)以及NVIDIA SteerLM等。


Nemo Evaluator支持多种学术基准的自动评估,能够对自定义数据集进行评估,同时也支持支持使用大模型作为评委(LLM-as-a-Judge)对模型响应进行自动评估。


NeMo Guardrails使开发者能够构建三种边界:


  • 主题护栏防止应用偏离进非目标领域,例如防止客服助理回答关于天气的问题。


  • 功能安全护栏确保应用能够以准确、恰当的信息作出回复。它们能过滤掉不希望使用的语言,并强制要求模型只引用可靠的来源。


  • 信息安全护栏限制应用只与已确认安全的外部第三方应用建立连接。


在创建了自定义模型后,企业就可以构建NVIDIA NIM推理微服务,在其首选的云平台,使用自己选择的最佳机器学习运维(MLOps)和人工智能运维(AIOps)平台在生产中运行这些模型。


合成数据趋势爆发


像Llama 3.1 405B和和英伟达Nemotron-4 340B这样超过千亿参数的大模型,用在绝大多数场景在成本和速度上都不会令人满意。


英伟达和Meta都意识到,用于生产合成数据,将是他们发挥作用的最大场景。


英伟达Nemotron-4 340B系列包括基础、指导和奖励模型,这些模型形成一个管道,用于生成用于训练和优化LLMs的合成数据,并且使用了独特宽松的开放模型许可证,为开发人员提供了一种免费、可扩展的方式来生成合成数据


Llama 3.1更新的开源协议这次也特别声明:允许使用Llama生产的数据去改进其他模型,只不过用了之后模型名称开头必须加上Llama字样。



参考链接:


[1]https://nvidianews.nvidia.com/news/nvidia-ai-foundry-custom-llama-generative-models


[2]https://blogs.nvidia.com/blog/nemotron-4-synthetic-data-generation-llm-training/


文章来源于:微信公众号量子位


关键词: Llama3.1 , AI , AI硬件 , AI芯片 , 算力
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
AI工作流

【开源免费】n8n是一个可以自定义工作流的AI项目,它提供了200个工作节点来帮助用户实现工作流的编排。

项目地址:https://github.com/n8n-io/n8n

在线使用:https://n8n.io/(付费)


【开源免费】DB-GPT是一个AI原生数据应用开发框架,它提供开发多模型管理(SMMF)、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL(智能体工作流编排)等多种技术能力,让围绕数据库构建大模型应用更简单、更方便。

项目地址:https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file



【开源免费】VectorVein是一个不需要任何编程基础,任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤,并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。

项目地址:https://github.com/AndersonBY/vector-vein?tab=readme-ov-file

在线使用:https://vectorvein.ai/(付费)

2
数字人

【开源免费】Fay开源数字人框架是一个AI数字人项目,该项目可以帮你实现“线上线下的数字人销售员”,

“一个人机交互的数字人助理”或者是一个一个可以自主决策、主动联系管理员的智能体数字人。

项目地址:https://github.com/xszyou/Fay

3
微调

【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台,可以对大语言模型(LLM)和多模态图文模型(VLM)进行预训练和轻量级微调。XTuner 支持多种微调算法,如 QLoRA、LoRA 和全量参数微调。

项目地址:https://github.com/InternLM/xtuner