合理选择存储,助推生成式AI应用。
麦肯锡研究报告显示,到2030年前,生成式AI有望为全球经济贡献7万亿美元的价值。
毫无疑问,生成式AI未来会影响到千行百业。正所谓,无数据、不AI。随着生成式AI逐渐进入到垂直行业之中,存储等基础设施的重要性日趋突出。近日,Gartner正式发布《Top Storage Recommendations to Support Generative AI》报告,解读了生成式AI各个阶段对于数据存储的需求,给出了生成式AI的存储选型建议。
大数据在线对该篇报告进行了编译,以下是报告全文:
为了支持GenAI应用,企业的底层存储基础设施需要一定的高级能力。这项研究可帮助基础设施和运营领导者了解这些功能,并为其生成式AI 使用案例选择正确的存储部署类型。
到2028年,四分之三拥有生成式 AI 训练数据的组织将部署单一存储平台来存储数据,这一比例高于 2024 年的 10%。
基础设施和运营 (I&O) 领导者主要从计算性能的角度评估AI和生成式AI应用程序的基础设施。在大多数情况下,组织在架构生成式AI基础设施时,服务器可能需要进行重大更新,从基于 CPU 迁移到基于 GPU,以满足对计算能力的极端需求,特别是在语言模型具有许多参数的情况下。然而,虽然存储是生成式AI堆栈中的关键层,完成模型训练时很容易成为瓶颈,但存储经常被组织所忽视。如果大小不正确,存储可能会减慢 GPU 的整体数据传输以及模型检查点和恢复过程,从而造成GPU速度的降低和关键计算资源的浪费。
没有一种存储部署类型适合所有企业,也没有一个单一的功能列表可以指出生成式AI 应用程序的最佳存储类型。如果选择错误的存储部署类型或忽略生成式AI所需的关键存储功能,那么可能会给组织带来一个高昂的代价。
生成式AI使用的存储需要三组独特的功能:
获得这些能力需要存储现代化,对于在大规模数据上训练新LLMs的企业来说尤其紧迫。目前来看,大多数企业不会采用训练新LLMs这种方法,但仍然需要存储层的高级特性和功能来支持生成式AI应用程序。
大多数组织将采用现有的人工智能模型,或根据其现有业务数据重新训练现有模型,并可选择根据其业务需求添加特定的外部数据。对于在少量数据上使用现有 LLMs 的企业来说,一体化、全栈、生成式AI一体式融合存储解决方案很可能是最佳选择。此类解决方案不仅包括必要的计算、存储和网络基础设施,还包括现成的、经过预训练的LLM。相比之下,如果组织所需的计算和/或存储资源规模未知,并且在将数据存储在公有云中时没有受到任何限制(通常与安全或隐私相关),则可能公有云解决方案会更加合适。
表 1 总结了建议的存储部署选项,具体取决于所涉及的训练数据的大小和性质。
Gartner 研究表明,五种生成式AI部署模型中只有一种需要构建基础模型或从头开始创建 LLM(参见图 1 和如何选择部署生成式AI的方法) 。其余四种类型使用现有的、现成的、预训练的模型,企业使用自己的企业数据(有时用外部数据进行增强)或提示工程和数据检索技术对其进行微调。组织越来越多地考虑将小型语言模型 (SLM) 作为 LLMs 的替代方案,以便快速测试模型并显示其针对特定业务或领域用例的投资回报率。SLM 通常使用不到 1 亿个参数,而 LLMs 使用数十亿个参数。
图 1:生成式 AI 应用的存储部署方法
当主要使用现有数据进行微调时,有两种部署存储的方法:
领导者应该:
第一波大型复杂 GenAI 部署开始需要能够提供高效和高性能的数据存储基础设施。一些 GenAI 工作负载以 PB 级数据量而闻名,这些数据量对于 GenAI 工作流程的各个阶段有不同的性能和操作要求。对于这些工作负载,通常使用数据湖或分布式存储系统(例如 Hadoop 或 Spark)来存储训练数据和中间输出。在训练、微调和推理方面,专门的 GPU 优化的高吞吐量基础设施堆栈至关重要。
存储在此堆栈中发挥着重要作用,存储解决方案的选择取决于人工智能模型的大小。对于较小的型号,本地连接的磁盘存储可能就足够了。但较大的模型通常需要基于对象存储或并行文件系统的共享存储。对于大规模 GenAI 系统,可扩展、高容量和低延迟存储组件的集成对于处理非结构化数据操作时的最佳性能至关重要。
此外,GenAI工作流程的每个阶段都对数据存储提出了独特的要求,如表2所示。
生成式AI工作流阶段对数据存储的影响
大规模 GenAI 部署将通过增加数据量、需要支持不同的数据类型以及需要高效的数据版本控制和生命周期管理来影响非结构化数据存储领域。由于这些过程的资源密集型性质,模型训练和微调阶段对存储和相关基础设施提出了独特的要求。网络和存储基础设施必须适应高吞吐量,同时将数据丢失降至最低。它还必须是可组合的,从而支持 GenAI 工作负载不断变化的需求。此外,GenAI 数据平台必须在 GenAI 工作负载的不同阶段之间实现混合数据管理,以实现数据管道的自动化。最后,GenAI数据平台必须支持高于平常的数据安全标准,以保护敏感数据。
如表 2 所示,“一刀切”的存储基础设施方法不适用于 GenAI 工作负载,因为其工作流程具有异构性。I&O 领导者不仅应该关注用于训练 GenAI 模型的高性能存储,还应该构建端到端工作流程策略,包括跨边缘、公共云和本地存储解决方案提供数据管理功能的能力。
表三概述了您应如何评估存储平台以满足大规模 OpenAI 实施的要求。
大规模生成型AI基础设施的存储选择因素
目前,GenAI 的早期采用者正在与超大规模公共云提供商合作,因为这些提供商可以快速容纳任何规模的试点。超大规模提供商旨在支持整个数据技术堆栈,提供以可用LLMs为中心的GenAI开发服务。此外,亚马逊网络服务和谷歌(谷歌云)等超大规模提供商正在战略性投资于针对数据和存储进行优化的专有芯片和互连,以满足 GenAI 应用程序日益增长的需求。但由于涉及成本、安全性、隐私和专业LLMs的需求等原因,基于超大规模的部署并不适用于所有企业。
为大规模 GenAI 部署构建基础设施的 I&O 领导者应该:
本文来自微信公众号大数据在线,作者:大数据在线
【开源免费】n8n是一个可以自定义工作流的AI项目,它提供了200个工作节点来帮助用户实现工作流的编排。
项目地址:https://github.com/n8n-io/n8n
在线使用:https://n8n.io/(付费)
【开源免费】DB-GPT是一个AI原生数据应用开发框架,它提供开发多模型管理(SMMF)、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL(智能体工作流编排)等多种技术能力,让围绕数据库构建大模型应用更简单、更方便。
项目地址:https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file
【开源免费】VectorVein是一个不需要任何编程基础,任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤,并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。
项目地址:https://github.com/AndersonBY/vector-vein?tab=readme-ov-file
在线使用:https://vectorvein.ai/(付费)
【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台,可以对大语言模型(LLM)和多模态图文模型(VLM)进行预训练和轻量级微调。XTuner 支持多种微调算法,如 QLoRA、LoRA 和全量参数微调。
项目地址:https://github.com/InternLM/xtuner