ChatGPT 人工智能 GPT4 伦理 生成式 医疗 监管 安全 机器学习 深度学习 神经网络 计算机视觉 强化学习 模型 算法 应用 开发 研究 工具 平台 框架 数据集 训练 部署 安全 合规 培训 投资 LLM,llm AI,ai,Ai 大模型 大语言模型 制图 生图 绘图 文生图 文生视频 生成式AI AGI 世界模型 sora chatGPT,chatgpt,ChatGpt claude openai Llama deepseek midjourney 红熊猫模型 Red panda,panda Stable Diffusion,StableDiffusion,stable DALL- E 3 DALL E DALL Flux,flux 扩散模型 混元大模型 文心一言 通义千问 可灵 Pika PixelDance 豆包 月之暗面 零一万物 阶跃星辰 搜索增强 MiniMax Talkie Agent prompt fastai LangChain TTS 微调 提示词 知识库 智能体
# 热门搜索 #
搜索
AI算力提高,高能耗和难散热问题如何突破?
5255点击    2024-04-10 16:42


随着AI技术的广泛应用,从智能手机到自动驾驶汽车,从智能家居到工业自动化,AI供电芯片的需求量正呈爆炸式增长。它不仅为AI系统提供稳定的电力供应,确保系统的正常运行,而且还肩负着节能减排、降低能耗的重任。


然而随着算力需求的提升,AI设备的能耗、散热等问题凸显,这无疑给AI供电芯片带来了新的挑战,如何实现高效率、低功耗、持续稳定的供电成为了业界关注的焦点。


能耗“突飞猛进”:算力比拼加速,能耗日益攀升


算力核心设备由传统的CPU向GPU的转移,不仅提升了计算效率,更使得复杂的数据处理和深度学习模型得以实现。然而,高性能往往伴随着高能耗。在追求更快计算速度的同时,GPU的能耗也在不断上升,给数据中心和服务器带来了巨大的能源压力。荷兰数据科学家Alex de Vries在专注能源研究的学术期刊《Joule》上发表的一项研究显示,按照当前趋势,到2027年,整个人工智能行业每年将消耗85至134太瓦时的电力(1太瓦时=10亿千瓦时)。


散热“力不从心”:高性能AI芯片的烫手难题


高性能的AI芯片在运行过程中会产生大量热量,如果不能及时有效地散热,不仅会影响设备的稳定运行,还可能缩短其使用寿命,制约AI算力的进一步增长。未来,单颗高性能AI芯片的热设计功耗将突破1000W,达到了传统风冷散热的极限。因此,各大公司纷纷投入研发,探索更有效的散热解决方案,例如行业巨头们正在推进的液冷技术等。


可靠性“摇摆不定”:大模型训练,AI芯片一损俱损


AI应用对芯片的性能与可靠性要求非常高。为了完成一个大模型的训练任务,通常需要几千张甚至几万张计算卡进行级联,提供充足的算力。如果有一张卡出了问题,那么整个大模型的训练都会受到影响。如何定位到失效的板卡也是非常费时费力的工作,严重影响训练的效率。


MPS AI电源解决方案的四大突破,助力化解上述难题


MPS深耕计算领域多年,从笔记本、台式机到自动计算平台,再到数据中心服务器,与各大平台都有紧密的合作。随着传统数据中心通过集成AI技术来实现智能化升级,MPS也在快速迭代电源方案,为行业和客户提供高品质、可靠的AI电源解决方案,适用于AI 推理卡、训练卡、边缘计算设备、超算服务器等各类应用场景。


突破一:体量更紧凑、功率密度更高、配电损耗更低


MPS的AI电源方案采用创新设计,体量更紧凑,配电损耗更低,使数据中心在给定机柜范围内的计算能力得以提升。


相比竞争对手的方案,MPS的功率转换技术在主板上占用的空间更小,这样所有处理器能更紧密地结合为一体,在更小的空间内实现更强的计算能力。下图是MPS新型开放式框架电源模块Intelli-Module™的3D概念图,展现了高度集成的数字多相电源模块。



MPS 专注改善数据中心的功率密度,因为数据中心面临着人工智能等新计算应用的更大功率需求。以创新手段提升功率密度意味着减小配电损耗,从而降低数据中心的总运营成本、单次计算输出的总成本以及碳排放。而机柜数量减少后,数据中心的物理占用空间也能最大限度地缩减。


130A、两相、非隔离式降压电源模块MPC22167-130是MPS Intelli-Module™系列的最新产品,它将 DrMOS、电感和其他无源元件集成到单个封装中,不仅占位面积小,功率密度还提高了2.5 倍。而且,它允许将多相稳压器(VR)放置在更靠近处理器的位置,从而减少了配电网络 (PDN) 的损耗(见图4)。



多个 MPC22167-130 器件可与第一级电源模块配合使用,以支持端到端的电源解决方案,同时能够满足AI 处理器的高功率要求。下图展示了采用 MPC22167-130 实现的参考设计示例。




该参考设计可应用于OAM 形态的 AI 处理器,它采用 MPC22167-130 支持 2000A 的最大输出电流 (IOUT),其中第二级方案的设计采用了MPC22167-130 与 数字16 相控制器MP2891的组合方案。


想要获取更多方案信息与技术资源,可扫码免费下载MPS AI电源资料包~



突破二:电源转换效率更高、顶部散热设计兼容液冷


为了解决高功率密度电源模块中的散热问题,MPS多管齐下:一方面优化内部结构和器件设计,提升电源转换效率,降低功耗,同时减少热量产生,确保设备稳定运行;另一方面,将模块做成顶部散热,方便散热器的设计;不仅如此,器件还能兼容液冷的应用,借助液冷增强服务器散热效果,从而进一步发挥电源的极致性能,使单机柜功率大幅提升。



突破三:严密的仿真计算、严格的出厂测试


AI芯片批量的一致性和可靠性是非常重要的,没有多年的经验积累和严格的市场检验,是磨砺不出好的AI电源的。MPS在设计阶段,会通过仿真和理论计算,确定所有器件的工作条件,从而选取合适的电子器件。采用高电流等级、高耐压的电子器件,内部电感为MPS专利设计,饱和电流高。而在研发阶段,MPS则采用不同批次的模块产品进行可靠性实验,出厂前会逐项测试模块电气性能及参数,最后还会进行老化测试及前后参数对比分析。



突破四:实用的仿真工具、专业的技术支持、灵活的供应链管理


MPS能够提供很多好用的前期评估工具,如PDN仿真工具、仿真模型、灵活的GUI等,在前期和后期都能协助客户更方便地进行方案测试,确保精准落地。



同时,MPS的工程师也将全程提供专业的技术支持,帮助客户及时解决实际应用中遇到的难题。另外,MPS采用供应链multi-source管理,提高供应链的灵活性和自主性,优化生产工艺,以保证充足的产能,支撑AI对芯片大规模用量的需求。


MPS 电源方案,助力每一个人工智能(AI)硬件系统!


MPS 的AI电源解决方案提高了数据中心的计算能力,创新型电源架构方法增大了每个机柜的功率密度,减小了服务器的配电损耗,在提升AI算力的同时有效降低能耗,从而助力节省能源和降低运行成本。另外,兼容液冷应用的设计、芯片的一致性与可靠性保障、便捷好用的仿真工具、专业及时的技术支持、灵活自主的供应链等众多优势,也能够让客户在设计方案时更省时、更安心!


想要获取更多方案信息与技术资源,可扫码免费下载MPS AI电源资料包~文章来源公众号“量子位”,作者“允中”。


关键词: AI算力 , GPU , AI设备 , MPS AI