面向异构集群的大模型模块级训练策略优化方法、装置及计算机设备
申请号:CN202511367686
申请日期:2025-09-24
公开号:CN120874971A
公开日期:2025-10-31
类型:发明专利
摘要
本申请涉及一种面向异构集群的大模型模块级训练策略优化方法、装置及计算机设备,其中,该方法包括:获取面向异构集群的大模型模块级的计算信息和算子级的通讯信息;计算信息包括不同数据规模下的模块在不同分布式策略下和不同芯片上的计算时间信息和模块显存信息;通讯信息为不同数据规模下通讯算子的通讯时延;基于模块显存信息,确定每个流水线的初始分布式训练策略;基于计算时间信息和通讯信息,确定流水线不同阶段的计算时间;根据计算时间和承载大模型设备的显存阈值,对每个初始分布式训练策略进行优化,得到目标分布式训练策略。通过本申请,解决了面向异构集群的大模型资源利用率较低的问题。
技术关键词
面向异构集群
分布式训练
策略优化方法
流水线
模型设备
分布式策略
通讯
负载均衡模块
阶段
策略优化装置
计算机设备
规模
时延
数据
芯片
加速器