一种模型训练和业务执行方法、装置、存储介质及设备

申请号：CN202411628434

申请日期：2024-11-14

公开号：CN119150804B

公开日期：2025-03-18

类型：发明专利

摘要

本说明书公开了一种模型训练和业务执行方法、装置、存储介质及设备。所述模型训练方法包括：根据预设的数据并行维度和序列并行维度将样本数据切分为多个子样本，并将各子样本分配到不同的图形处理器GPU上；针对每个GPU，在将分配到该GPU上的子样本输入部署在该GPU上的目标模型后，确定目标模型中的每一个子层所对应的激活值并存储，其中，针对每个子层，若该子层对应的层级小于指定层级，则将该子层对应的激活值存储到中央处理器CPU中，并在该GPU中将该子层对应的激活值进行删除；确定目标模型的损失值，并根据损失值以及每个子层所对应的激活值，对目标模型进行训练。本方案有效提高了模型的训练效率和GPU的利用率。

技术关键词

网络模块层级业务执行方法图形处理器中央处理器注意力模型训练方法归一化模块投影模块样本编码模块模型训练装置数据通信序列多层感知机键值输入模块