模型训练方法、文本处理方法及相关设备

申请号：CN202510279888

申请日期：2025-03-07

公开号：CN120687816A

公开日期：2025-09-23

类型：发明专利

摘要

本申请涉及人工智能，提供一种模型训练方法、文本处理方法及相关设备。模型训练方法包括：调用大语言模型处理训练样本，确定训练样本中的词元被预分配给大语言模型的多个专家网络进行处理的概率；基于词元对应的多个概率，确定多个专家网络的负载；根据多个专家网络的负载及负载阈值，从多个专家网络中确定第一专家网络及第二专家网络；根据词元分配给第二专家网络的概率，确定处理词元的第三专家网络；基于第一专家网络对词元的输出结果及第三专家网络对词元的输出结果，训练大语言模型。上述方法能够在确保大语言模型的训练效果时，解决大语言模型的训练过程中各个专家网络超载的问题。

技术关键词

模型训练方法大语言模型网络文本处理方法计算机程序产品处理器编码向量存储器电子设备参数