摘要
本申请涉及人工智能,提供一种模型训练方法、文本处理方法及相关设备。模型训练方法包括:调用大语言模型处理训练样本,确定训练样本中的词元被预分配给大语言模型的多个专家网络进行处理的概率;基于词元对应的多个概率,确定多个专家网络的负载;根据多个专家网络的负载及负载阈值,从多个专家网络中确定第一专家网络及第二专家网络;根据词元分配给第二专家网络的概率,确定处理词元的第三专家网络;基于第一专家网络对词元的输出结果及第三专家网络对词元的输出结果,训练大语言模型。上述方法能够在确保大语言模型的训练效果时,解决大语言模型的训练过程中各个专家网络超载的问题。