一种多语言大模型训练方法、装置及相关设备

申请号：CN202411739943

申请日期：2024-11-29

公开号：CN119670847A

公开日期：2025-03-21

类型：发明专利

摘要

本发明公开了一种多语言大模型训练方法、装置及相关设备，所述方法包括：获取平行语料数据，并基于子任务类型对其进行格式转换，得到与多个子任务类型对应的数据格式；将平行语料数据和数据格式输入初始多语言大模型，该模型包括子网络层，子网络层与子任务类型一一对应；计算每个子网络层的损失τ；根据每个子网络层的损失τ，计算全局损失L；利用该L对模型进行更新，得到更新后的多语言大模型。采用本发明可以提高平行语料数据的利用效率，并在不影响多语言大模型的能力的基础上提高其对低资源语种的理解能力。

技术关键词

平行语料数据多语言数据格式模型训练方法跨语言信息检索命名实体识别模型训练装置可读存储介质机器翻译处理器计算机设备模块存储器算法参数矩阵元素资源

系统为您推荐了相关专利信息

一种代码审查方法、系统、设备、存储介质及程序产品

余弦定理语义计算机程序指令仓库计算机程序产品

模型训练方法、立场检测方法及立场检测装置、存储介质

模型训练方法节点特征计算机存储介质生成知识条件依赖关系

一种面向资源占用不确定性下的机场时刻容量评估方法

容量评估方法时刻表日期典型异常数据点

问答信息的生成及多模态大模型训练方法和装置

前馈神经网络多模态图像编码器转换文本视觉特征

基于优化三元组损失的语种识别模型训练方法及识别方法、系统

模型训练方法样本语种识别系统语种识别方法三元组损失函数