一种混合专家模型的训练方法、装置、设备及介质

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
一种混合专家模型的训练方法、装置、设备及介质
申请号:CN202511433405
申请日期:2025-10-09
公开号:CN120911554A
公开日期:2025-11-07
类型:发明专利
摘要
本发明涉及大语言模型技术领域,具体是涉及一种混合专家模型的训练方法、装置、设备及介质。本发明每次迭代过程中,本地节点会产生用于激活远程节点群上的子网络的原始激活值,本发明压缩原始激活值,得到压缩激活值,之后本地节点将压缩激活值发送至远程节点群。每次迭代之后,本地节点生成模型原始梯度并压缩该梯度,以得到压缩梯度,再把压缩梯度发送至远程节点群,远程节点群基于压缩激活值和压缩梯度继续迭代训练混合专家模型。本发明在本地节点和远程节点群之间通信的是压缩梯度和压缩激活值,而不是模型原始梯度和原始激活值,压缩梯度和压缩激活值相对模型原始梯度和原始激活值减少了通信的数量,从而提高了混合专家模型的训练速度。
技术关键词
节点 数据格式 可读存储介质 终端设备 大语言模型 处理器 训练装置 程序 元素 网络 文本 存储器 计算机 因子 模块 机制 速度