横向混合注意力机制的模型训练方法、介质、设备及程序产品
申请号:CN202511159707
申请日期:2025-08-19
公开号:CN121031665A
公开日期:2025-11-28
类型:发明专利
摘要
本申请提供一种横向混合注意力机制的模型训练方法、介质、设备及程序产品,方法包括:获取包含多个样本序列的数据集,数据集中的每个样本序列由经分词处理得到的多个Token顺序排列组成;基于预训练的全注意力模型构建待训练模型,并增加用于线性注意力计算的新增参数;在同一横向混合注意力层中,对位于预设全注意力计算范围内的Token集合执行全注意力计算,对全部Token执行线性注意力计算,并融合两者结果,得到用于前向推理和损失计算的横向混合注意力输出;基于所述输出及预测结果,仅更新新增参数优化待训练模型,直至待训练模型收敛。本申请降低了长文本序列处理的计算复杂度与显存占用,提高了推理速度与资源利用率。
技术关键词
模型训练方法
注意力模型
注意力机制
性能预测模型
计算机程序指令
序列
线性
性能监测数据
参数
样本
计算机程序产品
处理器
精度
电子设备
分词
标签
蒸馏