横向混合注意力机制的模型训练方法、介质、设备及程序产品

申请号：CN202511159707

申请日期：2025-08-19

公开号：CN121031665A

公开日期：2025-11-28

类型：发明专利

摘要

本申请提供一种横向混合注意力机制的模型训练方法、介质、设备及程序产品，方法包括：获取包含多个样本序列的数据集，数据集中的每个样本序列由经分词处理得到的多个Token顺序排列组成；基于预训练的全注意力模型构建待训练模型，并增加用于线性注意力计算的新增参数；在同一横向混合注意力层中，对位于预设全注意力计算范围内的Token集合执行全注意力计算，对全部Token执行线性注意力计算，并融合两者结果，得到用于前向推理和损失计算的横向混合注意力输出；基于所述输出及预测结果，仅更新新增参数优化待训练模型，直至待训练模型收敛。本申请降低了长文本序列处理的计算复杂度与显存占用，提高了推理速度与资源利用率。

技术关键词

模型训练方法注意力模型注意力机制性能预测模型计算机程序指令序列线性性能监测数据参数样本计算机程序产品处理器精度电子设备分词标签蒸馏