语音识别大模型的训练方法及装置、存储介质、设备

申请号：CN202511461426

申请日期：2025-10-13

公开号：CN121034291A

公开日期：2025-11-28

类型：发明专利

摘要

本公开涉及人工智能技术领域，提供了一种语音识别大模型的训练方法及装置、介质、设备，其中，上述方法包括：获取训练数据集；将训练数据集输入初始大模型，通过其中的流式识别分支对音频样本进行识别处理获得第一候选文本集合；根据第一候选文本集合中的目标候选文本与真实标注文本之间的文本一致性，确定是否激活非流式识别分支以生成第二候选文本集合；根据每个第二候选文本与真实标注文本之间的语义差异以及每个第二候选文本与目标候选文本之间的文本长度差异，对初始大模型进行迭代训练，获得训练好的联合流式和非流式语音识别大模型。本公开能够在提升识别准确率的同时，缓解因二次识别长度变化导致的字幕跳动问题。

技术关键词

文本流式编码器大语言模型分支决策语音编码特征标记音频样本解码器语义投影器解码架构模型训练模块时序人工智能技术处理器编辑