语音识别大模型的训练方法及装置、存储介质、设备

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
语音识别大模型的训练方法及装置、存储介质、设备
申请号:CN202511461426
申请日期:2025-10-13
公开号:CN121034291A
公开日期:2025-11-28
类型:发明专利
摘要
本公开涉及人工智能技术领域,提供了一种语音识别大模型的训练方法及装置、介质、设备,其中,上述方法包括:获取训练数据集;将训练数据集输入初始大模型,通过其中的流式识别分支对音频样本进行识别处理获得第一候选文本集合;根据第一候选文本集合中的目标候选文本与真实标注文本之间的文本一致性,确定是否激活非流式识别分支以生成第二候选文本集合;根据每个第二候选文本与真实标注文本之间的语义差异以及每个第二候选文本与目标候选文本之间的文本长度差异,对初始大模型进行迭代训练,获得训练好的联合流式和非流式语音识别大模型。本公开能够在提升识别准确率的同时,缓解因二次识别长度变化导致的字幕跳动问题。
技术关键词
文本 流式编码器 大语言模型 分支 决策 语音 编码特征 标记 音频 样本 解码器 语义 投影器 解码架构 模型训练模块 时序 人工智能技术 处理器 编辑