基于声学特征Logit分布动态边界与时序建模的语音识别方法
申请号:CN202510888892
申请日期:2025-06-30
公开号:CN120472889A
公开日期:2025-08-12
类型:发明专利
摘要
本发明公开了基于声学特征Logit分布动态边界与时序建模的语音识别方法,包括:步骤1,构建语音识别训练所需的数据集,将数据集划分为训练集、验证集和测试集;步骤2,对音频文件和标注进行数据清洗;步骤3,统计数据集中的标注生成词表;步骤4,构建语音识别模型;步骤5,使用训练集对步骤4构建的语音识别模型进行训练,训练结束后使用验证集评估语音识别模型训练过程中的性能变化;步骤6,将测试集输入到训练好的语音识别模型中进行测试。本发明利用编码器得到声学特征的Logit分布变化更为精确的实现token级别的对齐,通过长短时记忆网络时序建模优势融合特征,减少空白语音、长停顿对语音识别的影响。
技术关键词
语音识别方法
声学特征
构建语音识别模型
语音识别训练
融合特征
时序
音频文件采样率
编码器
动态
词典
多头注意力机制
数据
优化器
标记
训练集
频谱特征
音频特征