基于声学模型的语音识别方法、计算机设备和存储介质

申请号：CN202511286713

申请日期：2025-09-10

公开号：CN120783731B

公开日期：2025-11-25

类型：发明专利

摘要

本发明属于声音识别领域，公开了一种基于声学模型的语音识别方法、计算机设备和存储介质。方法包括：获取待识别语音的语音特征；将语音特征输入声学模型，由模型输出识别结果；其中，时序处理网络层通过预训练的门控融合单元，先确定当前输入需预看未来帧占上下文信息的比值，再基于该比值计算预看未来帧数量并获取对应未来帧，结合未来帧计算长时上下文表示，处理后输出给下一层网络。本发明通过动态调整预看未来帧数量，解决了现有技术中延迟与准确率静态绑定的问题，对简单命令词实现低延迟响应，对易混淆指令通过多预看未来帧提升识别准确率，实现延迟与准确率的平衡，提升了语音识别系统性能与用户体验。

技术关键词

语音识别方法辅助分类器语音特征时序联合损失函数计算机设备语音识别系统置信度阈值网络处理器低延迟可读存储介质存储器记忆命令序列动态