跨语言的实时语音识别拾音方法及系统

申请号：CN202511317719

申请日期：2025-09-16

公开号：CN120833782B

公开日期：2025-11-21

类型：发明专利

摘要

本发明公开了跨语言的实时语音识别拾音方法及系统，涉及语音识别与信号处理技术领域。方法包括：采集语音与VAD数据，结合环境参数进行预加重、分帧及去噪处理。采用线性插值与DTW算法，补偿传输时延。通过声学特征与轻量化CNN网络检测语言，并利用DAN网络将通用特征与语言专属特征映射至统一空间。基于分类噪声类型，动态选择波束形成算法，结合自适应滤波提升信噪比。通过帧级流水线控制延迟，并根据WER、SNR反馈优化拾音参数。通过加权设备状态与处理质量指标评估系统健康度，触发异常处理策略。本系统提升跨语言识别精度与抗噪能力，适用于多语种、高噪声环境下的实时语音交互。

技术关键词

实时语音拾音方法传输时延补偿时序误差多模态并行流水线评估系统健康度噪声分类稳态噪声环形麦克风阵列规划最优路径噪声抑制低资源语言滤波器高噪声环境短时傅里叶变换遗传算法优化