一种面向实时语音交互的多人语音分离与识别系统及方法

申请号：CN202511226556

申请日期：2025-08-29

公开号：CN120823844A

公开日期：2025-10-21

类型：发明专利

摘要

本发明公开了一种面向实时语音交互的多人语音分离与识别系统及方法，属于语音信号处理技术领域。技术原理包括：通过音频采集模块分割流式语音并存入循环队列；预处理模块转换为标准wav文件；语音分离模块采用SepFormer模型分离说话人轨迹；语音识别模块通过Paraformer模型对语音执行端到端转写；结果管理模块绑定说话人编号与文本后结构化输出。多线程异步架构使采集、分离、识别并行处理，结合循环队列实现低延迟；SepFormer与Paraformer协同提升重叠语音分离精度及识别准确率；支持JSON/数据库多格式输出，满足实时会议、智能设备交互需求。

技术关键词

实时语音音频采集模块语音识别模块识别系统自动语音识别队列语音信号处理技术格式采集工具识别方法智能设备交互解码器多线程轨道采样率文本编码器特征