一种面向实时语音交互的多人语音分离与识别系统及方法
申请号:CN202511226556
申请日期:2025-08-29
公开号:CN120823844A
公开日期:2025-10-21
类型:发明专利
摘要
本发明公开了一种面向实时语音交互的多人语音分离与识别系统及方法,属于语音信号处理技术领域。技术原理包括:通过音频采集模块分割流式语音并存入循环队列;预处理模块转换为标准wav文件;语音分离模块采用SepFormer模型分离说话人轨迹;语音识别模块通过Paraformer模型对语音执行端到端转写;结果管理模块绑定说话人编号与文本后结构化输出。多线程异步架构使采集、分离、识别并行处理,结合循环队列实现低延迟;SepFormer与Paraformer协同提升重叠语音分离精度及识别准确率;支持JSON/数据库多格式输出,满足实时会议、智能设备交互需求。
技术关键词
实时语音
音频采集模块
语音识别模块
识别系统
自动语音识别
队列
语音信号处理技术
格式
采集工具
识别方法
智能设备交互
解码器
多线程
轨道
采样率
文本
编码器特征