一种多发言者识别方法、装置、设备及存储介质

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
一种多发言者识别方法、装置、设备及存储介质
申请号:CN202510874842
申请日期:2025-06-27
公开号:CN120656451A
公开日期:2025-09-16
类型:发明专利
摘要
本申请公开了一种多发言者识别方法、装置、设备及存储介质,涉及语音处理技术领域,包括:基于多通道麦克风阵列和预设声源定位算法确定当前声源信息对应的空间状态序列,并利用预设门控机制对当前声源进行语音段落的分割,利用预设稳定窗口重检测机制对得到的初始语音段落边界进行优化,确定优化后语音段落边界对应的稳定性指标和置信度权重;利用置信度权重确定优化后语音段落边界对应的优化后语音段落的声纹特征向量之间的匹配相似度,若匹配相似度满足预设切换条件,则终止对当前发言者对应的当前语音段落的识别操作,并启动新发言者对应的新语音段落的识别操作,以得到多发言者识别结果。提升多发言者识别在复杂环境中的鲁棒性与准确率。
技术关键词
发言者 声源定位算法 语音 方位角 重检测机制 识别方法 滑动窗口技术 麦克风阵列 门控阈值 多通道 序列 音频 指标 时间段 回声消除 时间差 信号 识别装置 发声