融合声音和脑电信号的目标人物语音提取方法、装置

申请号：CN202411518863

申请日期：2024-10-29

公开号：CN119049495B

公开日期：2025-01-28

类型：发明专利

摘要

本发明属于语音处理技术领域，具体涉及一种融合声音和脑电信号的目标人物语音提取方法、系统和设备。该方法设计了一个包含脑电编码器、语音编码器、分离网络和语音解码器的语音分离模型，并利用训练好的语音分离模型执行目标人物的语音提取任务。其中，脑电编码器中包括一维卷积层和基于KAN的注意力层。语音编码器中包括一维卷积层和双向Mamba层。分离网络采用交叉注意力模块对提取出的语音特征和脑电特征进行特征融合，并对得到的融合特征进行解析得到目标人物语音的特征掩码。语音解码器利用特征掩码和语音特征重建出目标人物的纯净语音。本发明解决现有方案难以有效捕捉深层脑电特征和全局语音特征，重建出的目标人物语音的精度较差的问题。

技术关键词

语音提取方法语音特征电信号语音解码器语音编码器注意力融合特征脑电特征音频状态空间模型网络信号接收模块采样率信号失真样本卷积模块