摘要
本发明提供多模态感知的智能麦克风阵列信号处理方法与系统,属于信号处理技术领域,包括:采用多方位视觉传感器获取视觉信号和采用麦克风阵列获取声音信号;提取视觉特征和声学特征;构建视听拓扑特征空间,将视觉特征和声学特征映射至此空间,建立声源概率分布模型;采用多维判别对抗生成网络处理声音信号,分离出目标语音信号;实时评估声学环境状态,动态调整处理参数;对分离出的多路目标语音信号进行质量评估,选择最高质量的语音信号作为输出,视听多模态信息深度融合与协同处理,结合拓扑增强型对抗生成网络架构和环境自适应机制,显著提升了复杂环境下的语音分离效果,在6人同时说话场景下仍能保持85%以上的语音可懂度。