摘要
本发明属于人工智能与多模态信息处理技术领域,公开一种基于语义一致性的开放词汇视听分割方法。通过设计音频语义增强模块显式增强音频语义辨别能力,提升模型跨模态对齐与语义识别准确度,增强了视听语义分割的鲁棒性与精度。提出对称式跨模态注意力引导模块和层级模态融合解码器。通过精细化的跨模态交互与多模态解码,充分挖掘视听信息中的时空语义,促进视听特征在空间与时间维度上聚集,确保发声物体的精确定位与分类。通过联合使用CLIP与CLAP,并基于共享的真实标签对齐视听特征,本发明不仅增强了已知类别发声物体的分割性能,还通过预训练基础模型的知识,显著提升未知类别的分割与分类能力以及模型在开放词汇场景下的泛化能力。