一种基于多模态融合的自然语言视频时刻检索方法

申请号：CN202511508968

申请日期：2025-10-22

公开号：CN120994873A

公开日期：2025-11-21

类型：发明专利

摘要

本发明公开了一种基于多模态融合的自然语言视频时刻检索方法，属于数据识别技术领域，包括步骤：获取用于自然语言视频时刻定位的数据集；构造一通道感知的多尺度时序建模模块MD1；获取一文本编码器；构造一多头解耦式跨模态特征融合模块MD2，构造语义调制门控卷积模块MD3；基于MD1、MD2、文本编码器、MD3构造自然语言时刻检索网络并训练为自然语言时刻检索模型；用于待测视频的自然语言时刻检测。本发明通过MD1能显著增强与查询语义相关的视觉特征响应，通过MD2在多个语义子空间实现跨模态细粒度整合，通过MD3确保候选片段评分高度依赖查询语义，能显著提升定位精度与鲁棒性。

技术关键词

自然语言检索方法文本编码器视频多模态注意力卷积模块模态特征矩阵语义数据识别技术时序特征通道输出特征融合特征全局平均池化动态门控网络