一种基于多模态融合的自然语言视频时刻检索方法

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
一种基于多模态融合的自然语言视频时刻检索方法
申请号:CN202511508968
申请日期:2025-10-22
公开号:CN120994873A
公开日期:2025-11-21
类型:发明专利
摘要
本发明公开了一种基于多模态融合的自然语言视频时刻检索方法,属于数据识别技术领域,包括步骤:获取用于自然语言视频时刻定位的数据集;构造一通道感知的多尺度时序建模模块MD1;获取一文本编码器;构造一多头解耦式跨模态特征融合模块MD2,构造语义调制门控卷积模块MD3;基于MD1、MD2、文本编码器、MD3构造自然语言时刻检索网络并训练为自然语言时刻检索模型;用于待测视频的自然语言时刻检测。本发明通过MD1能显著增强与查询语义相关的视觉特征响应,通过MD2在多个语义子空间实现跨模态细粒度整合,通过MD3确保候选片段评分高度依赖查询语义,能显著提升定位精度与鲁棒性。
技术关键词
自然语言 检索方法 文本编码器 视频 多模态 注意力 卷积模块 模态特征 矩阵 语义 数据识别技术 时序特征 通道 输出特征 融合特征 全局平均池化 动态门控 网络