一种融合跨模态语义信息的视频摘要方法

申请号：CN202510248933

申请日期：2025-03-04

公开号：CN120126056B

公开日期：2025-08-12

类型：发明专利

摘要

本发明公开了一种融合跨模态语义信息的视频摘要方法，属于计算机视觉技术领域。所述方法首先从输入视频中提取图像帧序列和运动帧序列，然后利用跨模态特征提取网络分别提取静态特征和动态特征。接着，通过时空卷积关联注意力机制处理帧特征，生成反映帧特征时空重要性的注意力图，同时捕捉帧内空间信息和帧间时间信息。此外，引入跨模态动态融合模块和语义一致性校正器，以优化视频摘要生成过程，减少噪声干扰，提升摘要质量。最后，构建目标函数，通过无监督或监督学习训练视频摘要生成模型，根据预测的重要性分数生成动态视频摘要。所述方法综合利用视频中的静态和动态特征，提高了摘要的语义准确性和内容连贯性。

技术关键词

视频摘要方法跨模态静态特征动态特征提取网络 RGB特征注意力机制语义特征校正器生成视频摘要计算机视觉技术衰减方法光流特征运动特征