摘要
本发明公开了一种融合跨模态语义信息的视频摘要方法,属于计算机视觉技术领域。所述方法首先从输入视频中提取图像帧序列和运动帧序列,然后利用跨模态特征提取网络分别提取静态特征和动态特征。接着,通过时空卷积关联注意力机制处理帧特征,生成反映帧特征时空重要性的注意力图,同时捕捉帧内空间信息和帧间时间信息。此外,引入跨模态动态融合模块和语义一致性校正器,以优化视频摘要生成过程,减少噪声干扰,提升摘要质量。最后,构建目标函数,通过无监督或监督学习训练视频摘要生成模型,根据预测的重要性分数生成动态视频摘要。所述方法综合利用视频中的静态和动态特征,提高了摘要的语义准确性和内容连贯性。