一种融合跨模态语义信息的视频摘要方法

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
一种融合跨模态语义信息的视频摘要方法
申请号:CN202510248933
申请日期:2025-03-04
公开号:CN120126056B
公开日期:2025-08-12
类型:发明专利
摘要
本发明公开了一种融合跨模态语义信息的视频摘要方法,属于计算机视觉技术领域。所述方法首先从输入视频中提取图像帧序列和运动帧序列,然后利用跨模态特征提取网络分别提取静态特征和动态特征。接着,通过时空卷积关联注意力机制处理帧特征,生成反映帧特征时空重要性的注意力图,同时捕捉帧内空间信息和帧间时间信息。此外,引入跨模态动态融合模块和语义一致性校正器,以优化视频摘要生成过程,减少噪声干扰,提升摘要质量。最后,构建目标函数,通过无监督或监督学习训练视频摘要生成模型,根据预测的重要性分数生成动态视频摘要。所述方法综合利用视频中的静态和动态特征,提高了摘要的语义准确性和内容连贯性。
技术关键词
视频摘要方法 跨模态 静态特征 动态 特征提取网络 RGB特征 注意力机制 语义特征 校正器 生成视频摘要 计算机视觉技术 衰减方法 光流特征 运动特征