一种基于时序对齐和语义增强的多模态视频摘要生成方法

申请号：CN202411730016

申请日期：2024-11-29

公开号：CN119202313B

公开日期：2025-03-28

类型：发明专利

摘要

本发明属于计算机视觉技术领域，涉及一种基于时序对齐和语义增强的多模态视频摘要生成方法，设计了基于时序对齐和语义增强的多模态视频摘要生成模型，根据视频数据输出相应的视频摘要；该模型包括特征提取模块、双尺度注意力模块和视频摘要生成模块，其中，特征提取模块用于提取视觉特征和文本特征，双尺度注意力模块包括条件自注意力网络和协作交互跨模态注意力网络，分别在局部和全局两个尺度上对视觉特征和文本特征进行对齐和融合；该模型利用反向传播算法进行训练，在损失函数中引入了分类损失、基于不同尺度的动态时间规整损失和语义增强铰链损失。与现有技术相比，本发明可以进一步提高视频摘要的生成效果。

技术关键词

视频摘要生成方法动态时间规整语义视觉特征文本时序特征提取模块矩阵跨模态传播算法注意力机制截断奇异值网络计算机视觉技术铰链预训练模型