摘要
本发明公开了一种基于异构图的多模态教学视频摘要生成方法,包括:获取若干个视频样本形成训练集;建立多模态摘要生成模型并利用训练集训练,模型执行如下操作:分别将视频帧序列和句子序列输入视觉特征提取模型和语言模型,得到视觉特征向量集合和文本特征向量集合形成多模态特征表示;初始化邻接矩阵;将模态内约束矩阵、模态间约束矩阵、邻接矩阵进行哈达玛积,获得优化异构图;执行双阶段融合策略;利用训练好的多模态摘要生成模型输出的多模态统一表示筛选关键视频帧节点集合和关键句子节点集合,并对应保留在优化异构图内的连接关系作为子邻接矩阵,获得多模态摘要图。该方法可生成语义一致、内容丰富的教学视频摘要,泛化能力强。