摘要
本发明公开了一种虚假视频信息检测方法、装置、介质和设备,涉及虚假视频信息检测技术领域。本发明在多模态联合表征的基础上,在空域上将提取的多模态情感特征进行粗粒度融合,并对文本语义特征和视觉语义特征进行注意力交互得到交互视觉语义特征,以根据粗粒度融合特征在扩散生成过程中,基于提取的音频情感特征和交互视觉语义特征进行生成引导,从而动态调整视觉与音频信息在增强后的细粒度融合特征中所占权重,使得在空域维度最终聚合特征时可以充分利用待检测视频所提供的多模态信息;在时域上,通过挖掘视频帧间信息,并且基于其长期依赖关系增强提取的时域特征,充分理解长序列信息,检测视频是否被篡改,提高了检测准确率。