基于对比语言图像预训练多模态特征融合的监控视频异常事件检测方法及系统

申请号：CN202511114587

申请日期：2025-08-11

公开号：CN120953888A

公开日期：2025-11-14

类型：发明专利

摘要

本发明公开了基于对比语言图像预训练多模态特征融合的监控视频异常事件检测方法及系统，所述方法包括：基于CLIP模型将文本特征和图像特征映射到同一个特征空间的特性，将异常描述的文本特征与其在视频中更加相似的异常片段特征进行有效地跨模态融合。利用大语言模型产生的一些正常和异常文本描述语句，利用CLIP的文本编码器映射到与图像同一的特征空间中，随机选择文本描述，构建一个具有片段级别精确标注的伪视频序列，输入到原模型，有效地提升模型对于异常片段的定位能力。最后使用一种基于文本类别标签的视频级别特征模糊分类策略，产生每个视频对于所有文本类别的视频级别特征，输入到原模型中，对视频级别特征进行模糊分类。

技术关键词

多模态特征融合编码特征分类神经网络预训练模型图像编码器视频特征提取文本编码器序列大语言模型融合特征视频帧适配器多层感知机分类网络