基于文本-区域匹配的带有缺失标签场景下的多标签图像识别方法
申请号:CN202411529792
申请日期:2024-10-30
公开号:CN119399505A
公开日期:2025-02-07
类型:发明专利
摘要
本发明公开一种基于文本‑区域匹配的带有缺失标签场景下的多标签图像识别方法,使用预训练视觉‑语言模型作为特征提取器,对视觉特征和查询向量进行交叉注意力运算生成区域级显著性图;利用多层感知机生成查询级特征,通过区域级显著性图对视觉特征进行聚合运算生成区域级特征表示;然后进行知识蒸馏过程,将区域级特征表示的知识迁移到查询级特征表示上,还基于多模态对比学习方法,利用记忆块视觉原型和文本原型进行存储以及对比学习,使得相同特定类别特征彼此趋近,不同特定类别特征适当拉远,从而使原模型建立起更好的类内和类间关系,有效地提高了带有缺失标签场景下的多标签图像识别的准确性。
技术关键词
图像识别方法
视觉特征
原型
多层感知机
联合损失函数
代表
注意力
场景
标签生成方法
多模态
蒸馏
文本编码器
特征提取器
学习方法
记忆
参数