摘要
本发明属于图像处理技术领域,具体为基于伪标签的无监督视觉定位系统。本发明包括区域提议生成模块、区域描述生成模块、查询构建模块;区域提议生成模块通过预训练的目标检测器识别图像中可能存在的实体区域、类别及其置信度,通过类别偏置消除器解决置信度在类别分布的不均匀问题;区域描述生成模块利用多模态大语言模型的跨模态知识生成区域提议的描述,通过描述矫正器修正错误描述;查询构建模块通过修饰树和提示语模板构建查询。本发明利用预训练的目标检测器和多模态大语言模型蕴含的跨模态知识,构建开放词汇的视觉定位伪标签,可显著提升视觉定位的准确率。