摘要
本发明提供一种基于LLM推理和集成的图像检索方法及装置,该方法包括:对参考图像对应的密集字幕进行LLM推理,得到编辑字幕;从图像数据集中提取出视觉特征,从密集字幕中提取出参考字幕特征,从编辑字幕中提取出编辑字幕特征;计算参考字幕特征、编辑字幕特征和视觉特征之间的多个特征相似度;根据多个特征相似度之间的相似度减少量计算出集成字幕特征,并根据视觉特征和集成字幕特征之间的相似度从图像数据集搜索出目标检索图像。本发明所述方法实现了在编辑字幕中整合互补信息并过滤掉噪声,结合语义相关性得分来计算集成字幕特征权重设计图像检索特征,提升了特征的表征能力,进而提高了图像检索的准确率。