摘要
本发明提供一种基于视觉线索与检索增强生成的城市图像地理定位方法,基于图像显性信息的多阶段推理流程,将城市图像地理位置推理任务拆解为多步骤的推理阶段,通过每个步骤的具体任务划分及其输入输出关系逐步缩小定位范围,增强推理的可控性与解释性;其次,本发明针对推理需求设计思维链,针对任务知识需求设计模块化知识库,结合检索增强生成技术,实现高准确率的地理位置推理,并增强模型可解释性;最后,本发明构建支持跨模态检索的模块化知识库,通过地理区域、建筑风格、语言文化等不同划分知识库模块,提升知识检索的效率和准确性。