摘要
本发明公开了一种基于空间关系的杆塔归集方法及其系统。该方法包括:生成普朗克坐标编码,将普朗克坐标编码与原始图像融合,形成多通道图像;对多通道图像进行特征提取,将原始图像的Patch编码与线性映射后的普朗克坐标编码相加,并进行预训练以提取高阶语义特征;从特征图中提取目标区域特征并融合位置信息;通过交替执行全局注意力与单图注意力对目标区域特征建模,以学习目标间关系并生成高级特征;基于高级特征计算目标区域相似度,并通过相似度判断目标区域归属,实现杆塔匹配与去重。本发明有效建模多视角图像中目标之间的关系,提高了在复杂场景下的目标匹配准确性,模型可推断被遮挡目标的潜在位置,弥补单视角盲区,单图信息完整性提升。