摘要
本申请提供一种基于软标签的噪声鲁棒文本到图像行人检索方法及装置。该方法包括:基于图像全局特征与文本全局特征计算余弦相似度,并对余弦相似度进行归一化,生成表征图文配对置信度的软标签;根据软标签为每一训练样本分配样本权重,并结合随训练进程递增的动态权重因子,得到用于当前迭代的联合权重;利用联合权重分别构建跨模态对比学习损失与相似性分布匹配损失,并将跨模态对比学习损失与相似性分布匹配损失加权求和,得到总损失函数;利用总损失函数更新图像编码器和文本编码器的参数直至训练收敛,获得跨模态对齐模型。本申请能够实现鲁棒跨模态对齐,提高噪声场景下行人检索准确率。