基于软标签的噪声鲁棒文本到图像行人检索方法及装置

申请号：CN202511277863

申请日期：2025-09-09

公开号：CN120780854B

公开日期：2025-12-26

类型：发明专利

摘要

本申请提供一种基于软标签的噪声鲁棒文本到图像行人检索方法及装置。该方法包括：基于图像全局特征与文本全局特征计算余弦相似度，并对余弦相似度进行归一化，生成表征图文配对置信度的软标签；根据软标签为每一训练样本分配样本权重，并结合随训练进程递增的动态权重因子，得到用于当前迭代的联合权重；利用联合权重分别构建跨模态对比学习损失与相似性分布匹配损失，并将跨模态对比学习损失与相似性分布匹配损失加权求和，得到总损失函数；利用总损失函数更新图像编码器和文本编码器的参数直至训练收敛，获得跨模态对齐模型。本申请能够实现鲁棒跨模态对齐，提高噪声场景下行人检索准确率。

技术关键词

文本编码器图像编码器图像全局特征行人特征查询特征跨模态噪声鲁棒图像行人标签检索方法图像块标记梯度下降优化算法图文序列参数因子动态