摘要
本申请提供一种基于掩码去噪的文本到图像行人检索方法、装置及介质。该方法包括:按照设定概率对实体词和属性词分别执行掩码及同类词随机替换,生成经掩码替换的训练文本;将文本特征向量与图像特征向量输入跨模态交互编码器,得到融合特征表示;基于融合特征表示对被掩码位置的原始词语进行预测,计算掩码预测损失;基于文本特征向量与图像特征向量之间的相似度关系计算图文对比学习损失;利用行人检索模型对查询文本与待检索行人图像库分别提取特征,计算查询文本特征与各待检索行人图像特征的相似度并生成排序结果,以输出与查询文本匹配的目标行人图像。本申请能够提高噪声场景下的视觉语义对齐的鲁棒性,显著提升行人检索准确率。