一种基于双向语义对齐的跨模态行人检索方法

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
一种基于双向语义对齐的跨模态行人检索方法
申请号:CN202410885658
申请日期:2024-07-03
公开号:CN118861340A
公开日期:2024-10-29
类型:发明专利
摘要
本发明公开了一种基于双向语义对齐的跨模态行人检索方法,属于计算机视觉技术领域。本发明通过深入分析文本和图像之间的中层语义,为缩小在全局匹配方法中所忽略的细粒度语义层面差距,提供更为丰富的语义理解;通过引入一种双向特征预测机制,即通过使用不完整的图像特征与完整的文本特征(或者完整的图像特征与不完整的文本特征)相结合,以预测并重构缺失的信息,实现更准确的文本‑图像跨模态对齐;在一个扩展的特征空间内,无缝集成来自文本和图像的多维语义和结构属性,以捕捉更细微的视觉细节和更深层的语义内容;提高了基于文本的图像检索任务的匹配精度和效率,使之能够在各种复杂的环境和条件下,有效识别和检索行人图像。
技术关键词
行人检索方法 文本特征向量 图像特征向量 预测编码器 文本编码器 图像编码器 全局匹配方法 数据 计算机视觉技术 语义层面 算法 注意力机制 跨模态 分词 重构 参数