摘要
本申请公开了一种面向粮食生产的跨模态表征学习与检索方法及系统,涉及农业信息化领域,该方法包括:基于图文双向引导融合网络对粮食生产过程中的图像文本对进行多粒度语义对齐,得到语义分割图像;基于全局语义引导对粮食生产过程中的视频文本对进行图像空间解耦与时序增强,得到结构化语义图像特征;构建文本特征库及图像特征库;根据待检索数据的模态确定传输计划矩阵,基于传输计划矩阵生成待检索数据的查询特征,根据待检索数据的查询特征、文本特征库及图像特征库,采用相似度度量的方法输出文本查询结果或图像查询结果。本申请能够实现跨模态特征的深度融合,提升图像与文本语义匹配的准确性,实现图像与文本之间的快速、精准匹配与检索。