一种面向粮食生产的跨模态表征学习与检索方法及系统

申请号：CN202511195014

申请日期：2025-08-26

公开号：CN120705355B

公开日期：2025-12-02

类型：发明专利

摘要

本申请公开了一种面向粮食生产的跨模态表征学习与检索方法及系统，涉及农业信息化领域，该方法包括：基于图文双向引导融合网络对粮食生产过程中的图像文本对进行多粒度语义对齐，得到语义分割图像；基于全局语义引导对粮食生产过程中的视频文本对进行图像空间解耦与时序增强，得到结构化语义图像特征；构建文本特征库及图像特征库；根据待检索数据的模态确定传输计划矩阵，基于传输计划矩阵生成待检索数据的查询特征，根据待检索数据的查询特征、文本特征库及图像特征库，采用相似度度量的方法输出文本查询结果或图像查询结果。本申请能够实现跨模态特征的深度融合，提升图像与文本语义匹配的准确性，实现图像与文本之间的快速、精准匹配与检索。

技术关键词

图像上下文特征检索方法文本视觉注意力机制查询特征语义向量特征提取模块图文融合特征多尺度空间金字塔池词语通道注意力机制空间特征提取视频长短期记忆网络时序