摘要
本发明公开了一种基于双模态变换和共识感知的遥感视觉问答方法,包括:1、通过基于CLIP模型的图像以及文本特征提取网络得到图像以及文本特征表示;2、通过自注意力处理模块、共同注意机制模块获得具有视觉和文本表示内部及其之间的依赖关系的文本特征表示以及图片特征表示;3、构建基于图卷积神经网络的知识特征提取网络提取共现知识特征表示;4、通过特征融合网络得到综合表征特征;5、通过交叉熵损失函数以更新网络参数,以此训练得到最优匹配模型。本发明通过基于图卷积神经网络的知识特征提取网络提取共现知识特征表示,挖掘了深层次的文本知识,大大提高了文本信息的利用效率,从而大大提高了遥感视觉问答的准确率。