摘要
本发明为基于语义引导的多标签识别跨模态表示系统及方法,属于人工智能领域。该系统由特征编码器、图注意力网络、视觉语言特征重建模块、视觉‑语义特征匹配模块、多标签预测模块构成。该方法包含以下步骤:S1:采集图像和文本数据;S2:文本特征编码器和图像特征编码器提取图像特征和文本特征;S3:对文本特征进行多标签之间的语义关联增强;S4:对图像特征和文本特征进行融合;S5:对融合特征和改进文本特征进行融合;S6:视觉‑语义特征匹配模块对齐重建融合特征与文本特征,计算余弦相似度;S7:利用多标签分类器对匹配余弦相似度进行分类,得到图像对应的多分类标签。本发明方法能够有效地在开放场景中进行多标签识别,提高预测准确性。