基于语义引导的多标签识别跨模态表示系统及方法

申请号：CN202511403593

申请日期：2025-09-29

公开号：CN120877010A

公开日期：2025-10-31

类型：发明专利

摘要

本发明为基于语义引导的多标签识别跨模态表示系统及方法，属于人工智能领域。该系统由特征编码器、图注意力网络、视觉语言特征重建模块、视觉‑语义特征匹配模块、多标签预测模块构成。该方法包含以下步骤：S1：采集图像和文本数据；S2：文本特征编码器和图像特征编码器提取图像特征和文本特征；S3：对文本特征进行多标签之间的语义关联增强；S4：对图像特征和文本特征进行融合；S5：对融合特征和改进文本特征进行融合；S6：视觉‑语义特征匹配模块对齐重建融合特征与文本特征，计算余弦相似度；S7：利用多标签分类器对匹配余弦相似度进行分类，得到图像对应的多分类标签。本发明方法能够有效地在开放场景中进行多标签识别，提高预测准确性。

技术关键词

编码器跨模态融合特征图像语义特征匹配模块视觉特征多标签分类器矩阵注意力机制文本特征向量双曲正切函数深度学习网络