摘要
本发明涉及人工智能技术领域,提供一种基于多任务学习的多模态数据融合建模方法,分别提取数据中的图像与文本特征,融合后得到第一融合数据;接着将其分别输入Transformer解码器和至少两层权重层进行处理,并与原始融合数据通过自适应门控层再次融合,得到第二融合数据;最后基于第二融合数据,分别计算分类损失与对比损失,当两类损失均满足预设条件时,输出最终的多模态数据融合模型。本发明还公开了一种系统。该方法和系统强化图像与文本间的语义对齐,有效解决跨模态语义问题,提升模型对复杂语义关系的理解能力。增强模型在不同任务场景具有适应性,显著提高模型泛化能力与鲁棒性,减少因数据噪声。