基于多任务学习的多模态数据融合建模方法与系统

申请号：CN202510823524

申请日期：2025-06-19

公开号：CN120744812A

公开日期：2025-10-03

类型：发明专利

摘要

本发明涉及人工智能技术领域，提供一种基于多任务学习的多模态数据融合建模方法，分别提取数据中的图像与文本特征，融合后得到第一融合数据；接着将其分别输入Transformer解码器和至少两层权重层进行处理，并与原始融合数据通过自适应门控层再次融合，得到第二融合数据；最后基于第二融合数据，分别计算分类损失与对比损失，当两类损失均满足预设条件时，输出最终的多模态数据融合模型。本发明还公开了一种系统。该方法和系统强化图像与文本间的语义对齐，有效解决跨模态语义问题，提升模型对复杂语义关系的理解能力。增强模型在不同任务场景具有适应性，显著提高模型泛化能力与鲁棒性，减少因数据噪声。

技术关键词

融合建模方法多任务文本编码器图像编码器特征提取单元解码器模块注意力机器可读存储介质融合特征语义残差信息数据噪声人工智能技术标签