一种图文匹配方法、图文匹配多模态大模型及大模型训练方法

申请号：CN202411448052

申请日期：2024-10-17

公开号：CN118965024B

公开日期：2025-01-07

类型：发明专利

摘要

本发明公开了一种图文匹配方法、图文匹配多模态大模型以及大模型训练方法，匹配方法包括特征提取和特征判定，特征提取包括：S1、对输入的图像进行编码得到初始图像特征；S2、对输入的文本进行编码得到初始文本特征；S3、将初始图像特征和初始文本特征分别加上一个不同的位置编码，得到二级图像特征和二级文本特征；S4、将步骤S3中得到的二级图像特征和二级文本特征进行融合，得到融合文本特征IT和融合图像特征TI；特征判定包括：S5、将融合文本特征IT和融合图像特征TI分别进行特征池化，然后缩放并拼接，对拼接后的特征进行特征判别，通过判别线性层输出0至1表示匹配程度。本发明可以同时提取并深度融合视觉和语言特征。

技术关键词

融合图像特征图文匹配方法编码模块模型训练方法多模态特征融合图片线性注意力像素图象代表文本编码器图像编码器融合视觉