通过嵌入式视觉压缩实现的紧凑多模态大模型

申请号：CN202510176202

申请日期：2025-02-18

公开号：CN120181220A

公开日期：2025-06-20

类型：发明专利

摘要

本发明公开一种通过嵌入式视觉压缩实现的紧凑多模态大模型，旨在通过嵌入式视觉压缩策略，减少模型在高分辨率输入下的计算开销，同时保持图像细节的充分表达。紧凑多模态大模型包括：通过视觉编码器提取其视觉特征；通过分词器得到文本特征；由空间注意力池化模块将视觉特征处理为紧凑型视觉特征；投影器对紧凑型视觉特征、文本特征进行线性投影后，将两者一起输入到多模态大模型中，并在序列末尾填充个可学习的查询特征；紧凑型视觉特征、文本特征和查询特征在多模态大模型的第层之前参与多模态交互，在第层通过嵌入式查询模块捕获与指令相关的图像信息，以补充在注意力池化过程中丢失的图像细节。

技术关键词

视觉特征嵌入式视觉查询特征紧凑型文本多模态交互图像交叉注意力机制序列多层感知机模块答案矩阵指令非线性定义