摘要
本发明公开一种通过嵌入式视觉压缩实现的紧凑多模态大模型,旨在通过嵌入式视觉压缩策略,减少模型在高分辨率输入下的计算开销,同时保持图像细节的充分表达。紧凑多模态大模型包括:通过视觉编码器提取其视觉特征;通过分词器得到文本特征;由空间注意力池化模块将视觉特征处理为紧凑型视觉特征;投影器对紧凑型视觉特征、文本特征进行线性投影后,将两者一起输入到多模态大模型中,并在序列末尾填充个可学习的查询特征;紧凑型视觉特征、文本特征和查询特征在多模态大模型的第层之前参与多模态交互,在第层通过嵌入式查询模块捕获与指令相关的图像信息,以补充在注意力池化过程中丢失的图像细节。