摘要
本发明属于人工智能与多模态大模型的技术领域,具体涉及大型视觉语言模型幻觉减轻方法及装置。所述方法包括:获取原始图像的完整视觉令牌及文本提示的文本令牌,将其连接共同输入大语言模型解码器;基于跨模态动态采样策略计算文本令牌与所有视觉令牌的注意力分数矩阵,以采样关键视觉令牌;获取原始图像的分类令牌,基于分类令牌和完整视觉令牌中各视觉令牌的注意力得分,以筛选显著视觉令牌;对显著视觉令牌和关键视觉令牌进行自适应注意力增强,通过对比解码策略,从视觉信息增强的logits分布中减去纯文本输入的logits分布影响,以获得最终的目标文本输出。本发明旨在减轻大型视觉语言模型中的幻觉问题。