大型视觉语言模型幻觉减轻方法及装置

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
大型视觉语言模型幻觉减轻方法及装置
申请号:CN202511172128
申请日期:2025-08-21
公开号:CN120781883A
公开日期:2025-10-14
类型:发明专利
摘要
本发明属于人工智能与多模态大模型的技术领域,具体涉及大型视觉语言模型幻觉减轻方法及装置。所述方法包括:获取原始图像的完整视觉令牌及文本提示的文本令牌,将其连接共同输入大语言模型解码器;基于跨模态动态采样策略计算文本令牌与所有视觉令牌的注意力分数矩阵,以采样关键视觉令牌;获取原始图像的分类令牌,基于分类令牌和完整视觉令牌中各视觉令牌的注意力得分,以筛选显著视觉令牌;对显著视觉令牌和关键视觉令牌进行自适应注意力增强,通过对比解码策略,从视觉信息增强的logits分布中减去纯文本输入的logits分布影响,以获得最终的目标文本输出。本发明旨在减轻大型视觉语言模型中的幻觉问题。
技术关键词
令牌 视觉 文本 大语言模型 解码器 跨模态 图像 矩阵 策略 机器可读存储介质 存储器存储指令 多头注意力机制 采样模块 索引 动态 电子设备