摘要
本申请提供一种图像问答方法、装置及介质,涉及计算机技术领域。所述方法包括:基于特征点将问答图像分割成多个第一问答图像块;获取第一问答图像块中与用户问题相关度大于第一阈值的若干个第二问答图像块;基于中间语言模型获取所述问答图像的第一概述和所述若干个第二问答图像块的第二概述;基于大语言模型根据所述第一概述和所述第二概述获取所述用户问题的答案。本申请基于特征点分割图像,筛选与用户问题高相关性的图像块,根据整体图像和高相关性的局部图像块,利用中间语言模型捕获图像的全局信息和局部信息,增强中间自然语言对视觉图像的概述,最后使用大语言模型根据概述获得对用户问题的高质量回答。