摘要
本发明公开了一种基于迭代式修正的细粒度文本图像描述生成方法,其步骤包括:1基于维基百科构建多语种知识库,并进行向量化;2检索用于多语种文本图像深度理解的外部知识并进行精炼;3使用指令微调的方式构建面向多语种文本图像的信息抽取模块,在外部知识的辅助下实现多语种图文信息的结构化知识抽取;4基于结构化知识推理,构建多语种文本图像描述内容的细粒度幻觉检测模块;5在每个迭代步骤将幻觉检测的结果反馈给多模态大模型,进行多轮的修正,得到最终的多语种文本图像描述生成结果。本发明可以缓解多模态大模型在生成多语种文本图像描述时面临的幻觉问题,提升多模态大模型针对多语种文本图像的描述生成效果。