摘要
本公开提供了一种视觉大语言模型的训练方法、图像分析方法及装置,涉及计算机技术领域,尤其涉及机器学习、大语言模型、视觉大语言模型、风控与安防、自动驾驶、智能家居、医疗影像分析、视觉内容分析、生成式人工智能等应用领域。具体实现方案为:从正样本图像中确定与正样本图像的图像主题存在因果关系的关键实体;利用目标实体,对正样本图像中的关键实体进行替换,得到负样本图像;其中,目标实体与正样本图像的图像主题不存在因果关系;利用正样本图像和负样本图像,对视觉大语言模型进行训练,得到经过训练的视觉大语言模型。