视觉大语言模型的训练方法、图像分析方法及装置

申请号：CN202510058785

申请日期：2025-01-14

公开号：CN119992250A

公开日期：2025-05-13

类型：发明专利

摘要

本公开提供了一种视觉大语言模型的训练方法、图像分析方法及装置，涉及计算机技术领域，尤其涉及机器学习、大语言模型、视觉大语言模型、风控与安防、自动驾驶、智能家居、医疗影像分析、视觉内容分析、生成式人工智能等应用领域。具体实现方案为：从正样本图像中确定与正样本图像的图像主题存在因果关系的关键实体；利用目标实体，对正样本图像中的关键实体进行替换，得到负样本图像；其中，目标实体与正样本图像的图像主题不存在因果关系；利用正样本图像和负样本图像，对视觉大语言模型进行训练，得到经过训练的视觉大语言模型。

技术关键词

大语言模型实体样本视觉主题图像分析方法基础图像分析装置图像分析单元图像获取单元计算机程序产品训练装置处理器通信指令可读存储介质存储器