视觉语言模型训练方法、装置、电子设备及存储介质

申请号：CN202511232050

申请日期：2025-08-29

公开号：CN121033587A

公开日期：2025-11-28

类型：发明专利

摘要

本说明书实施例公开了一种视觉语言模型训练方法、装置、电子设备及存储介质。其中，该方法包括：获取初始模型和预设的视觉问答样本集，在视觉问答样本集中，包括多个视觉问答训练样本，各个视觉问答训练样本包含视觉输入信息和对应的目标视觉标签信息；随后基于视觉问答样本集对初始模型进行监督微调训练，以得到训练后的监督微调视觉语言模型；进而在监督微调视觉语言模型的基础上，结合视觉问答样本集构建强化训练视觉问答样本集，强化训练视觉问答样本集包括视觉问答困难样本集和/或视觉问答偏好样本集；从而采用强化训练视觉问答样本集对监督微调视觉语言模型进行额外的强化学习训练，得到目标视觉语言模型。

技术关键词

样本语言模型训练方法可执行程序代码视觉问答模型计算机存储介质标签计算机程序产品模型训练装置处理器电子设备推理装置推理方法存储器数据输入模块参数指令