摘要
本说明书实施例公开了一种视觉语言模型训练方法、装置、电子设备及存储介质。其中,该方法包括:获取初始模型和预设的视觉问答样本集,在视觉问答样本集中,包括多个视觉问答训练样本,各个视觉问答训练样本包含视觉输入信息和对应的目标视觉标签信息;随后基于视觉问答样本集对初始模型进行监督微调训练,以得到训练后的监督微调视觉语言模型;进而在监督微调视觉语言模型的基础上,结合视觉问答样本集构建强化训练视觉问答样本集,强化训练视觉问答样本集包括视觉问答困难样本集和/或视觉问答偏好样本集;从而采用强化训练视觉问答样本集对监督微调视觉语言模型进行额外的强化学习训练,得到目标视觉语言模型。