摘要
本公开提供了视觉语言模型的训练方法、装置及电子设备,涉及人工智能技术领域,尤其涉及深度学习、自然语言处理、计算机视觉、大模型等技术领域。具体实现方案为:获取微调训练数据以及待训练的视觉语言模型;将微调训练数据中的样本图像以及文本指令输入视觉语言模型,获取预测结构化字段序列;根据微调训练数据中的样本结构化字段序列以及预测结构化字段序列,确定字段召回率;进而结合以字段召回率为输入奖励值的损失函数,对视觉语言模型进行参数调整处理,得到微调后的视觉语言模型;视觉语言模型能够学习如何提取准确的结构化字段序列,从而提高微调后的视觉语言模型对结构化字段序列的提取准确度,进而提高微调后的视觉语言模型的准确度。