摘要
本申请实施例提供一种基于强化学习的模型优化方法、装置和电子设备,涉及人工智能技术领域,基于强化学习的模型优化方法包括:获取携带有标签信息的第一样本数据;所述标签信息包括所述第一样本数据的参考结构信息,参考结构信息用于表示第一样本数据对应的参考结构化元素的位置信息;将第一样本数据输入预先训练的生成模型,对第一样本数据进行预测,得到第一样本数据的预测结构信息;根据预测结构信息和参考结构信息,确定生成模型的目标奖励,并基于目标奖励对生成模型进行优化。本申请实施例使生成模型在不依赖于复杂的后处理模块的情况下,能够获得高质量的结构化输出数据,提升模型优化的泛化性和灵活性。