基于强化学习的模型优化方法、装置和电子设备

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
基于强化学习的模型优化方法、装置和电子设备
申请号:CN202511366392
申请日期:2025-09-24
公开号:CN120893600A
公开日期:2025-11-04
类型:发明专利
摘要
本申请实施例提供一种基于强化学习的模型优化方法、装置和电子设备,涉及人工智能技术领域,基于强化学习的模型优化方法包括:获取携带有标签信息的第一样本数据;所述标签信息包括所述第一样本数据的参考结构信息,参考结构信息用于表示第一样本数据对应的参考结构化元素的位置信息;将第一样本数据输入预先训练的生成模型,对第一样本数据进行预测,得到第一样本数据的预测结构信息;根据预测结构信息和参考结构信息,确定生成模型的目标奖励,并基于目标奖励对生成模型进行优化。本申请实施例使生成模型在不依赖于复杂的后处理模块的情况下,能够获得高质量的结构化输出数据,提升模型优化的泛化性和灵活性。
技术关键词
模型优化方法 样本 数据 标签 格式 元素 坐标点 后处理模块 电子设备 可读存储介质 人工智能技术 优化装置 处理器 存储器 计算机