一种可控文本生成模型训练方法及相关装置

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
一种可控文本生成模型训练方法及相关装置
申请号:CN202510474317
申请日期:2025-04-16
公开号:CN120337995A
公开日期:2025-07-18
类型:发明专利
摘要
本申请公开了一种可控文本生成模型训练方法及相关装置,涉及自然语言处理技术领域,该方案中,不仅采用了有监督微调的方式,还采用了人类反馈强化学习,在采用人类反馈强化学习方式对所述可控文本生成模型原型进行训练时,冻结了所述可控文本生成模型原型中的大部分参数,采用多个较小的奖励模型融合的方式替代大型奖励模型,极大降低了训练过程中的算力资源消耗,且训练得到的价值函数可以保障生成的可控文本能够对齐人类评价标准,因此,本申请的训练方法依然能够保障训练效果。
技术关键词
文本生成模型 原型 数据 计算机可读指令 电子设备 人类 基座 微调单元 存储计算机程序 计算机程序产品 训练装置 自然语言 处理器 可读存储介质 存储器 样本 策略