任务处理模型训练方法、角色扮演模型训练方法及任务处理方法

申请号：CN202511215582

申请日期：2025-08-28

公开号：CN120724109B

公开日期：2025-11-25

类型：发明专利

摘要

本说明书实施例提供任务处理模型训练方法、角色扮演模型训练方法及任务处理方法，其中所述任务处理模型训练方法包括：获取多个样本回复内容，多个样本回复内容为任务处理模型基于样本对话数据生成的回复内容；将多个样本回复内容输入目标评估模型，获得多个样本回复内容分别对应的目标回复指标，目标回复指标用于衡量对应的样本回复内容的质量，目标评估模型基于元评估模型对冷启动评估模型进行强化学习得到，元评估模型基于样本对话数据、多个样本回复内容以及样本回复分析信息训练得到；根据目标回复指标，对任务处理模型进行参数调整，获得训练完成的任务处理模型。基于目标回复指标，提高了任务处理模型的训练效率和对齐性能。

技术关键词

样本指标数据模型评测方法预测误差场景评估模型训练方法模型库终端设备存储计算机程序参数处理器指令接口存储器计算机程序产品客户端文本平台