模型训练、任务执行方法、装置、电子设备及存储介质

申请号：CN202511165740

申请日期：2025-08-19

公开号：CN120930803A

公开日期：2025-11-11

类型：发明专利

摘要

本说明书提供的模型训练、任务执行方法、装置、电子设备及存储介质，在此方法中，可以先获取提示内容，以及目标模型针对该提示内容输出的答复内容和生成该答复内容的过程数据，接着将提示内容、答复内容和过程数据输入至奖励系统，由此得到过程数据中每个推理步骤的奖励值，最后基于每个推理步骤的奖励值，对目标模型进行迭代训练。该方法的奖励系统不再针对样本的token生成奖励值，而是针对过程数据中的每个推理步骤生成奖励值，这使得目标模型在训练过程中能够关注答复内容的整体性和逻辑性，进而提高目标模型在复杂任务中的性能和稳定性，以及模型的鲁棒性。

技术关键词

模型训练方法奖励系统数据样本模型训练装置电子设备处理器指令计算机程序产品模板可读存储介质鲁棒性标签模块精度存储器网络参数