摘要
本说明书提供的模型训练、任务执行方法、装置、电子设备及存储介质,在此方法中,可以先获取提示内容,以及目标模型针对该提示内容输出的答复内容和生成该答复内容的过程数据,接着将提示内容、答复内容和过程数据输入至奖励系统,由此得到过程数据中每个推理步骤的奖励值,最后基于每个推理步骤的奖励值,对目标模型进行迭代训练。该方法的奖励系统不再针对样本的token生成奖励值,而是针对过程数据中的每个推理步骤生成奖励值,这使得目标模型在训练过程中能够关注答复内容的整体性和逻辑性,进而提高目标模型在复杂任务中的性能和稳定性,以及模型的鲁棒性。