模型训练、任务执行方法、装置、电子设备及存储介质

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
模型训练、任务执行方法、装置、电子设备及存储介质
申请号:CN202511165740
申请日期:2025-08-19
公开号:CN120930803A
公开日期:2025-11-11
类型:发明专利
摘要
本说明书提供的模型训练、任务执行方法、装置、电子设备及存储介质,在此方法中,可以先获取提示内容,以及目标模型针对该提示内容输出的答复内容和生成该答复内容的过程数据,接着将提示内容、答复内容和过程数据输入至奖励系统,由此得到过程数据中每个推理步骤的奖励值,最后基于每个推理步骤的奖励值,对目标模型进行迭代训练。该方法的奖励系统不再针对样本的token生成奖励值,而是针对过程数据中的每个推理步骤生成奖励值,这使得目标模型在训练过程中能够关注答复内容的整体性和逻辑性,进而提高目标模型在复杂任务中的性能和稳定性,以及模型的鲁棒性。
技术关键词
模型训练方法 奖励系统 数据 样本 模型训练装置 电子设备 处理器 指令 计算机程序产品 模板 可读存储介质 鲁棒性 标签 模块 精度 存储器 网络 参数