摘要
本说明书实施例提供模型训练方法、文本生成方法,其中所述模型训练方法包括:获取多个样本任务处理流程以及各样本任务处理结果,样本任务处理流程包括至少一个任务处理步骤,任务处理步骤包括样本任务动作和样本任务状态,样本任务动作由初始第一策略模型基于样本任务状态确定。根据各样本任务处理结果,确定各样本任务处理流程对应的第一调参信息。根据目标第二策略模型,获取各任务处理步骤对应的第二调参信息。基于第一调参信息和第二调参信息,训练初始第一策略模型,获得目标第一策略模型。可以提高模型训练效率和训练出的模型的准确率。可以提高训练效率以及提高训练出的目标第一策略模型的准确度。