摘要
本发明提供一种大模型微调方法、装置、电子设备及计算机存储介质,在接收问题信息后,利用策略模型根据问题信息生成候选答案序列;之后,利用参考模型生成评估值序列以及利用包含多维度的奖励函数的奖励模型,生成不同奖励函数下的奖励值序列;再根据所有奖励函数下的奖励值序列进行群体优势评估,得到优势值序列;利用评估值序列来对优势值序列进行差异分析,得到差异分析结果;最终基于差异分析结果对策略模型进行微调,得到优化后的策略模型。通过融合多维奖励机制,有效提升大模型在复杂逻辑与多场景任务中的准确性、逻辑性和鲁棒性。