大模型微调方法、装置、电子设备及计算机存储介质

申请号：CN202511272342

申请日期：2025-09-08

公开号：CN120911542A

公开日期：2025-11-07

类型：发明专利

摘要

本发明提供一种大模型微调方法、装置、电子设备及计算机存储介质，在接收问题信息后，利用策略模型根据问题信息生成候选答案序列；之后，利用参考模型生成评估值序列以及利用包含多维度的奖励函数的奖励模型，生成不同奖励函数下的奖励值序列；再根据所有奖励函数下的奖励值序列进行群体优势评估，得到优势值序列；利用评估值序列来对优势值序列进行差异分析，得到差异分析结果；最终基于差异分析结果对策略模型进行微调，得到优化后的策略模型。通过融合多维奖励机制，有效提升大模型在复杂逻辑与多场景任务中的准确性、逻辑性和鲁棒性。

技术关键词

微调方法序列答案计算机存储介质策略正确率意图识别模型评价方法逻辑电子设备微调单元场景动态微调装置处理器格式分析单元存储装置鲁棒性