大模型微调方法、装置、电子设备及计算机存储介质

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
大模型微调方法、装置、电子设备及计算机存储介质
申请号:CN202511272342
申请日期:2025-09-08
公开号:CN120911542A
公开日期:2025-11-07
类型:发明专利
摘要
本发明提供一种大模型微调方法、装置、电子设备及计算机存储介质,在接收问题信息后,利用策略模型根据问题信息生成候选答案序列;之后,利用参考模型生成评估值序列以及利用包含多维度的奖励函数的奖励模型,生成不同奖励函数下的奖励值序列;再根据所有奖励函数下的奖励值序列进行群体优势评估,得到优势值序列;利用评估值序列来对优势值序列进行差异分析,得到差异分析结果;最终基于差异分析结果对策略模型进行微调,得到优化后的策略模型。通过融合多维奖励机制,有效提升大模型在复杂逻辑与多场景任务中的准确性、逻辑性和鲁棒性。
技术关键词
微调方法 序列 答案 计算机存储介质 策略 正确率 意图识别模型 评价方法 逻辑 电子设备 微调单元 场景 动态 微调装置 处理器 格式 分析单元 存储装置 鲁棒性