基于分组自我博弈和自适应加权的大模型微调方法及装置
申请号:CN202511206228
申请日期:2025-08-27
公开号:CN120745757B
公开日期:2025-11-18
类型:发明专利
摘要
本发明提供一种基于分组自我博弈和自适应加权的大模型微调方法及装置,涉及自然语言处理技术领域。该方法包括:根据大语言模型构建对手团队生成模型响应,根据输入数据、目标响应和模型响应构建偏好数据集;构建主力团队,定义主力团队成员的评分函数,根据偏好数据集和评分函数构建损失函数;根据主力团队中的每个队员对目标响应的评分得到目标响应在损失函数中的自适应权重;根据每个队员对目标响应的评分和对模型响应的评分定义偏好边距,计算每个队员的权重,构建最终的损失函数,对大语言模型进行迭代微调。本发明提出了一种新的大语言模型微调算法,它分别通过基于分组的自我博弈和双重自适应权重调节来增强大语言模型的对齐效果。
技术关键词
团队
微调方法
大语言模型
计算机可读取存储介质
数据
计算机可读指令
前三轮
样本
问答系统
机器翻译
微调装置
人类
控制权
定义
文本
参数
摘要
自然语言
意图
处理器