直接偏好优化模型构建方法、装置、电子设备及存储介质
申请号:CN202410888281
申请日期:2024-07-04
公开号:CN118428324B
公开日期:2024-11-19
类型:发明专利
摘要
本发明公开了直接偏好优化模型构建方法、装置、电子设备及存储介质,所述方法包括:所述直接偏好优化模型构建方法包括:获取微调的初始模型;为所述初始模型选用uDPO框架并设置uDPO的超参数,得到目标函数;根据所述目标函数生成目标模型。通过构建uDPO框架,在uDPO中引入新的超参数,实现了对数据对可靠性的细粒度控制,从而在噪声环境下提供了更加平衡的探索与利用策略。其次,uDPO在保持DPO对点噪声固有鲁棒性的同时,通过优化最坏成对场景,显著提升了模型对抗成对噪声的能力,相较于DPO无论是在噪声还是无噪声的数据集上,均能实现性能的显著提升,具有DPO对抗点噪声的能力的同时具有对抗成对噪声的能力。
技术关键词
模型构建方法
无噪声
框架
非暂态计算机可读存储介质
数据噪声
三元组
拉格朗日
模型构建装置
电子设备
表达式
处理器
超参数
存储器
鲁棒性
因子
样本
模块