直接偏好优化模型构建方法、装置、电子设备及存储介质

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
直接偏好优化模型构建方法、装置、电子设备及存储介质
申请号:CN202410888281
申请日期:2024-07-04
公开号:CN118428324B
公开日期:2024-11-19
类型:发明专利
摘要
本发明公开了直接偏好优化模型构建方法、装置、电子设备及存储介质,所述方法包括:所述直接偏好优化模型构建方法包括:获取微调的初始模型;为所述初始模型选用uDPO框架并设置uDPO的超参数,得到目标函数;根据所述目标函数生成目标模型。通过构建uDPO框架,在uDPO中引入新的超参数,实现了对数据对可靠性的细粒度控制,从而在噪声环境下提供了更加平衡的探索与利用策略。其次,uDPO在保持DPO对点噪声固有鲁棒性的同时,通过优化最坏成对场景,显著提升了模型对抗成对噪声的能力,相较于DPO无论是在噪声还是无噪声的数据集上,均能实现性能的显著提升,具有DPO对抗点噪声的能力的同时具有对抗成对噪声的能力。
技术关键词
模型构建方法 无噪声 框架 非暂态计算机可读存储介质 数据噪声 三元组 拉格朗日 模型构建装置 电子设备 表达式 处理器 超参数 存储器 鲁棒性 因子 样本 模块
系统为您推荐了相关专利信息
验证规则 集成电路设计 设计规则检查 节点 分布式计算框架
自主协同定位方法 关键帧 全局地图 视觉传感器 全局优化算法
伸缩托盘 水下机器人 作业工具 作业底盘 框架
云渲染 框架 客户端设备上执行 图形渲染引擎 GPU服务器
行人检测方法 注意力机制 网络模型结构 多尺度特征提取 分支