一种利用在线同步策略改进的大模型偏好对齐方法

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
一种利用在线同步策略改进的大模型偏好对齐方法
申请号:CN202411607834
申请日期:2024-11-12
公开号:CN119539082A
公开日期:2025-02-28
类型:发明专利
摘要
本发明提出一种利用在线同步策略改进的大模型偏好对齐方法,基于同步策略优化与在线学习的方法,提出了一种新的偏好对齐流程,从训练流程上进行改造,增加了同步采样和在线参数更新等环节,实现了模型训练过程中的奖励模型更新和数据分布对齐,最终实现金融问答能力的有效提升。本发明实现在保持原有方法高效性的基础上,可以有效缩小策略之间的分布差异,保证最优策略的优化方向,同时近似实时的更新偏好数据的监督信息,增强了高奖励制度中奖励模型的可靠性,更好的对齐人类偏好,从而保证在金融业务领域的可靠性、泛化性。
技术关键词
对齐方法 策略 在线 sigmoid函数 代表 离线 生成参数 模型更新 数据分布 标签 指令 金融 令牌 语义 人类 基础
系统为您推荐了相关专利信息
无人机 定位策略 云端服务器 信标 飞行路径信息
数据并行策略 进程 计算机程序产品 元素 哈希表
电气设备智能 调控策略 电气设备运行状态 调控方法 判断电气设备
故障节点恢复 集群配置文件 分片 负载均衡器 高性能
知识问答方法 分词 分块策略 语义向量 实体