一种利用在线同步策略改进的大模型偏好对齐方法
# 热门搜索 #
大模型
人工智能
openai
融资
chatGPT
AITNT公众号
AITNT APP
AITNT交流群
搜索
首页
AI资讯
AI技术研报
AI监管政策
AI产品测评
AI商业项目
AI产品热榜
AI专利库
寻求报道
一种利用在线同步策略改进的大模型偏好对齐方法
申请号:
CN202411607834
申请日期:
2024-11-12
公开号:
CN119539082A
公开日期:
2025-02-28
类型:
发明专利
摘要
本发明提出一种利用在线同步策略改进的大模型偏好对齐方法,基于同步策略优化与在线学习的方法,提出了一种新的偏好对齐流程,从训练流程上进行改造,增加了同步采样和在线参数更新等环节,实现了模型训练过程中的奖励模型更新和数据分布对齐,最终实现金融问答能力的有效提升。本发明实现在保持原有方法高效性的基础上,可以有效缩小策略之间的分布差异,保证最优策略的优化方向,同时近似实时的更新偏好数据的监督信息,增强了高奖励制度中奖励模型的可靠性,更好的对齐人类偏好,从而保证在金融业务领域的可靠性、泛化性。
技术关键词
对齐方法
策略
在线
sigmoid函数
代表
离线
生成参数
模型更新
数据分布
标签
指令
金融
令牌
语义
人类
基础
系统为您推荐了相关专利信息
1
一种融合GNSS和UWB的无人机增强定位方法及系统
无人机
定位策略
云端服务器
信标
飞行路径信息
2
一种用于分布式嵌入向量的训练方法及装置
数据并行策略
进程
计算机程序产品
元素
哈希表
3
一种电气设备智能状态识别调控方法及系统
电气设备智能
调控策略
电气设备运行状态
调控方法
判断电气设备
4
一种基于ClickHouse的分布式部署高性能读写分离方法
故障节点恢复
集群配置文件
分片
负载均衡器
高性能
5
一种政策知识问答方法、装置、电子设备及存储介质
知识问答方法
分词
分块策略
语义向量
实体