AI资讯新闻榜单内容搜索-RLHF

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: RLHF
ICLR 2024 | RLHF有了通用平台和基准,天大开源,专攻现实决策场景

ICLR 2024 | RLHF有了通用平台和基准,天大开源,专攻现实决策场景

ICLR 2024 | RLHF有了通用平台和基准,天大开源,专攻现实决策场景

RLHF 通过学习人类偏好,能够在难以手工设计奖励函数的复杂决策任务中学习到正确的奖励引导,得到了很高的关注,在不同环境中选择合适的人类反馈类型和不同的学习方法至关重要

来自主题: AI技术研报
8472 点击    2024-03-28 09:59
模型偏好只与大小有关?上交大全面解析人类与32种大模型偏好的定量组分

模型偏好只与大小有关?上交大全面解析人类与32种大模型偏好的定量组分

模型偏好只与大小有关?上交大全面解析人类与32种大模型偏好的定量组分

在目前的模型训练范式中,偏好数据的的获取与使用已经成为了不可或缺的一环。在训练中,偏好数据通常被用作对齐(alignment)时的训练优化目标,如基于人类或 AI 反馈的强化学习(RLHF/RLAIF)或者直接偏好优化(DPO),而在模型评估中,由于任务的复杂性且通常没有标准答案,则通常直接以人类标注者或高性能大模型(LLM-as-a-Judge)的偏好标注作为评判标准。

来自主题: AI技术研报
10149 点击    2024-03-02 14:58
Sora创建病毒式视频全网疯转,OpenAI密谋推出TikTok竞品?专家猜测:这是计划的一部分

Sora创建病毒式视频全网疯转,OpenAI密谋推出TikTok竞品?专家猜测:这是计划的一部分

Sora创建病毒式视频全网疯转,OpenAI密谋推出TikTok竞品?专家猜测:这是计划的一部分

为何OpenAI只在TikTok上发布Sora新视频?AI专家猜测这是计划的一部分:创建病毒式视频、加水印、收集数据、添加RLHF、推出TikTok竞品……整套流程一气呵成。

来自主题: AI资讯
1579 点击    2024-02-23 14:38
人类偏好优化算法哪家强?跟着高手一文学懂DPO、IPO和KTO

人类偏好优化算法哪家强?跟着高手一文学懂DPO、IPO和KTO

人类偏好优化算法哪家强?跟着高手一文学懂DPO、IPO和KTO

尽管收集人类对模型生成内容的相对质量的标签,并通过强化学习从人类反馈(RLHF)来微调无监督大语言模型,使其符合这些偏好的方法极大地推动了对话式人工智能的发展。

来自主题: AI技术研报
7513 点击    2024-02-18 12:25
谷歌提出全新RLHF方法:消除奖励模型,且无需对抗性训练

谷歌提出全新RLHF方法:消除奖励模型,且无需对抗性训练

谷歌提出全新RLHF方法:消除奖励模型,且无需对抗性训练

大型语言模型(LLM)的成功离不开「基于人类反馈的强化学习(RLHF)」。RLHF 可以大致可以分为两个阶段,首先,给定一对偏好和不偏好的行为,训练一个奖励模型,通过分类目标为前者分配更高的分数。

来自主题: AI技术研报
4112 点击    2024-02-10 13:02
像人类一样在批评中学习成长,1317条评语让LLaMA2胜率飙升30倍

像人类一样在批评中学习成长,1317条评语让LLaMA2胜率飙升30倍

像人类一样在批评中学习成长,1317条评语让LLaMA2胜率飙升30倍

有的大模型对齐方法包括基于示例的监督微调(SFT)和基于分数反馈的强化学习(RLHF)。然而,分数只能反应当前回复的好坏程度,并不能明确指出模型的不足之处。相较之下,我们人类通常是从语言反馈中学习并调整自己的行为模式。

来自主题: AI技术研报
5157 点击    2024-02-03 12:52
OpenAI宣布RLHF即将终结,超级AI真的要来了?

OpenAI宣布RLHF即将终结,超级AI真的要来了?

OpenAI宣布RLHF即将终结,超级AI真的要来了?

OpenAI认为,未来十年来将诞生超过人类的超级AI系统。但是,这会出现一个问题,即基于人类反馈的强化学习技术将终结。

来自主题: AI资讯
5279 点击    2023-12-20 12:05
面壁智能联合清华发布最新多模态对齐框架RLHF-V,减少“过泛化”幻觉达业内最佳水平

面壁智能联合清华发布最新多模态对齐框架RLHF-V,减少“过泛化”幻觉达业内最佳水平

面壁智能联合清华发布最新多模态对齐框架RLHF-V,减少“过泛化”幻觉达业内最佳水平

多模态技术是 AI 多样化场景应用的重要基础,多模态大模型(MLLM)展现出了优秀的多模态信息理解和推理能力,正成为人工智能研究的前沿热点。上周,谷歌发布 AI 大模型 Gemini,据称其性能在多模态任务上已全面超越 OpenAI 的 GPT-4V,再次引发行业的广泛关注和热议。

来自主题: AI资讯
2794 点击    2023-12-18 14:21