AI资讯新闻榜单内容搜索-RLHF

什么样的偏好，才叫好的偏好？——揭秘偏好对齐数据的「三驾马车」

近年来，大语言模型（LLMs）的对齐研究成为人工智能领域的核心挑战之一，而偏好数据集的质量直接决定了对齐的效果。无论是通过人类反馈的强化学习（RLHF），还是基于「RL-Free」的各类直接偏好优化方法（例如 DPO），都离不开高质量偏好数据集的构建。

来自主题: AI技术研报

7626 点击 2025-04-15 14:29

为什么明明很准，奖励模型就是不work？新研究：准确度 is not all you need

训练狗时不仅要让它知对错，还要给予差异较大的、不同的奖励诱导，设计 RLHF 的奖励模型时也是一样。

来自主题: AI技术研报

9597 点击 2025-03-24 15:33

上海AI Lab最新推出Mixture-of-Memories：线性注意力也有稀疏记忆了

回顾 AGI 的爆发，从最初的 pre-training (model/data) scaling，到 post-training (SFT/RLHF) scaling，再到 reasoning (RL) scaling，找到正确的 scaling 维度始终是问题的本质。

来自主题: AI技术研报

4625 点击 2025-03-06 09:46

推理时也能做偏好优化，无需额外重训练，来自上海AI Lab港中文等

传统的偏好对⻬⽅法，如基于⼈类反馈的强化学习（RLHF）和直接偏好优化（DPO），依赖于训练过程中的模型参数更新，但在⾯对不断变化的数据和需求时，缺乏⾜够的灵活性来适应这些变化。

来自主题: AI技术研报

7311 点击 2025-02-10 17:19

老婆饼里没有老婆，RLHF里也没有真正的RL

老婆饼里没有老婆，夫妻肺片里没有夫妻，RLHF 里也没有真正的 RL。在最近的一篇博客中，德克萨斯大学奥斯汀分校助理教授 Atlas Wang 分享了这样一个观点。

来自主题: AI资讯

7803 点击 2025-01-09 09:41

把RLHF带给VLA模型！通过偏好对齐来优化机器人策略，代码已开源

近年来，视觉-语言-动作模型（Vision-Language-Action, VLA）在诸多机器人任务上取得了显著的进展，但它们仍面临一些关键问题，例如由于仅依赖从成功的执行轨迹中进行行为克隆，导致对新任务的泛化能力较差。

来自主题: AI技术研报

7026 点击 2024-12-28 11:41

清华、智谱团队：探索 RLHF 的 scaling laws

目前关于 RLHF 的 scaling（扩展）潜力研究仍然相对缺乏，尤其是在模型大小、数据组成和推理预算等关键因素上的影响尚未被系统性探索。针对这一问题，来自清华大学与智谱的研究团队对 RLHF 在 LLM 中的 scaling 性能进行了全面研究，并提出了优化策略。

来自主题: AI技术研报

9128 点击 2024-12-24 14:56

离职OpenAI后Lilian Weng博客首发！深扒RL训练漏洞，业内狂赞

Lilian Weng离职OpenAI后首篇博客发布！文章深入讨论了大模型强化学习中的奖励欺骗问题。随着语言模型在许多任务上的泛化能力不断提升，以及RLHF逐渐成为对齐训练的默认方法，奖励欺骗在语言模型的RL训练中已经成为一个关键的实践性难题。

来自主题: AI资讯

7527 点击 2024-12-06 09:54

翁荔离职OpenAI后第一个动作：万字长文探讨RLHF的漏洞，网友们抢着传看

之前领导OpenAI安全团队的北大校友翁荔（Lilian Weng），离职后第一个动作来了。当然是发～博～客。这次的博客一如既往万字干货，妥妥一篇研究综述，翁荔本人直言写起来不容易。主题围绕强化学习中奖励黑客（Reward Hacking）问题展开，即Agent利用奖励函数或环境中的漏洞来获取高奖励，而并未真正学习到预期行为。

来自主题: AI技术研报

7549 点击 2024-12-03 00:16

LLM超越人类时该如何对齐？谷歌用新RLHF框架解决了这个问题

让 LLM 在自我进化时也能保持对齐。

来自主题: AI技术研报

5654 点击 2024-11-05 14:44