AI资讯新闻榜单内容搜索-RLHF

重磅！淘天联合爱橙开源强化学习训练框架ROLL，高效支持十亿到千亿参数大模型训练

过去几年，随着基于人类偏好的强化学习（Reinforcement Learning from Human Feedback，RLHF）的兴起，强化学习（Reinforcement Learning，RL）已成为大语言模型（Large Language Model，LLM）后训练阶段的关键技术。

来自主题: AI技术研报

8570 点击 2025-06-25 16:55

强化学习（RL）已经成为当今 LLM 不可或缺的技术之一。从大模型对齐到推理模型训练再到如今的智能体强化学习（Agentic RL），你几乎能在当今 AI 领域的每个领域看到强化学习的身影。

来自主题: AI技术研报

8957 点击 2025-06-22 16:08

他不是天才，博士毕业0顶会论文，却靠着坚持写技术博客，因RLHF「网红」博客文章一炮而红，逆袭成功、跻身AI核心圈！技术可以迟到，但影响力不能缺席。这一次，是写作改变命运。

来自主题: AI资讯

12354 点击 2025-06-08 17:47

AI顶流Claude升级了，程序员看了都沉默：不仅能写代码能力更强了，还能连续干活7小时不出大差错！AGI真要来了？这背后到底发生了什么？现在，还有机会加入AI行业吗？如今做哪些准备，才能在未来立足？

来自主题: AI技术研报

8629 点击 2025-06-07 10:43

惊艳全球的Claude 4，但它到底是如何思考？来自Anthropic两位研究员最新一期博客采访，透露了很多细节。这两天大家可以说是试玩了不少，有人仅用一个提示就搞定了个浏览器Agent，包括API和前端……直接一整个大震惊，与此同时关于Claude 4可能有意识并试图干坏事的事情同样被爆出。

来自主题: AI资讯

10690 点击 2025-05-24 17:43

近年来，大语言模型（LLMs）的对齐研究成为人工智能领域的核心挑战之一，而偏好数据集的质量直接决定了对齐的效果。无论是通过人类反馈的强化学习（RLHF），还是基于「RL-Free」的各类直接偏好优化方法（例如 DPO），都离不开高质量偏好数据集的构建。

来自主题: AI技术研报

9618 点击 2025-04-15 14:29

训练狗时不仅要让它知对错，还要给予差异较大的、不同的奖励诱导，设计 RLHF 的奖励模型时也是一样。

来自主题: AI技术研报

11358 点击 2025-03-24 15:33

回顾 AGI 的爆发，从最初的 pre-training (model/data) scaling，到 post-training (SFT/RLHF) scaling，再到 reasoning (RL) scaling，找到正确的 scaling 维度始终是问题的本质。

来自主题: AI技术研报

7089 点击 2025-03-06 09:46

传统的偏好对⻬⽅法，如基于⼈类反馈的强化学习（RLHF）和直接偏好优化（DPO），依赖于训练过程中的模型参数更新，但在⾯对不断变化的数据和需求时，缺乏⾜够的灵活性来适应这些变化。

来自主题: AI技术研报

9202 点击 2025-02-10 17:19

老婆饼里没有老婆，夫妻肺片里没有夫妻，RLHF 里也没有真正的 RL。在最近的一篇博客中，德克萨斯大学奥斯汀分校助理教授 Atlas Wang 分享了这样一个观点。

来自主题: AI资讯

9604 点击 2025-01-09 09:41