AI资讯新闻榜单内容搜索-RLHF

离职OpenAI后Lilian Weng博客首发！深扒RL训练漏洞，业内狂赞

Lilian Weng离职OpenAI后首篇博客发布！文章深入讨论了大模型强化学习中的奖励欺骗问题。随着语言模型在许多任务上的泛化能力不断提升，以及RLHF逐渐成为对齐训练的默认方法，奖励欺骗在语言模型的RL训练中已经成为一个关键的实践性难题。

来自主题: AI资讯

8539 点击 2024-12-06 09:54

翁荔离职OpenAI后第一个动作：万字长文探讨RLHF的漏洞，网友们抢着传看

之前领导OpenAI安全团队的北大校友翁荔（Lilian Weng），离职后第一个动作来了。当然是发～博～客。这次的博客一如既往万字干货，妥妥一篇研究综述，翁荔本人直言写起来不容易。主题围绕强化学习中奖励黑客（Reward Hacking）问题展开，即Agent利用奖励函数或环境中的漏洞来获取高奖励，而并未真正学习到预期行为。

来自主题: AI技术研报

8884 点击 2024-12-03 00:16

LLM超越人类时该如何对齐？谷歌用新RLHF框架解决了这个问题

让 LLM 在自我进化时也能保持对齐。

来自主题: AI技术研报

6597 点击 2024-11-05 14:44

打破RLHF瓶颈，克服奖励欺骗！Meta发布全新后训练方式CGPO，编程水平直升5%

CGPO框架通过混合评审机制和约束优化器，有效解决了RLHF在多任务学习中的奖励欺骗和多目标优化问题，显著提升了语言模型在多任务环境中的表现。CGPO的设计为未来多任务学习提供了新的优化路径，有望进一步提升大型语言模型的效能和稳定性。

来自主题: AI技术研报

4411 点击 2024-11-01 14:54

吞吐量最高飙升20倍！豆包大模型团队开源RLHF框架，破解强化学习训练部署难题

强化学习（RL）对大模型复杂推理能力提升有关键作用，然而，RL 复杂的计算流程以及现有系统局限性，也给训练和部署带来了挑战。

来自主题: AI技术研报

5211 点击 2024-11-01 14:50

综合RLHF、DPO、KTO优势，统一对齐框架UNA来了

随着大规模语言模型的快速发展，如 GPT、Claude 等，LLM 通过预训练海量的文本数据展现了惊人的语言生成能力。然而，即便如此，LLM 仍然存在生成不当或偏离预期的结果。这种现象在推理过程中尤为突出，常常导致不准确、不符合语境或不合伦理的回答。为了解决这一问题，学术界和工业界提出了一系列对齐（Alignment）技术，旨在优化模型的输出，使其更加符合人类的价值观和期望。

来自主题: AI技术研报

9445 点击 2024-10-10 12:21