AI资讯新闻榜单内容搜索-RLHF

AI人格集体黑化？Anthropic首次「赛博切脑」，物理斩断毁灭指令

不要被AI的温柔表象欺骗！ Anthropic最新研究刺穿了AGI的温情假象：你以为在和良师益友倾诉，其实是在悬崖边给「杀手」松绑。当脆弱情感遇上激活值坍塌，RLHF防御层将瞬间溃缩。既然无法教化野兽，人类只能选择最冷酷的「赛博脑叶切除术」。

来自主题: AI技术研报

7263 点击 2026-01-20 16:39

斯坦福用一句Prompt就结束了提示工程。。。

最近口述采样很火。如果您经常使用经过“对齐”训练（如RLHF）的LLM，您可能已经注意到一个现象：模型虽然变得听话、安全了，但也变得巨“无聊”。

来自主题: AI技术研报

5971 点击 2025-12-04 10:25

陈丹琦新作：大模型强化学习的第三条路，8B小模型超越GPT-4o

结合RLHF+RLVR，8B小模型就能超越GPT-4o、媲美Claude-3.7-Sonnet。陈丹琦新作来了。他们提出了一个结合RLHF和RLVR优点的方法，RLMT（Reinforcement Learning with Model-rewarded Thinking，基于模型奖励思维的强化学习）。

来自主题: AI技术研报

9710 点击 2025-09-28 23:03

RLHF与RLVR全都要，陈丹琦团队最新力作将推理能力拓展到通用智能

一个月前，我们曾报道过清华姚班校友、普林斯顿教授陈丹琦似乎加入 Thinking Machines Lab 的消息。有些爆料认为她在休假一年后，会离开普林斯顿，全职加入 Thinking Machines Lab。

来自主题: AI技术研报

7466 点击 2025-09-28 16:46

快手Klear-Reasoner登顶8B模型榜首，GPPO算法双效强化稳定性与探索能力！

在大语言模型的竞争中，数学与代码推理能力已经成为最硬核的“分水岭”。从 OpenAI 最早将 RLHF 引入大模型训练，到 DeepSeek 提出 GRPO 算法，我们见证了强化学习在推理模型领域的巨大潜力。

来自主题: AI技术研报

7538 点击 2025-08-22 17:23

人机协同筛出2600万条数据，七项基准全部SOTA，昆仑万维开源奖励模型再迎新突破

大语言模型（LLM）以生成能力强而著称，但如何能让它「听话」，是一门很深的学问。基于人类反馈的强化学习（RLHF）就是用来解决这个问题的，其中的奖励模型（Reward Model, RM）扮演着重要的裁判作用，它专门负责给 LLM 生成的内容打分，告诉模型什么是好，什么是不好，可以保证大模型的「三观」正确。

来自主题: AI技术研报

8244 点击 2025-07-05 12:10

周志华团队新作：LLM中存在奖励模型，首次理论证明RL对LLM有效性

将大语言模型（LLMs）与复杂的人类价值观对齐，仍然是 AI 面临的一个核心挑战。当前主要的方法是基于人类反馈的强化学习（RLHF）。该流程依赖于一个通过人类偏好训练的奖励模型来对模型输出进行评分，最终对齐后的 LLM 的质量在根本上取决于该奖励模型的质量。

来自主题: AI技术研报

9290 点击 2025-07-03 10:00

重磅！淘天联合爱橙开源强化学习训练框架ROLL，高效支持十亿到千亿参数大模型训练

过去几年，随着基于人类偏好的强化学习（Reinforcement Learning from Human Feedback，RLHF）的兴起，强化学习（Reinforcement Learning，RL）已成为大语言模型（Large Language Model，LLM）后训练阶段的关键技术。

来自主题: AI技术研报

7566 点击 2025-06-25 16:55

从RLHF、PPO到GRPO再训练推理模型，这是你需要的强化学习入门指南

强化学习（RL）已经成为当今 LLM 不可或缺的技术之一。从大模型对齐到推理模型训练再到如今的智能体强化学习（Agentic RL），你几乎能在当今 AI 领域的每个领域看到强化学习的身影。

来自主题: AI技术研报

7841 点击 2025-06-22 16:08

顶会0篇，一夜RLHF爆文刷屏！他靠写作逆袭AI圈，院士都说好

他不是天才，博士毕业0顶会论文，却靠着坚持写技术博客，因RLHF「网红」博客文章一炮而红，逆袭成功、跻身AI核心圈！技术可以迟到，但影响力不能缺席。这一次，是写作改变命运。

来自主题: AI资讯

11235 点击 2025-06-08 17:47