AI资讯新闻榜单内容搜索-模型对齐

字节AI大牛顾全全宣布离职，或投身AI4S创业

刚刚，顾全全发文告别字节 Seed 团队。在此之前，他是 Seed 旗下聚焦科学智能领域的 AI4S 团队核心成员。顾全全是机器学习理论、大模型对齐以及 AI4S 科学智能领域知名的学者。他于 2007 年和 2010 年分获清华大学自动化专业学士、控制科学与工程硕士学位，2014 年获伊利诺伊大学香槟分校计算机科学博士学位，随后在普林斯顿大学运筹与金融工程系（ORFE）开展统计学博士后研究。

来自主题: AI资讯

8122 点击 2026-06-02 16:18

ICLR 2026 Oral | DPO「只看总分不看细节」？TI-DPO用Token重要性重塑大模型对齐

在当今的大模型后训练（Post-training）阶段，DPO（直接偏好优化）凭借其无需训练独立 Reward Model 的优雅设计和高效性，成功取代 PPO 成为业界的「版本之子」，被广泛应用于 Llama-3、Mistral 等顶流开源模型的对齐中。

来自主题: AI技术研报

8062 点击 2026-02-11 13:58

RL微调，关键在前10%奖励！基于评分准则，Scale AI等提出新方法

大模型强化学习总是「用力过猛」？Scale AI联合UCLA、芝加哥大学的研究团队提出了一种基于评分准则（rubric）的奖励建模新方法，从理论和实验两个维度证明：要想让大模型对齐效果好，关键在于准确区分「优秀」和「卓越」的回答。这项研究不仅揭示了奖励过度优化的根源，还提供了实用的解决方案。

来自主题: AI技术研报

8744 点击 2025-10-17 09:48

加速近5倍！北大与字节团队提出BranchGRPO，用「树形分叉 + 剪枝」重塑扩散模型对齐

近期，北京大学与字节团队提出了名为 BranchGRPO 的新型树形强化学习方法。不同于顺序展开的 DanceGRPO，BranchGRPO 通过在扩散反演过程中引入分叉（branching）与剪枝（pruning），让多个轨迹共享前缀、在中间步骤分裂，并通过逐层奖励融合实现稠密反馈。

来自主题: AI技术研报

7159 点击 2025-09-23 10:07

从RLHF、PPO到GRPO再训练推理模型，这是你需要的强化学习入门指南

强化学习（RL）已经成为当今 LLM 不可或缺的技术之一。从大模型对齐到推理模型训练再到如今的智能体强化学习（Agentic RL），你几乎能在当今 AI 领域的每个领域看到强化学习的身影。

来自主题: AI技术研报

8682 点击 2025-06-22 16:08

123页Claude 4行为报告发布：人类干坏事，可能会被它反手一个举报？！

刚刚发布的Claude 4被发现，它可能会自主判断用户行为，如果用户做的事情极其邪恶，且模型有对工具的访问权限，它可能就要通过邮件联系相关部门，把你锁出系统。这事儿，Anthropic团队负责模型对齐工作的一位老哥亲口说的。

来自主题: AI资讯

10561 点击 2025-05-23 22:14

多模态大模型对齐新范式，10个评估维度全面提升，快手&中科院&南大打破瓶颈

尽管多模态大语言模型（MLLMs）取得了显著的进展，但现有的先进模型仍然缺乏与人类偏好的充分对齐。这一差距的存在主要是因为现有的对齐研究多集中于某些特定领域（例如减少幻觉问题），是否与人类偏好对齐可以全面提升MLLM的各种能力仍是一个未知数。

来自主题: AI技术研报

11576 点击 2025-02-26 14:07

当奖励成为漏洞：从对齐本质出发自动「越狱」大语言模型

本文第一作者为香港大学博士研究生谢知晖，主要研究兴趣为大模型对齐与强化学习。

来自主题: AI技术研报

8047 点击 2024-08-31 15:09

ICML 2024 Oral | DPO是否比PPO更适合LLM，清华吴翼团队最新揭秘

如何让大模型更好的遵从人类指令和意图？如何让大模型有更好的推理能力？如何让大模型避免幻觉？能否解决这些问题，是让大模型真正广泛可用，甚至实现超级智能（Super Intelligence）最为关键的技术挑战。这些最困难的挑战也是吴翼团队长期以来的研究重点，大模型对齐技术（Alignment）所要攻克的难题。

来自主题: AI资讯

12383 点击 2024-07-21 17:10

ICML 2024 Spotlight | 在解码中重新对齐，让语言模型更少幻觉、更符合人类偏好

本文介绍了一篇语言模型对齐研究的论文，由瑞士、英国、和法国的三所大学的博士生和 Google DeepMind 以及 Google Research 的研究人员合作完成。

来自主题: AI技术研报

10514 点击 2024-07-01 15:17