AI资讯新闻榜单内容搜索-对齐

从RLHF、PPO到GRPO再训练推理模型，这是你需要的强化学习入门指南

强化学习（RL）已经成为当今 LLM 不可或缺的技术之一。从大模型对齐到推理模型训练再到如今的智能体强化学习（Agentic RL），你几乎能在当今 AI 领域的每个领域看到强化学习的身影。

来自主题: AI技术研报

5951 点击 2025-06-22 16:08

本文介绍的工作由中国人民大学高瓴人工智能学院李崇轩、文继荣教授团队与蚂蚁集团共同完成。朱峰琪、王榕甄、聂燊是中国人民大学高瓴人工智能学院的博士生，导师为李崇轩副教授。

来自主题: AI技术研报

9240 点击 2025-06-07 14:05

新加坡国立大学等机构的研究者们通过元能力对齐的训练框架，模仿人类推理的心理学原理，将演绎、归纳与溯因能力融入模型训练。实验结果显示，这一方法不仅提升了模型在数学与编程任务上的性能，还展现出跨领域的可扩展性。

来自主题: AI技术研报

9253 点击 2025-06-03 10:36

如何让CLIP模型更关注细粒度特征学习，避免“近视”？360人工智能研究团队提出了FG-CLIP，可以明显缓解CLIP的“视觉近视”问题。让模型能更关注于正确的细节描述，而不是更全局但是错误的描述。

来自主题: AI技术研报

7913 点击 2025-06-02 15:17

刚刚发布的Claude 4被发现，它可能会自主判断用户行为，如果用户做的事情极其邪恶，且模型有对工具的访问权限，它可能就要通过邮件联系相关部门，把你锁出系统。这事儿，Anthropic团队负责模型对齐工作的一位老哥亲口说的。

来自主题: AI资讯

8901 点击 2025-05-23 22:14

在多模态大模型快速发展的当下，如何精准评估其生成内容的质量，正成为多模态大模型与人类偏好对齐的核心挑战。然而，当前主流多模态奖励模型往往只能直接给出评分决策，或仅具备浅层推理能力，缺乏对复杂奖励任务的深入理解与解释能力，在高复杂度场景中常出现 “失真失准”。

来自主题: AI技术研报

9049 点击 2025-05-14 11:01

最近，北京大学陈宝权教授带领团队在三维形状生成和三维数据对齐方面取得新的突破。在三维数据生成方面，团队提出了3D自回归模型新范式，有望打破3D扩散模型在三维生成方面的垄断地位。

来自主题: AI技术研报

8006 点击 2025-04-25 10:08

作为一家公司，我们专注于三件事：预训练、微调和对齐。我们使用自有数据集进行预训练，这一点非常关键，而很多公司并不具备这样的能力。然后，我们用专家手工整理的数据进行微调。最有趣、最重要的部分在于对齐，这与简单地寻找“当前最优解”是截然不同的。

来自主题: AI资讯

6026 点击 2025-04-16 14:29

近年来，大语言模型（LLMs）的对齐研究成为人工智能领域的核心挑战之一，而偏好数据集的质量直接决定了对齐的效果。无论是通过人类反馈的强化学习（RLHF），还是基于「RL-Free」的各类直接偏好优化方法（例如 DPO），都离不开高质量偏好数据集的构建。

来自主题: AI技术研报

7138 点击 2025-04-15 14:29

“让机器人看懂世界、听懂指令、动手干活”正从科幻走向现实。

来自主题: AI技术研报

6869 点击 2025-04-12 13:22