AI资讯新闻榜单内容搜索-DPO

ICLR 2026 Oral | DPO「只看总分不看细节」？TI-DPO用Token重要性重塑大模型对齐

在当今的大模型后训练（Post-training）阶段，DPO（直接偏好优化）凭借其无需训练独立 Reward Model 的优雅设计和高效性，成功取代 PPO 成为业界的「版本之子」，被广泛应用于 Llama-3、Mistral 等顶流开源模型的对齐中。

来自主题: AI技术研报

6719 点击 2026-02-11 13:58

挑战GRPO，英伟达提出GDPO，专攻多奖励优化

GRPO 是促使 DeepSeek-R1 成功的基础技术之一。最近一两年，GRPO 及其变体因其高效性和简洁性，已成为业内广泛采用的强化学习算法。

来自主题: AI技术研报

7362 点击 2026-01-12 09:34

DPO与GRPO谁更胜一筹？港中文、北大等联合发布首个系统性对比研究

近年来，强化学习 (RL) 在提升大型语言模型 (LLM) 的链式思考 (CoT) 推理能力方面展现出巨大潜力，其中直接偏好优化 (DPO) 和组相对策略优化 (GRPO) 是两大主流算法。

来自主题: AI技术研报

8810 点击 2025-06-20 10:53

免费ReadPo快用起来：新闻抓取+生成海报一气呵成！

最近在WaytoAGI社区，留意到有朋友在用一款海报，发送最新的咨询信息，并且信息整理详尽，你可以从无序的新闻热点里，跳出来了。那么今天介绍的，ReadPo 是 AI 驱动的读写助手。以闪电般的速度帮你完成信息的收集和筛选，并创建引人入胜的新内容。

来自主题: AI资讯

7940 点击 2025-06-01 10:59

什么样的偏好，才叫好的偏好？——揭秘偏好对齐数据的「三驾马车」

近年来，大语言模型（LLMs）的对齐研究成为人工智能领域的核心挑战之一，而偏好数据集的质量直接决定了对齐的效果。无论是通过人类反馈的强化学习（RLHF），还是基于「RL-Free」的各类直接偏好优化方法（例如 DPO），都离不开高质量偏好数据集的构建。

来自主题: AI技术研报

8724 点击 2025-04-15 14:29

OpenAI早期员工David Luan最新访谈：DeepSeek并未改变AI技术的叙事

近日，在红点创投（Redpoint Venture）的播客“Unsupervised Learning”上，红点创投合伙人Jacob Effron与David Luan进行了一次访谈。他们从技术视角出发，探讨了DeepSeek给大模型领域的研究和实践带来的启示，并围绕AI模型当下瓶颈的思考和潜在的突破方向做了分享。

来自主题: AI资讯

7527 点击 2025-02-27 09:35