AI资讯新闻榜单内容搜索-RL

重磅！淘天联合爱橙开源强化学习训练框架ROLL，高效支持十亿到千亿参数大模型训练

过去几年，随着基于人类偏好的强化学习（Reinforcement Learning from Human Feedback，RLHF）的兴起，强化学习（Reinforcement Learning，RL）已成为大语言模型（Large Language Model，LLM）后训练阶段的关键技术。

来自主题: AI技术研报

5728 点击 2025-06-25 16:55

合成数据>人工数据，绝对性能暴涨超10个点！仅需任务定义，高效微调大模型

基础模型严重依赖大规模、高质量人工标注数据来学习适应新任务、领域。为解决这一难题，来自北京大学、MIT等机构的研究者们提出了一种名为「合成数据强化学习」（Synthetic Data RL）的通用框架。该框架仅需用户提供一个简单的任务定义，即可全自动地生成高质量合成数据。

来自主题: AI技术研报

8123 点击 2025-06-24 16:13

ACL 2025 | 让小说角色「活」起来！复旦BookWorld打造沉浸式小说世界模拟系统

想象为《红楼梦》或《权力的游戏》创造一个AI的世界。书中的角色们变成AI，活在BookWorld当中。每天，他/她们醒来，思考，彼此对话、互动，建立感情和关系。

来自主题: AI技术研报

7100 点击 2025-06-24 15:59

英伟达笑到最后！训练2000步，1.5B逆袭7B巨兽，Scaling真来了

强化学习可以提升LLM推理吗？英伟达ProRL用超2000步训练配方给出了响亮的答案。仅15亿参数模型，媲美Deepseek-R1-7B，数学、代码等全面泛化。

来自主题: AI技术研报

6592 点击 2025-06-22 16:32

5年白领下岗，AGI靠RL一飞冲天？网友：这是让狗学会打麻将！

只靠强化学习，AGI就能实现？Claude-4核心成员放话「5年内AI干掉白领」，却被Karpathy等联手泼冷水！持续学习真的可能吗？RL的真正边界、下一代智能的关键转折点到底在哪儿？

来自主题: AI资讯

7029 点击 2025-06-22 16:13

从RLHF、PPO到GRPO再训练推理模型，这是你需要的强化学习入门指南

强化学习（RL）已经成为当今 LLM 不可或缺的技术之一。从大模型对齐到推理模型训练再到如今的智能体强化学习（Agentic RL），你几乎能在当今 AI 领域的每个领域看到强化学习的身影。

来自主题: AI技术研报

5915 点击 2025-06-22 16:08

知识储备≠模型能力！DeepMind强化学习微调：大幅缩小「知行差距」

大语言模型（LLMs）在决策场景中常因贪婪性、频率偏差和知行差距表现欠佳。研究者提出强化学习微调（RLFT），通过自我生成的推理链（CoT）优化模型，提升决策能力。实验表明，RLFT可增加模型探索性，缩小知行差距，但探索策略仍有改进空间。

来自主题: AI技术研报

6235 点击 2025-06-22 11:34

DPO与GRPO谁更胜一筹？港中文、北大等联合发布首个系统性对比研究

近年来，强化学习 (RL) 在提升大型语言模型 (LLM) 的链式思考 (CoT) 推理能力方面展现出巨大潜力，其中直接偏好优化 (DPO) 和组相对策略优化 (GRPO) 是两大主流算法。

来自主题: AI技术研报

7338 点击 2025-06-20 10:53

SFT+RL双管齐下：ReasonGen-R1如何破解文生图「指令不遵」难题？

近年来，链式推理和强化学习已经被广泛应用于大语言模型，让大语言模型的推理能力得到了显著提升。

来自主题: AI技术研报

5994 点击 2025-06-17 10:15

AGI真方向？谷歌证明：智能体在自研世界模型，世界模型is all You Need

越通用，就越World Models。我们知道，大模型技术爆发的原点可能在谷歌一篇名为《Attention is All You Need》的论文上。

来自主题: AI技术研报

6634 点击 2025-06-14 13:22

AI资讯新闻榜单内容搜索-RL

重磅！淘天联合爱橙开源强化学习训练框架ROLL，高效支持十亿到千亿参数大模型训练

合成数据>人工数据，绝对性能暴涨超10个点！仅需任务定义，高效微调大模型

ACL 2025 | 让小说角色 「活」起来！复旦BookWorld打造沉浸式小说世界模拟系统

英伟达笑到最后！训练2000步，1.5B逆袭7B巨兽，Scaling真来了

5年白领下岗，AGI靠RL一飞冲天？网友：这是让狗学会打麻将！

从RLHF、PPO到GRPO再训练推理模型，这是你需要的强化学习入门指南

知识储备≠模型能力！DeepMind强化学习微调：大幅缩小「知行差距」

DPO与GRPO谁更胜一筹？港中文、北大等联合发布首个系统性对比研究

SFT+RL双管齐下：ReasonGen-R1如何破解文生图「指令不遵」难题？

AGI真方向？谷歌证明：智能体在自研世界模型，世界模型is all You Need

ACL 2025 | 让小说角色「活」起来！复旦BookWorld打造沉浸式小说世界模拟系统