AI资讯新闻榜单内容搜索-RL

重磅开源！首个全异步强化学习训练系统来了，SOTA推理大模型RL训练提速2.77倍

想训练属于自己的高性能推理模型，却被同步强化学习（RL）框架的低效率和高门槛劝退？AReaL 全面升级，更快，更强，更好用！

来自主题: AI技术研报

6077 点击 2025-06-04 14:05

李飞飞空间智能创业公司World Labs，开源一项核心技术！

来自主题: AI资讯

6864 点击 2025-06-03 18:34

推理模型常常表现出类似自我反思的行为，但问题是——这些行为是否真的能有效探索新策略呢？

来自主题: AI技术研报

7022 点击 2025-06-02 17:48

数据枯竭正成为AI发展的新瓶颈！CMU团队提出革命性方案SRT：让LLM实现无需人类标注的自我进化！SRT初期就能迭代提升数学与推理能力，甚至性能逼近传统强化学习的效果，揭示了其颠覆性潜力。

来自主题: AI技术研报

6359 点击 2025-06-02 14:16

复刻DeepSeek-R1的长思维链推理，大模型强化学习新范式RLIF成热门话题。

来自主题: AI技术研报

8222 点击 2025-05-29 15:10

即使RLVR（可验证奖励强化学习）使用错误的奖励信号，Qwen性能也能得到显著提升？

来自主题: AI技术研报

8143 点击 2025-05-29 15:01

信息检索能力对提升大语言模型 (LLMs) 的推理表现至关重要，近期研究尝试引入强化学习 (RL) 框架激活 LLMs 主动搜集信息的能力，但现有方法在训练过程中面临两大核心挑战：

来自主题: AI技术研报

4884 点击 2025-05-29 14:48

来自华盛顿大学、AI2、UC伯克利研究团队证实，「伪奖励」（Spurious Rewards）也能带来LLM推理能力提升的惊喜。

来自主题: AI技术研报

7007 点击 2025-05-29 10:18

你有没有遇到过这样的算力困境：买了 GPU，用不了几次就闲置烧钱，偶尔想用的时候却一卡难求？

来自主题: AI技术研报

4853 点击 2025-05-28 15:09

仅需一个强化学习（RL）框架，就能实现视觉任务大统一？

来自主题: AI技术研报

5755 点击 2025-05-28 10:41