AI资讯新闻榜单内容搜索-RL

李飞飞对话 a16z：LLM 是有损压缩，世界模型才是真正重要方向，应用远超机器人

World Labs 是由著名 AI 专家、斯坦福大学教授李飞飞于 2024 年创办的初创公司，致力于开发具备“空间智能”的下一代 AI 系统。

来自主题: AI资讯

5157 点击 2025-06-05 16:23

无监督的熵最小化（EM）方法仅需一条未标注数据和约10步优化，就能显著提升大模型在推理任务上的表现，甚至超越依赖大量数据和复杂奖励机制的强化学习（RL）。EM通过优化模型的预测分布，增强其对正确答案的置信度，为大模型后训练提供了一种更高效简洁的新思路。

来自主题: AI技术研报

6828 点击 2025-06-05 11:43

当前最强多模态Agent连验证码都解不了？

来自主题: AI技术研报

7334 点击 2025-06-05 10:39

强化学习（RL）到底是语言模型能力进化的「发动机」，还是只是更努力地背题、换个方式答题？这个问题，学界争论已久：RL 真能让模型学会新的推理技能吗，还是只是提高了已有知识的调用效率？

来自主题: AI技术研报

6819 点击 2025-06-05 10:27

想训练属于自己的高性能推理模型，却被同步强化学习（RL）框架的低效率和高门槛劝退？AReaL 全面升级，更快，更强，更好用！

来自主题: AI技术研报

6502 点击 2025-06-04 14:05

李飞飞空间智能创业公司World Labs，开源一项核心技术！

来自主题: AI资讯

7408 点击 2025-06-03 18:34

推理模型常常表现出类似自我反思的行为，但问题是——这些行为是否真的能有效探索新策略呢？

来自主题: AI技术研报

7281 点击 2025-06-02 17:48

数据枯竭正成为AI发展的新瓶颈！CMU团队提出革命性方案SRT：让LLM实现无需人类标注的自我进化！SRT初期就能迭代提升数学与推理能力，甚至性能逼近传统强化学习的效果，揭示了其颠覆性潜力。

来自主题: AI技术研报

6946 点击 2025-06-02 14:16

复刻DeepSeek-R1的长思维链推理，大模型强化学习新范式RLIF成热门话题。

来自主题: AI技术研报

8572 点击 2025-05-29 15:10

即使RLVR（可验证奖励强化学习）使用错误的奖励信号，Qwen性能也能得到显著提升？

来自主题: AI技术研报

8483 点击 2025-05-29 15:01