AI资讯新闻榜单内容搜索-强化学习

9年实现爱因斯坦级AGI？OpenAI科学家Dan Roberts谈强化学习扩展的未来

近日，在红杉资本主办的 AI Ascent 上，OpenAI 研究科学家 Dan Roberts 做了主题为「接下来的未来 / 扩展强化学习」的演讲，其上传到 YouTube 的版本更是采用了一个更吸引人的标题：「9 年实现 AGI？OpenAI 的 Dan Roberts 推测将如何模拟爱因斯坦。」

来自主题: AI资讯

8131 点击 2025-05-10 17:51

万径归于「概率」，华人学者颠覆认知！英伟达大牛力荐RL微调新作

华人学者参与的一项研究，重新确立了强化学习在LLM微调的价值，深度解释了AI训练「两阶段强化学习」的原因。某种意义上，他们的论文说明RL微调就是统计。

来自主题: AI技术研报

9273 点击 2025-05-10 15:10

突破多模态奖励瓶颈！中科院清华快手联合提出R1-Reward，用强化学习赋予模型长期推理能力

多模态奖励模型（MRMs）在提升多模态大语言模型（MLLMs）的表现中起着至关重要的作用：

来自主题: AI技术研报

8950 点击 2025-05-09 11:51

绝对零监督Absolute Zero：类AlphaZero自博弈赋能大模型推理，全新零数据训练范式问世

在人工智能领域，推理能力的进化已成为通向通用智能的核心挑战。近期，Reinforcement Learning with Verifiable Rewards（RLVR）范式下涌现出一批「Zero」类推理模型，摆脱了对人类显式推理示范的依赖，通过强化学习过程自我学习推理轨迹，显著减少了监督训练所需的人力成本。

来自主题: AI技术研报

7940 点击 2025-05-08 14:49

搞不懂CUDA的人有救了，Devin开发商开源Kevin，强化学习生成CUDA内核

本周三，知名 AI 创业公司，曾发布「全球首个 AI 软件工程师」的 Cognition AI 开源了一款使用强化学习，用于编写 CUDA 内核的大模型 Kevin-32B。

来自主题: AI技术研报

10303 点击 2025-05-07 15:23

万字长文带你读懂强化学习，去中心化强化学习又能否实现？

强化学习（RL）是当今 AI 领域最热门的词汇之一。近日，一篇长文梳理了新时代的强化学习范式对于模型提升的作用，同时还探索了强化学习对去中心化的意义。

来自主题: AI技术研报

8542 点击 2025-05-07 14:17

VDC+VBench双榜第一！强化学习打磨的国产视频大模型，超越Sora、Pika

随着 Deepseek 等强推理模型的成功，强化学习在大语言模型训练中越来越重要，但在视频生成领域缺少探索。复旦大学等机构将强化学习引入到视频生成领域，经过强化学习优化的视频生成模型，生成效果更加自然流畅，更加合理。并且分别在 VDC（Video Detailed Captioning）[1] 和 VBench [2] 两大国际权威榜单中斩获第一。

来自主题: AI技术研报

9445 点击 2025-05-06 15:07