AI资讯新闻榜单内容搜索-强化学习

与Gemini Diffusion共振！首个扩散式「发散思维链」来了

近年来，思维链在大模型训练和推理中愈发重要。近日，西湖大学 MAPLE 实验室齐国君教授团队首次提出扩散式「发散思维链」—— 一种面向扩散语言模型的新型大模型推理范式。该方法将反向扩散过程中的每一步中间结果都看作大模型的一个「思考」步骤，然后利用基于结果的强化学习去优化整个生成轨迹，最大化模型最终答案的正确率。

来自主题: AI技术研报

6299 点击 2025-05-27 13:21

微软副总裁X上「开课」，连更关于RL的一切，LLM从业者必读

别人都在用 X 发帖子，分享新鲜事物，微软副总裁 Nando de Freitas 却有自己的想法：他要在 X 上「开课」，发布一些关于人工智能教育的帖子。该系列会从 LLM 的强化学习开始，然后逐步讲解扩散、流匹配，以及看看这些技术接下来会如何发展。

来自主题: AI资讯

8254 点击 2025-05-26 17:18

只用图像也能思考，强化学习造就推理模型新范式！复杂场景规划能力Max

近年来，LLM 及其多模态扩展（MLLM）在多种任务上的推理能力不断提升。然而，现有 MLLM 主要依赖文本作为表达和构建推理过程的媒介，即便是在处理视觉信息时也是如此。

来自主题: AI技术研报

7280 点击 2025-05-26 09:59

312条轨迹激发241%性能！上交大与SII开源电脑智能体，超越 Claude 3.7

自 Anthropic 推出 Claude Computer Use，打响电脑智能体（Computer Use Agent）的第一枪后，OpenAI 也相继推出 Operator，用强化学习（RL）算法把电脑智能体的能力推向新高，引发全球范围广泛关注。

来自主题: AI技术研报

7443 点击 2025-05-25 15:11

深度｜OpenAI研究员Dan Roberts：AI主流认知将被打破，未来某个时点强化学习将完全主导整个训练过程

我们发现，当模型在测试阶段花更多时间思考时，其推理表现会显著提升，这打破了业界普遍依赖预训练算力的传统认知。

来自主题: AI资讯

8263 点击 2025-05-18 14:56

通义实验室新研究：大模型自己「扮演」搜索引擎，提升推理能力无需搜索API

强化学习（RL）+真实搜索引擎，可以有效提升大模型检索-推理能力。

来自主题: AI技术研报

7607 点击 2025-05-17 15:41

泛化性暴涨47%！首个意图检测奖励范式，AI工具爆炸时代意图识别新解法

近日，腾讯 PCG 社交线的研究团队针对这一问题，采用强化学习（RL）训练方法，通过分组相对策略优化（Group Relative Policy Optimization, GRPO）算法，结合基于奖励的课程采样策略（Reward-based Curriculum Sampling, RCS），将其创新性地应用在意图识别任务上，

来自主题: AI技术研报

6186 点击 2025-05-16 15:25