AI资讯新闻榜单内容搜索-强化学习

ARPO：智能体强化策略优化，让Agent在关键时刻多探索一步

在可验证强化学习（RLVR）的推动下，大语言模型在单轮推理任务中已展现出不俗表现。然而在真实推理场景中，LLM 往往需要结合外部工具进行多轮交互，现有 RL 算法在平衡模型的长程推理与多轮工具交互能力方面仍存在不足。

来自主题: AI技术研报

5499 点击 2025-08-10 13:29

强化学习（RL）范式虽然显著提升了大语言模型（LLM）在复杂任务中的表现，但其在实际应用中仍面临传统RL框架下固有的探索难题。

来自主题: AI资讯

6536 点击 2025-08-08 11:06

强化学习+任意一张牌，往往就是王炸。专注于LLM+RL的科技公司OpenPipe提出全新开源强化学习框架——MCP·RL。

来自主题: AI资讯

6070 点击 2025-08-08 10:53

AlphaStar等证明强化学习在游戏等复杂任务上，表现出色，远超职业选手！那强化学习怎么突然就不行了呢？强化学习到底是怎么走上歧路的？

来自主题: AI技术研报

5940 点击 2025-08-05 13:46

一句话概括，原来强化学习的“捷径”是天生的，智能体能去的地方（流形）被动作维度（低维流形）限制得死死的，根本没机会去那些没用的高维空间瞎逛。

来自主题: AI资讯

5284 点击 2025-08-05 11:59

不知道大家是否还记得，人工智能先驱、强化学习之父、图灵奖获得者 Richard S. Sutton，在一个多月前的演讲。 Sutton 认为，LLM 现在学习人类数据的知识已经接近极限，依靠「模仿人类」很难再有创新。

来自主题: AI技术研报

6964 点击 2025-08-04 12:25

在语言模型领域，长思维链监督微调（Long-CoT SFT）与强化学习（RL）的组合堪称黄金搭档 —— 先让模型学习思考模式，再用奖励机制优化输出，性能通常能实现叠加提升。

来自主题: AI技术研报

6215 点击 2025-08-02 12:49

近期，随着OpenAI-o1/o3和Deepseek-R1的成功，基于强化学习的微调方法（R1-Style）在AI领域引起广泛关注。这些方法在数学推理和代码智能方面展现出色表现，但在通用多模态数据上的应用研究仍有待深入。

来自主题: AI技术研报

6565 点击 2025-08-01 16:08

仅靠提示词优化就能超越 DeepSeek 开发的 GRPO 强化学习算法？是的，你没有看错。近日上线 arXiv 的一篇论文正是凭此吸引了无数眼球。

来自主题: AI技术研报

5965 点击 2025-08-01 11:42

近年来，OpenAI o1 和 DeepSeek-R1 等模型的成功证明了强化学习能够显著提升语言模型的推理能力。通过基于结果的奖励机制，强化学习使模型能够发展出可泛化的推理策略，在复杂问题上取得了监督微调难以企及的进展。

来自主题: AI技术研报

4408 点击 2025-07-31 10:10