AI资讯新闻榜单内容搜索-强化学习

AI在线强化学习“边做边学”，斯坦福团队让7B小模型性能飙升，甚至超越GPT-4o

斯坦福等新框架，用在线强化学习让智能体系统“以小搏大”，领先GPT-4o—— AgentFlow，是一种能够在线优化智能体系统的新范式，可以持续提升智能体系统对于复杂问题的推理能力。

来自主题: AI技术研报

7067 点击 2025-10-25 14:03

强化学习能力强大，几乎已经成为推理模型训练流程中的标配，也有不少研究者在探索强化学习可以为大模型带来哪些涌现行为。

来自主题: AI技术研报

6428 点击 2025-10-24 10:33

大模型在强化学习过程中，终于知道什么经验更宝贵了！来自上海人工智能实验室、澳门大学、南京大学和香港中文大学的研究团队，最近提出了一套经验管理和学习框架ExGRPO—— 通过科学地识别、存储、筛选和学习有价值的经验，让大模型在优化推理能力的道路上，走得更稳、更快、更远。

来自主题: AI技术研报

7090 点击 2025-10-23 15:42

随着多模态大模型的不断演进，指令引导的图像编辑（Instruction-guided Image Editing）技术取得了显著进展。然而，现有模型在遵循复杂、精细的文本指令方面仍面临巨大挑战，往往需要用户进行多次尝试和手动筛选，难以实现稳定、高质量的「一步到位」式编辑。

来自主题: AI技术研报

11004 点击 2025-10-23 12:28

年初的 DeepSeek-R1，带来了大模型强化学习（RL）的火爆。无论是数学推理、工具调用，还是多智能体协作，GRPO（Group Relative Policy Optimization）都成了最常见的 RL 算法。

来自主题: AI技术研报

7897 点击 2025-10-23 11:41

从 AlphaGo 战胜人类棋手，到 GPT 系列展现出惊人的推理与语言能力，强化学习（Reinforcement Learning, RL）一直是让机器「学会思考」的关键驱动力。

来自主题: AI技术研报

8506 点击 2025-10-22 11:46

UC Berkeley、UW、AI2 等机构联合团队最新工作提出：在恰当的训练范式下，强化学习（RL）不仅能「打磨」已有能力，更能逼出「全新算法」级的推理模式。他们构建了一个专门验证这一命题的测试框架 DELTA，并观察到从「零奖励」到接近100%突破式跃迁的「RL grokking」现象。

来自主题: AI技术研报

8919 点击 2025-10-22 11:33

近年来，大语言模型（LLMs）以及多模态大模型（MLLMs）在多种场景理解和复杂推理任务中取得突破性进展。

来自主题: AI技术研报

7278 点击 2025-10-21 15:53

现有视觉语言大模型（VLMs）在多模态感知和推理任务上仍存在明显短板：1. 对图像中的细粒度视觉信息理解有限，视觉感知和推理能力未被充分激发；2. 强化学习虽能带来改进，但缺乏高质量、易扩展的 RL 数据。

来自主题: AI技术研报

7926 点击 2025-10-21 15:30

在 LLM 领域，扩大强化学习算力规模正在成为一个关键的研究范式。但要想弄清楚 RL 的 Scaling Law 具体是什么样子，还有几个关键问题悬而未决：如何 scale？scale 什么是有价值的？RL 真的能如预期般 scale 吗？

来自主题: AI技术研报

9988 点击 2025-10-19 17:54