AI资讯新闻榜单内容搜索-GRPO

快手Klear-Reasoner登顶8B模型榜首，GPPO算法双效强化稳定性与探索能力！

在大语言模型的竞争中，数学与代码推理能力已经成为最硬核的“分水岭”。从 OpenAI 最早将 RLHF 引入大模型训练，到 DeepSeek 提出 GRPO 算法，我们见证了强化学习在推理模型领域的巨大潜力。

来自主题: AI技术研报

5552 点击 2025-08-22 17:23

冗长响应缩减80%，DeepSeek GRPO获得颠覆性改进，微软GFPO问世

用过 DeepSeek-R1 等推理模型的人，大概都遇到过这种情况：一个稍微棘手的问题，模型像陷入沉思一样长篇大论地推下去，耗时耗算力，结果却未必靠谱。现在，我们或许有了解决方案。

来自主题: AI技术研报

5245 点击 2025-08-15 11:26

大型语言模型稳定强化学习的新路径：几何平均策略优化GMPO

近年来，强化学习（RL）在大型语言模型（LLM）的微调过程中，尤其是在推理能力提升方面，取得了显著的成效。传统的强化学习方法，如近端策略优化（Proximal Policy Optimization，PPO）及其变种，包括组相对策略优化（Group Relative Policy Optimization，GRPO），在处理复杂推理任务时表现出了强大的潜力。

来自主题: AI技术研报

5397 点击 2025-08-13 16:03

DeepSeek的GRPO会导致模型崩溃？看下Qwen3新范式GSPO

众所周知，大型语言模型的训练通常分为两个阶段。第一阶段是「预训练」，开发者利用大规模文本数据集训练模型，让它学会预测句子中的下一个词。第二阶段是「后训练」，旨在教会模型如何更好地理解和执行人类指令。

来自主题: AI技术研报

7119 点击 2025-08-08 11:22

训练时间减半，性能不降反升！腾讯混元开源图像生成高效强化方案MixGRPO

图像生成不光要好看，更要高效。混元基础模型团队提出全新框架MixGRPO，该框架通过结合随机微分方程（SDE）和常微分方程（ODE），利用混合采样策略的灵活性，简化了MDP中的优化流程，从而提升了效率的同时还增强了性能。

来自主题: AI技术研报

6078 点击 2025-08-03 13:37

当提示词优化器学会进化，竟能胜过强化学习

仅靠提示词优化就能超越 DeepSeek 开发的 GRPO 强化学习算法？是的，你没有看错。近日上线 arXiv 的一篇论文正是凭此吸引了无数眼球。

来自主题: AI技术研报

5922 点击 2025-08-01 11:42

Meta-Think ≠ 记套路，多智能体强化学习解锁大模型元思考泛化

最近，关于大模型推理的测试时间扩展（Test time scaling law ）的探索不断涌现出新的范式，包括① 结构化搜索结（如 MCTS），② 过程奖励模型（Process Reward Model ）+ PPO，③ 可验证奖励（Verifiable Reward）+ GRPO（DeepSeek R1）。

来自主题: AI技术研报

6477 点击 2025-07-04 09:44