在GSM8K上比GRPO快8倍!厦大提出CPPO,让强化学习快如闪电 在GSM8K上比GRPO快8倍!厦大提出CPPO,让强化学习快如闪电 关键词: AI,模型训练,GRPO,CPPO DeepSeek-R1 的成功离不开一种强化学习算法:GRPO(组相对策略优化)。 来自主题: AI技术研报 5694 点击 2025-04-01 16:16