
强化学习被高估!清华上交:RL不能提升推理能力,新知识得靠蒸馏
强化学习被高估!清华上交:RL不能提升推理能力,新知识得靠蒸馏一项来自清华大学和上海交通大学的研究颠覆了对可验证奖励强化学习(RLVR)的认知。RLVR被认为是打造自我进化大模型的关键,但实验表明,它可能只是提高了采样效率,而非真正赋予模型全新推理能力。
来自主题: AI技术研报
5891 点击 2025-04-28 16:51
一项来自清华大学和上海交通大学的研究颠覆了对可验证奖励强化学习(RLVR)的认知。RLVR被认为是打造自我进化大模型的关键,但实验表明,它可能只是提高了采样效率,而非真正赋予模型全新推理能力。
一个7B奖励模型搞定全学科,大模型强化学习不止数学和代码。