
英伟达揭示RL Scaling魔力!训练步数翻倍=推理能力质变,小模型突破推理极限
英伟达揭示RL Scaling魔力!训练步数翻倍=推理能力质变,小模型突破推理极限强化学习(RL)到底是语言模型能力进化的「发动机」,还是只是更努力地背题、换个方式答题?这个问题,学界争论已久:RL 真能让模型学会新的推理技能吗,还是只是提高了已有知识的调用效率?
来自主题: AI技术研报
6214 点击 2025-06-05 10:27
强化学习(RL)到底是语言模型能力进化的「发动机」,还是只是更努力地背题、换个方式答题?这个问题,学界争论已久:RL 真能让模型学会新的推理技能吗,还是只是提高了已有知识的调用效率?