断供？会“刻意练习”的Qwen2.5-3B，竟然超越Claude3.5！斯坦福最新

7591点击 2025-09-06 11:35

什么断供不断供，不存在的。。。拳打在沙袋上，沙袋会给你一个反作用力，让你感觉到这次出拳的力量和效果，却也让新手只爱打更快的拳。同样，在强化学习（RL）当中，模型生成的代码在环境中运行后，会返回一个分数（奖励）。这个分数就是反馈，它告诉模型这次“出拳”效果好不好，但问题在于它不会告诉模型正确的拳应该怎么打。来自斯坦福的研究者们最近发布的一篇论文（https://arxiv.org/abs/2509.01684）直指RL强化学习在机器学习工程（Machine Learning Engineering）领域的两个关键问题，并克服了它们，最终仅通过Qwen2.5-3B便在MLE任务上超越了仅依赖提示（prompting）的、规模更大的静态语言模型Claude3.5。这对于需要开发执行复杂、多步骤推理领域任务Agent的朋友来说，具有重要启发。

RL强化学习的标准

研究者首先先定义了驱动强化学习（RL）的标准，这套原理分为两步：“定义目标”和“如何优化”。

定义目标：最大化总奖励

RL的目标是找到一个最优策略pi，来最大化期望的总奖励 J(π)。这个目标用公式表示为

断供？会“刻意练习”的Qwen2.5-3B，竟然超越Claude3.5！斯坦福最新

J(π) 就是我们追求的最终“总分”。公式的核心是最大化summathcalR(s_k,a_k)，也就是一次任务中所有步骤奖励的总和。E[...] 表示我们希望在大量尝试中，平均总分最高。

如何优化：策略梯度

为了提升“总分”，模型需要知道朝哪个方向调整自己的参数θ。这个方向就由策略梯度 ∇J(π_θ)给出

断供？会“刻意练习”的Qwen2.5-3B，竟然超越Claude3.5！斯坦福最新

这是RL的“行动指南”。这部分告诉模型：对于刚刚采取的动作a_k，我们应该让它未来出现的概率变高还是变低。A(s_k,a_k) 是“优势函数”，它负责评估刚刚的动作a_k 到底有多好或多坏。如果它是一个大的正数，说明这个动作很棒，应该大力鼓励（让它出现概率变高）；如果是负数，说明是臭棋，应该抑制。

这套标准的公式，就是研究者们出发时的“地图”。但很快，他们在MLE这个复杂的“地形”中发现了地图上没有标出的陷阱。

AI的“急性子”陷阱，当智能体只爱抄近道

第一个问题：动作执行时间可变导致学习偏差 (Variable-Duration Actions)，或者您也可以理解为导致学习“短视”。在机器学习工程（MLE）任务中，智能体（Agent）的“动作”是生成并执行一段代码。但这些动作的执行时间千差万别：

断供？会“刻意练习”的Qwen2.5-3B，竟然超越Claude3.5！斯坦福最新

这就是一个绝佳的例子：智能体最终学会了总是选择执行时间不到1秒的线性逻辑回归（得分0.64），而放弃了探索那些虽然耗时长但可能效果更好的方案（如随机森林，得分0.65）。

快速动作：比如训练一个简单的逻辑回归模型，可能几秒钟就完成了。

慢速动作：比如使用网格搜索（GridSearch）来寻找最优超参数的复杂模型，可能需要几十分钟甚至更长。在标准的分布式强化学习（RL）框架中，多个“执行者”（actors）会同时生成不同的代码方案并运行它们，然后将结果（代码、执行结果、奖励）发送给一个“学习者”（learner）来更新模型。

这就导致了一个严重的偏差：系统会不成比例地偏爱那些执行速度快的动作。因为快速动作能更快地返回结果和奖励信号，所以在相同的时间内，它们被学习的次数远多于慢速动作，导致梯度更新的次数不均衡。最终，这种偏差会引导智能体走向“短视”和“急功近利”的策略，收敛到那些执行快但效果并非最优的解决方案上。

解决方案：用“时间加权”教会AI耐心和远见

为了纠正这种偏差，研究者提出了一种新颖的策略梯度更新方法 “感知时长”的梯度更新 (Duration-Aware Gradient Updates)，其核心思想是：在更新模型时，将每个动作的“学习信号”强度与其执行时间挂钩。说白了，就是一个动作执行的时间越长，它在模型更新中所占的权重就越大。这相当于在告诉模型：“这个方案虽然慢，但我们花了很大力气去尝试它，所以你要更认真地从它的结果中学习。”

断供？会“刻意练习”的Qwen2.5-3B，竟然超越Claude3.5！斯坦福最新

标准的策略梯度更新公式旨在最大化期望奖励。而作者修改后的“感知时长”策略梯度公式与标准公式相比，这里多了一个关键项： Δt_k。

Δt_k 代表动作 a_k 的执行时长。

通过将梯度更新乘以这个时长，那些高成本（耗时长）但高回报的动作对模型参数的最终影响被放大了。

从数学上看，这个时长权重 Δt_k 正好抵消了因为执行慢而导致的采样频率低的负面影响，使得每个动作的贡献只与其自身的概率和优势（回报）有关，而不再与其执行快慢有关。这确保了对耗时长的动作的“公平考虑”。

AI的“玻璃心”，要么满分或零分，怎么学？

强化学习依赖奖励信号来指导，这个大家都知道。在MLE任务中，最自然的奖励就是代码在测试集上的最终得分。研究者指出这是一个非常稀疏（sparse）和有限（limited）的反馈信号。也就是第二个问题：奖励信号稀疏导致学习走偏 (Limited Feedback)。

断供？会“刻意练习”的Qwen2.5-3B，竟然超越Claude3.5！斯坦福最新

上述图片中的例子就非常典型：在一个情感提取任务中，智能体完全放弃了机器学习，而是直接编写代码去“硬算”评估指标（Jaccard相似度），因为它发现这是获得非零分数的“捷径”。

因为只有当智能体生成的代码从头到尾（数据加载、训练、预测、生成提交文件）完美运行时，才能得到一个非零的分数。一个因为数据加载失败的程序和一个几乎成功、仅在最后保存文件时出错的程序，得到的奖励都是零（或者是一个表示失败的固定负值）。这使得智能体很难区分“错得离谱”和“就差一点”这两种情况，导致学习效率低下。这种稀疏的奖励会诱使智能体学会“投机取巧”。因为它很难走完一整套正确的ML流程来获得正分，所以它可能会找到一些评估机制的漏洞来“骗分”。

解决方案：给AI的每一步操作都打上“进度条”

为了解决反馈稀疏的问题来提供更密集的反馈信号，研究者提出了一种名为“环境检测”的巧妙方法，它的核心是为完成任务的中间步骤提供部分积分（partial credit）

断供？会“刻意练习”的Qwen2.5-3B，竟然超越Claude3.5！斯坦福最新

它的实现方式如下：

自动注入代码：在智能体生成的代码被执行之前，系统会使用一个独立的、静态的语言模型（与智能体本身分开），自动向代码中插入一系列print语句。这些语句会标记出关键的里程碑，例如 print("loaded data"), print("trained model") 等。

解析输出以计分：代码执行完毕后，系统会通过正则表达式（regex）匹配终端的输出日志，检查哪些里程碑被成功打印了出来。

奖励结构：每成功完成一个里程碑，智能体就会获得一小部分奖励（例如+0.1分），即使整个程序最终失败了。这为智能体提供了密集的、有指导性的反馈信号。

这个过程是完全自动化的。通过这种方式，智能体可以被逐步引导，先学会如何成功加载数据，然后学会如何构建和训练模型，最终完成整个任务。

结果怎么样？小模型“卷”翻了

为了验证其方法的有效性，研究团队在一系列复杂的机器学习任务上进行了严格的实验。

断供？会“刻意练习”的Qwen2.5-3B，竟然超越Claude3.5！斯坦福最新

实验设置

实验平台：实验选取了 MLEBench 基准中的12个Kaggle机器学习挑战任务。

训练模型：进行强化学习训练的模型是 Qwen2.5-3B。

对比：

更强的模型：将RL训练的Qwen与更大、更强的模型（如Claude-3.5-Sonnet, GPT-4o等）进行比较，这些大模型使用先进的 AIDE 智能体框架进行提示。

更强的框架：将RL训练的Qwen与使用不同智能体框架（如OpenHands, MLAB）的GPT-4o进行比较，以证明RL的提升效果普适于各种框架。

小模型+RL 超越大模型+提示

断供？会“刻意练习”的Qwen2.5-3B，竟然超越Claude3.5！斯坦福最新

在12个任务中，经过RL训练的Qwen2.5-3B在其中8个任务上的最终表现，优于强大的Claude-3.5-Sonnet。

- 量化提升：平均而言，RL训练的小模型比提示Claude-3.5-Sonnet的性能高出22%。 - 学习曲线：

断供？会“刻意练习”的Qwen2.5-3B，竟然超越Claude3.5！斯坦福最新

从学习曲线可以看出一个明显的趋势：在训练初期，大模型（红色）的性能远高于小模型（蓝色）。但随着RL训练的进行，小模型通过梯度更新不断从经验中学习和进化，最终实现了反超。这证明了“持续学习”比“静态天赋”在复杂任务上更有优势。

RL的提升超越了不同智能体框架

RL训练的Qwen在12个任务中的9个上，表现优于使用各种先进框架（AIDE, OpenHands, MLAB）的GPT-4o。

消融实验：验证每个创新点的有效性

为了证明两个核心解决方案（感知时长、环境检测）确实有效，研究者进行了“消融实验”（即去掉某个模块看效果如何）。

断供？会“刻意练习”的Qwen2.5-3B，竟然超越Claude3.5！斯坦福最新

“感知时长”的效果：没有这个机制（No DAG），智能体会迅速收敛到执行快但性能差的方案（如逻辑回归）。而加入了“感知时长”梯度更新后，智能体有“耐心”去探索那些更耗时但性能更好的方案（如梯度提升），从而获得了更高的分数。

断供？会“刻意练习”的Qwen2.5-3B，竟然超越Claude3.5！斯坦福最新

“环境检测”的效果：没有为中间步骤提供部分积分，智能体的学习过程非常不稳定且收敛缓慢。而加入了“环境检测”后，学习曲线变得平滑得多，收敛速度和最终性能都得到了显著提升。

“自我改进提示”的效果：实验发现，在训练中除了让模型从零解决问题，还加入50%的概率让它“改进”之前的方案，这种做法在12个任务中的10个上都带来了更好的最终性能。

理性的看待：研究的局限与未来方向

当然，没有一项研究是完美的。研究者在论文中也坦诚地指出了当前工作的局限性，并为后来者写明了未来可能的研究方向，这同样富有启发性：

将“成长心法”教给更大的模型：当前实验是在一个30亿参数的小模型上验证的。未来一个有趣的方向，是将这套强化学习的训练方法应用到像GPT-4或Claude这样更大规模的模型上，看看会产生怎样的效果。

培养能“举一反三”的通才专家：本次研究是为每个任务单独训练一个专家模型。未来更具挑战性的工作是，训练一个单一的智能体，让它能同时解决多个机器学习任务，并测试它在面对一个全新任务时的泛化能力。

教会智能体如何“分解任务”：目前智能体解决问题还是一口气的“整体交付”。另一种思路是，让智能体学会将一个复杂的机器学习问题，分解成数据处理、特征工程、模型训练等多个子步骤，然后逐一攻克，这也是一个值得探索的方向。

写在最后

断供？会“刻意练习”的Qwen2.5-3B，竟然超越Claude3.5！斯坦福最新

斯坦福的这项研究不仅是技术上的突破，更像是一场关于AI智能体培养理念的‘进化论’。对类似于机器学习工程这类复杂任务，依赖一个不会进步的“天才大脑”，不如选择一个普通但能够通过强化学习不断从实际任务经验中进行梯度更新、持续进化的“成长型大脑”。尽管起点较低，但后者的潜力最终会超越前者。或许我们更应该思考：我们能为AI设计一个怎样的‘沙袋’和‘记分牌’，让它在一次次的刻意练习中，自己领悟出那套必胜的拳法？

文章来自于微信公众号“AI修猫Prompt”。

关键词: AI , 模型训练 , Qwen2.5-3B , 人工智能

AITNT资源拓展

根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考

AI代理

【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务，如比较价格、添加购物车、回复各种社交媒体等。
项目地址：https://github.com/browser-use/browser-use

智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的（AI Agents）项目。用户创建的智能体能够自动执行各种任务，从而让AI有步骤的去解决实际问题。
项目地址：https://github.com/Significant-Gravitas/AutoGPT

﻿【开源免费】MetaGPT是一个“软件开发公司”的智能体项目，只需要输入一句话的老板需求，MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色，包括产品经理 / 架构师 / 项目经理 / 工程师，MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址：https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

免费使用GPT-4o

【免费】ffa.chat是一个完全免费的GPT-4o镜像站点，无需魔法付费，即可无限制使用GPT-4o等多个海外模型产品。
在线使用：https://ffa.chat/

prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法，编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词，进而高质量的帮助用户通过AI解决问题。
项目地址：https://github.com/langgptai/LangGPT/blob/main/README_zh.md
在线使用：https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0