自 Anthropic 推出 Claude Computer Use,打响电脑智能体(Computer Use Agent)的第一枪后,OpenAI 也相继推出 Operator,
用强化学习(RL)算法把电脑智能体的能力推向新高,引发全球范围广泛关注。
业界普遍认为,需要海量的轨迹数据或复杂的强化学习才能实现电脑智能体的水平突破
——这可能意味着大量的人工轨迹标注,以及大规模虚拟机环境的构建,以支撑智能体的学习与优化。
然而,来自上海交通大学和 SII 的最新研究却给出了一个非共识答案:仅需 312 条人类标注轨迹,
使用 Claude 3.7 Sonnet 合成更丰富的动作决策,就能激发模型 241% 的性能,
甚至超越 Claude 3.7 Sonnet extended thinking 模式,成为 Windows 系统上开源电脑智能体的新一代 SOTA。
这一发现传递出一个关键信号:当前大模型已经具备了使用电脑完成任务的基础能力,其性能瓶颈主要在于长程推理(long-horizon planning)能力的激发,
而这一能力使用极少量高质量轨迹即可显著提升。
数据从哪来?人类提供原始操作轨迹
与以往依赖大规模人工标注或复杂自动化合成的方式不同,团队的方法只需 312 条真实的人类操作轨迹。
这些轨迹由团队开发的工具 PC Tracker 收集而来,仅由两位作者花一天时间操作自己的电脑,就完成了原始轨迹数据的收集。
每条轨迹包含任务描述、屏幕截图以及键盘鼠标操作,并确保了数据的正确性。
312 条轨迹在不同软件上的分布
思维链补全:让「动作」有「思考」的支撑
人类执行每一个动作,往往都有一定的理由或「思考过程」。但在收集的原始轨迹数据中,这部分「思维链」是缺失的。
于是,团队对人类动作进行了「思维链补全」(Thought Completion),为每一个动作步骤添加了背后的思考逻辑(符合于 ReAct 范式)。
此时的数据已足以用于智能体训练,但团队并未止步于此——接下来的关键一步,进一步大幅提升了轨迹质量。
轨迹增强:让 AI 帮你「脑洞大开」
接下来,团队提出了一个关键创新点:轨迹增强(Trajectory Boost),这正是使用极少轨迹让模型超越 Claude 3.7 Sonnet(thinking)的关键。
其核心观察为:每个电脑任务其实可以通过多种路径完成。也就是说,除了人类采取的动作以外,轨迹中的每一步其实都有多个「合理的动作决策」。
为了捕捉这种轨迹内在的多样性,团队利用前沿模型 Claude 3.7 Sonnet,为轨迹的每一步合成更多的动作决策。
团队注意到,轨迹中每一步记录的数据,作为「环境快照(environment snapshot)」,已足以为人类或智能体提供决策信息。
于是,团队将这些快照提供给 Claude 3.7 Sonnet,采样多个包含思考过程的动作决策。这一过程极大丰富了轨迹数据的多样性。
思维链补全与轨迹增强
模型训练:少量数据也能训出强大模型
最终,团队在开源模型 Qwen2.5-VL-72B 的基础上进行训练,得到 PC Agent-E 智能体。
作为一款原生智能体模型(native agent model),PC Agent-E 无需依赖复杂的工作流设计,即可实现端到端的任务执行。
令人惊喜的是,在仅使用 312 条人工标注轨迹的情况下,模型性能便达到了训练前的 241%,展现出极高的样本效率。
团队在 WindowsAgentArena-V2 上进行评测——这是对原始 WindowsAgentArena 存在问题进行改进后的新版本。
实验结果显示,PC Agent-E 的表现甚至超过了 Claude 3.7 Sonnet 的「extended thinking」模式,而用于数据合成的 Claude 3.7 Sonnet 并未启用这一模式。
这标志着 PC Agent-E 成为当前 Windows 系统上开源电脑智能体的新一代 SOTA!与此同时,PC Agent-E 在 OSWorld 上也表现出不俗的跨平台泛化性能。
不同电脑智能体在 WindowsAgentArena-V2 上的评估结果
轨迹增强方法的有力验证
论文的关键创新之一——轨迹增强方法在人类轨迹的每一步补充了 9 个合成动作决策。
为了进一步验证该方法的效果,团队调整训练时使用的合成动作数量,并观察其对模型性能的影响。
如图所示,随着合成动作数量的增加,模型性能显著提升,并展现出良好的拓展趋势。
相比仅使用人类轨迹训练(性能提升仅 15%),PC Agent-E 在引入合成动作后实现了高达 141% 的性能飞跃,
充分证明了轨迹增强方法对智能体能力突破的关键作用。
模型能力随训练数据中动作决策的扩展倍数的变化
结论与展望
实验结果有力证明了一个关键观点:少量高质量轨迹,就足以激发智能体强大的长程推理(long-horizon planning)能力。
无需海量人类标注,就能训练出当前最优(SOTA)的电脑智能体。
目前,即使是最前沿的电脑智能体,其能力与人类相比仍有明显差距。
在这种情况下,在预训练和监督微调阶段引入一定的人类认知,仍然是为后续强化学习打下坚实基础的必要步骤。
团队方法提供了一种新的思路:在人类标注轨迹注定有限的情况下,可以通过提高轨迹质量来实现高效的性能提升。
这不仅降低了数据需求,也为未来构建更智能、更自主的数字代理铺平了道路。
PC Agent-E 只是一个开始。通往真正能理解并自如操作数字世界的智能代理之路,仍在继续。
文章来自于微信公众号 “机器之心”,作者 :机器之心
【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务,如比较价格、添加购物车、回复各种社交媒体等。
项目地址:https://github.com/browser-use/browser-use
【开源免费】n8n是一个可以自定义工作流的AI项目,它提供了200个工作节点来帮助用户实现工作流的编排。
项目地址:https://github.com/n8n-io/n8n
在线使用:https://n8n.io/(付费)
【开源免费】DB-GPT是一个AI原生数据应用开发框架,它提供开发多模型管理(SMMF)、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL(智能体工作流编排)等多种技术能力,让围绕数据库构建大模型应用更简单、更方便。
项目地址:https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file
【开源免费】VectorVein是一个不需要任何编程基础,任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤,并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。
项目地址:https://github.com/AndersonBY/vector-vein?tab=readme-ov-file
在线使用:https://vectorvein.ai/(付费)
【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。
项目地址:https://github.com/Significant-Gravitas/AutoGPT
【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md
【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台,可以对大语言模型(LLM)和多模态图文模型(VLM)进行预训练和轻量级微调。XTuner 支持多种微调算法,如 QLoRA、LoRA 和全量参数微调。
项目地址:https://github.com/InternLM/xtuner