智能体丝滑玩手机，决策延迟0.7秒！MSRA等提出验证器架构，不直接依赖大模型生成最终操作

4492点击 2025-04-03 15:19

随着人工智能和大语言模型（LLMs）的不断突破，如何将其优势赋能于现实世界中可实际部署的高效工具，成为了业界关注的焦点。

近期，由微软亚洲研究院、南洋理工大学、清华大学、香港科技大学等多家机构联合推出移动图形用户界面（GUI）任务自动化智能体——V-Droid。

凭借其全新“验证器驱动”架构，V-Droid不仅在任务成功率上刷新记录，同时在决策响应速度上实现了接近实时的表现，为移动端自动化控制开辟了全新局面。

演示视频1：

“请从Broccoli应用中删除以下食谱：鸡肉阿尔弗雷多意大利面、番茄罗勒烤面包以及番茄罗勒烤奶酪三明治”，V-Droid约使用20步操作完成此任务。视频无加速处理。

智能体丝滑玩手机，决策延迟0.7秒！MSRA等提出验证器架构，不直接依赖大模型生成最终操作

演示视频2：

“发送短信息”，V-Droid约使用8步操作完成此任务。视频无加速处理。

智能体丝滑玩手机，决策延迟0.7秒！MSRA等提出验证器架构，不直接依赖大模型生成最终操作

V-Droid与其他移动GUI智能体在AndroidWorld上的任务成功率与决策响应时间对比如下：

对于V-Droid以及其他7B，8B基准模型，决策时间在双卡4090上测试得出；对于72B基准模型，决策时间在四卡A100上测试得出。

智能体丝滑玩手机，决策延迟0.7秒！MSRA等提出验证器架构，不直接依赖大模型生成最终操作

长期以来，移动设备上的任务自动化一直面临两大难题：一是如何在复杂、多变的GUI环境中准确识别和操作界面元素, 并以多步骤成功完成任务；二是如何在保证任务成功率的前提下降低决策延迟。

以往依靠LLM直接生成操作指令的方法，由于生成过程往往需要连续输出大量信息，导致在实际应用中既不够高效，又容易出现决策偏差。

在决策过程中，将 LLM 用作生成器与用作验证器的智能体架构的关键区别在于：验证器驱动的智能体不会直接根据任务状态直接生成动作，而是在作出最终决策之前，明确地对每个候选都动作进行评估。

智能体丝滑玩手机，决策延迟0.7秒！MSRA等提出验证器架构，不直接依赖大模型生成最终操作

V-Droid创新性地提出“验证器驱动”的思路。该方法不再直接依赖大语言模型生成最终操作，而是首先通过对UI界面的深入解析构建出详尽的动作集合，再利用经过精细训练的基于大语言模型的验证器对每个候选动作进行评估，最终选出得分最高的动作执行。

这种做法将操作生成与决策判断有效解耦：一方面，与从零开始直接生成所需操作相比，该方案使智能体能够在一个离散且有限的动作空间内高效地进行验证，从而大大降低了决策的复杂度；同时，由于每次验证仅输出极简的信息（仅一个Token），并且可以对多个候选动作实现并行验证，从而显著缩短了每一步决策所需的时间。

V-Droid在多个公共移动任务自动化基准上均取得了显著提升，例如在AndroidWorld基准上任务成功率达59.5%，比现有智能体提高了近10个百分点，而决策延迟在消费级硬件上（如4090）则降至仅0.7秒左右。

智能体丝滑玩手机，决策延迟0.7秒！MSRA等提出验证器架构，不直接依赖大模型生成最终操作

△V-Droid 的工作流程：① 从用户界面中提取动作并补充默认动作；② 针对每个候选动作使用模板构建验证提示；③ 利用前缀缓存对候选动作进行批量打分；④ 完成并执行所选动作；⑤ 更新工作记忆。

V-Droid的核心突破主要体现在以下几个方面：

动作空间离散化与构建

由于移动设备屏幕尺寸有限，每个界面上可交互的元素数量本就较少，V-Droid充分利用这一特性，从当前界面的XML描述中提取所有可点击、长按、滚动、文本输入等基本操作，将它们映射到一个有限的动作空间中。

同时，为了应对界面上未直接呈现的操作（例如返回首页或模拟系统操作），系统还预置了一系列默认动作。通过这种方式，原本无限的操作可能性被精细划分为一个可枚举的集合，在这个集合上进行验证，大大降低了决策难度。

验证器驱动的决策机制与流程

不同于传统依赖生成式模型直接输出操作指令的方案，V-Droid将LLM的角色重新定位为验证器。系统首先根据当前任务状态构造出候选操作列表，并为每个候选动作生成一个预定义格式的验证提示（Prompt），其中包含任务目标、当前界面状态、历史操作记录以及具体的验证问题。

经过预先微调的验证器（基于Llama-3.1-8B等小语言模型）会对每个候选动作进行评分，最终系统选择评分最高的动作执行。由于验证过程只需要生成“Yes”或“No”这类简短回复。更重要是的，多组候选验证可被高效并行，且此过程中只涉及Prefilling阶段，从而极大地减少了计算时间，实现了近实时的决策响应。

对比式过程偏好（P3）训练

为了提升LLM作为验证器的决策能力，V-Droid提出P3 训练策略：对比式过程偏好训练策略（Pairwise Process Preference）。在每个任务步骤中，通过构建正负操作对（即标记正确操作为正样本，其他操作为负样本），系统能够利用大量细粒度的训练数据对验证器进行优化，使其更准确地区分正确与错误的操作。这种方法不仅提高了模型对相似界面元素的辨别能力，也在一定程度上增强了系统的容错与自我修正能力。

人机联合标注的数据采集策略

由于针对移动GUI任务的细粒度标注数据极为稀缺，V-Droid设计了一套人机联合标注方案。系统初始阶段由人工作业完成标注，随后利用经过初步训练的验证器自动生成操作标注，再由人工审核与修正。随着迭代训练的进行，验证器的准确性不断提升，人工介入比例逐渐下降，从而高效构建起一个涵盖上万条任务轨迹的数据集，为后续大规模训练提供了坚实基础。

智能体丝滑玩手机，决策延迟0.7秒！MSRA等提出验证器架构，不直接依赖大模型生成最终操作

△V-Droid的任务成功率与单步决策响应时间

V-Droid在多个移动任务自动化基准测试中均表现出色。

例如，在AndroidWorld基准上，V-Droid的任务成功率达到59.5%，相比传统代理有明显优势；在AndroidLab和MobileAgentBench上，其任务成功率分别为38.3%和49%，均超过先前系统约2%至9%的绝对提升。此外，决策响应时间仅为0.7秒，使得该系统在实时性要求较高的移动场景中具有显著应用潜力。

V-Droid所采用的验证器驱动架构为移动端自动化任务带来全新思路。

通过将智能体的动作生成过程解耦为动作空间构建与验证，该系统不仅在任务成功率上取得了显著提升，还在决策延迟方面实现突破。未来，这一技术有望推广至更多实际应用中，如自动化测试等领域。随着大语言模型技术的不断进步，以及高效训练与数据采集策略的成熟，验证器驱动的移动GUI智能体或将成为智能交互领域的突破口。

论文标题：Advancing Mobile GUI Agents: A Verifier-Driven Approach to Practical Deployment

论文作者：Gaole Dai, Shiqi Jiang, Ting Cao, Yuanchun Li, Yuqing Yang, Rui Tan, Mo Li, Lili Qiu

链接：https://arxiv.org/abs/2503.15937

文章来自于“量子位”，作者“V-Droid团队”。

智能体丝滑玩手机，决策延迟0.7秒！MSRA等提出验证器架构，不直接依赖大模型生成最终操作

关键词: AI , 模型训练 , V-Droid , GUI

AITNT资源拓展

根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考

AI代理

【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务，如比较价格、添加购物车、回复各种社交媒体等。
项目地址：https://github.com/browser-use/browser-use

AI工作流

【开源免费】字节工作流产品扣子两大核心业务：Coze Studio（扣子开发平台）和 Coze Loop（扣子罗盘）全面开源，而且采用的是 Apache 2.0 许可证，支持商用！
项目地址：https://github.com/coze-dev/coze-studio

【开源免费】n8n是一个可以自定义工作流的AI项目，它提供了200个工作节点来帮助用户实现工作流的编排。
项目地址：https://github.com/n8n-io/n8n
在线使用：https://n8n.io/（付费）

【开源免费】DB-GPT是一个AI原生数据应用开发框架，它提供开发多模型管理（SMMF）、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL（智能体工作流编排）等多种技术能力，让围绕数据库构建大模型应用更简单、更方便。
项目地址：https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file


【开源免费】VectorVein是一个不需要任何编程基础，任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤，并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。
项目地址：https://github.com/AndersonBY/vector-vein?tab=readme-ov-file
在线使用：https://vectorvein.ai/（付费）

智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的（AI Agents）项目。用户创建的智能体能够自动执行各种任务，从而让AI有步骤的去解决实际问题。
项目地址：https://github.com/Significant-Gravitas/AutoGPT

﻿【开源免费】MetaGPT是一个“软件开发公司”的智能体项目，只需要输入一句话的老板需求，MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色，包括产品经理 / 架构师 / 项目经理 / 工程师，MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址：https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

微调

【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台，可以对大语言模型（LLM）和多模态图文模型（VLM）进行预训练和轻量级微调。XTuner 支持多种微调算法，如 QLoRA、LoRA 和全量参数微调。
项目地址：https://github.com/InternLM/xtuner

prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法，编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词，进而高质量的帮助用户通过AI解决问题。
项目地址：https://github.com/langgptai/LangGPT/blob/main/README_zh.md
在线使用：https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0