最新智能体自动操作手机电脑,10个榜单开源SOTA全拿下|通义实验室

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
最新智能体自动操作手机电脑,10个榜单开源SOTA全拿下|通义实验室
5734点击    2025-08-26 11:08

能自动操作手机、电脑的智能体新SOTA来了。


通义实验室推出Mobile-Agent-v3智能体框架,在手机端和电脑端的多个核心榜单上均取得开源最佳。


它不仅能做交互界面的问答、描述、定位,也能一条指令独立完成复杂任务,甚至可以在多智能体框架中无缝扮演不同角色。


PC+Web演示:在Edge浏览器中搜索阿里巴巴的股价。然后在WPS中创建一个新表格,在第一列填写公司名称,在第二列填写股价。


最新智能体自动操作手机电脑,10个榜单开源SOTA全拿下|通义实验室


PC演示:


创建一个新的空白演示文稿,然后在第一张幻灯片中以艺术字的形式插入一段文本,内容为“阿里巴巴”。


最新智能体自动操作手机电脑,10个榜单开源SOTA全拿下|通义实验室


Web演示:


去哔哩哔哩看雷军的视频,然后给第一个视频点赞。


最新智能体自动操作手机电脑,10个榜单开源SOTA全拿下|通义实验室


手机演示:


请帮我在小红书上搜索济南旅游攻略,按收藏数排序,并保存第一条笔记。


最新智能体自动操作手机电脑,10个榜单开源SOTA全拿下|通义实验室


请帮我在携程上查询济南大明湖风景区的详细信息,包括地址、票价等。


最新智能体自动操作手机电脑,10个榜单开源SOTA全拿下|通义实验室


自动化操作手机、电脑成为了各家多模态大模型攻坚的主战场。但是现有的模型,要么被训练成一个专用模型,输入输出格式固定,没有多面能力;要么就是能力不够强的通用模型,虽然能遵循指令,但实际执行总是磕磕绊绊。


这次来自通义实验室的Mobile-Agent团队给出新颖的解决方案,训练一个兼具基础能力与推理泛化能力的图形交互基础模型(Foundational Agent)


它既能独当一面,在AndroidWorld、OSWorld、ScreenSpot等10个主流GUI榜单中均取得了开源SOTA的水平;也能承担对话、问答、定位、界面描述等基础任务。


最新智能体自动操作手机电脑,10个榜单开源SOTA全拿下|通义实验室


自我进化轨迹生产基建 (Self-Evolving Trajectory Production)


GUI基础模型的训练离不开大规模、高质量的轨迹数据。为此,通义MobileAgent团队依托阿里云强大的云能力,构建了一整套覆盖Android、Ubuntu、macOS、Windows的跨平台云环境基础设施。通过PyAutoGUI和ADB等工具,打通了模型输出到系统执行的障碍,使得模型可以大规模并行地在隔离的云端沙箱中进行任务执行和轨迹爬取。


最新智能体自动操作手机电脑,10个榜单开源SOTA全拿下|通义实验室


在云环境基础上,团队设计了一套名为“Self-Evolving GUI Trajectory Production”的自动化数据生产链路,其核心是实现数据采集与模型优化的自动化闭环


它首先通过高质量任务生成模块(High-Quality Query Generation)产出丰富多样的任务指令,再让GUI-Owl模型在云环境中执行(Roll-out)并爬取轨迹。


轨迹正确性判断模块(Trajectory Correctness Judgment)会对这些轨迹进行打分和筛选。


对于模型难以完成的高难度任务,任务指南生成模块(Query-specific Guidance Generation)会基于成功案例或人工标注,提炼出关键步骤提示,帮助模型在下一轮尝试中提高成功率。


最终,这些经过层层筛选和优化的的高质量轨迹被用于模型的迭代训练,形成一个不断自我增强的飞轮。


最新智能体自动操作手机电脑,10个榜单开源SOTA全拿下|通义实验室


GUI知识 & 推理能力 Are All You Need


Mobile-Agent团队发现,构建通用的GUI基础模型(Foundational Agent)的关键在于强大的GUI基础知识以及鲁棒的推理能力。前者保证模型有解决问题的基本功,后者保证模型能够适应各种下游场景,无论是单打独斗,还是多智能体协同。


一、精准的界面元素定位:让AI“指哪打哪”


要让AI真正理解图形界面,首先得让它知道“每个元素在哪、是什么、怎么用”。为此,团队构建了两类接地(grounding)任务数据:


1. UI元素定位


数据来源包括三部分:


开源数据集 - 整合了UI-Vision、GUI-R1等多个公开GUI数据集。


基于无障碍树(A11y Tree)的数据合成 - 利用移动端和桌面端的无障碍信息,提取UI元素的边界框及其功能描述,并结合多模态大模型生成外观与布局描述。


爬取PC截图的密集定位 - 针对PC端标注数据稀缺的问题,团队爬取大量界面截图,采用SAM模型将图像分割为多个子区域,再由多模态大模型在每个区域内进行细粒度接地,有效解决了PC界面元素密集、难以分割的痛点


为保证质量,所有标注结果均与Omniparser V2的UI检测结果进行比对,过滤掉IoU低于0.5的噪声框。同时,原始指令经由大模型重写为更自然、任务导向的表达。


2. 细粒度文字与字符接地(Fine-grained Text Grounding)


针对文档类界面中文字精确定位的需求,团队收集文档图像,结合OCR工具提取文本内容及其空间坐标,构建出支持单词甚至单字符级定位的数据集,使模型能够准确响应“点击第三段第二行的‘提交’二字”这类精细指令。


二、复杂任务规划:教会AI“先想后做”


面对长周期、跨应用的真实任务,模型不仅需要“看得懂”,更要“想得清”。为此,团队从两个维度构建任务规划数据:


从历史轨迹中提炼经验 - 基于已有的成功操作轨迹,对每一步页面跳转进行细粒度描述,通过大模型整理成结构化的“任务执行手册”。


从大规模预训练语言模型中蒸馏知识 - 收集主流应用列表,由人工或模型生成复杂任务,交由Qwen3-235B等超大规模语言模型生成详细执行计划,再经整合清洗,形成高质量的任务规划数据集。


三、动作语义理解:掌握“操作如何改变界面”


一个优秀的界面智能体,必须理解“动作”与“状态变化”之间的因果关系。基于大量真实操作轨迹,团队构建了“操作前”/“操作后”的截图对,核心任务是让模型根据界面变化,反向推断出中间发生的操作——包括动作类型和具体参数


这类数据直接来自离线采集的轨迹,真实可靠,帮助模型建立起『视觉差异 → 用户行为』的因果映射能力


强化学习进阶:让AI在真实交互中“越练越强”


最新智能体自动操作手机电脑,10个榜单开源SOTA全拿下|通义实验室


仅靠离线SFT数据还不够,模型需要在与环境的真实交互中持续学习,才能解决长尾问题、提升决策鲁棒性。


为此,Mobile-Agent团队引入强化学习(RL),并构建了一套高效、灵活的训练基础设施:


1 解耦式、可调控的Rollout机制:将经验生成与策略更新完全解耦。系统既可严格按策略同步运行,也可异步执行,同时Rollout服务可独立部署在专用于推理的硬件上,在不牺牲学习质量的前提下,显著提升训练吞吐效率。


2 统一的多任务接口:无论是单步推理还是多轮交互的复杂任务,都通过统一的插件接口接入系统,极大降低了新环境的接入成本。


3 独创的轨迹感知相对策略优化(TRPO)算法:


  • 直面挑战:


  • GUI任务的奖励信号通常是稀疏且延迟的(Sparse & Delayed),这给传统的RL带来了巨大的信用分配难题(Credit Assignment Problem)。


  • 解决方案:


  • TRPO算法在一次任务结束后,对整条轨迹计算一个总奖励(成功+1,失败0,格式错误-0.5)。然后,通过归一化的优势估计(Normalized Advantage Estimate),将这个奖励信号稳定且均匀地分配给轨迹中的每一步操作


  • 关键创新:**


  • 引入了基于任务ID的成功轨迹回放池(Replay Buffer)。 当某个任务的在线探索(Rollout)全部失败时,系统会从池中取出一个历史成功轨迹替换掉其中一个失败样本,确保每个训练批次都有正向信号**,极大提升了学习效率和稳定性。


通过这套先进的RL框架,GUI-Owl在动态环境中的表现得到巨大提升,在OSWorld-Verified基准测试中,成功率从27.1%稳定提升至34.9%。


最新智能体自动操作手机电脑,10个榜单开源SOTA全拿下|通义实验室


多智能体协同:让AI团队协作完成复杂任务


团队在GUI-Owl强大能力基础上,进一步推出Mobile-Agent-v3,一个支持知识演进、任务规划、子任务执行与反思推理的多智能体协作框架。Mobile-Agent-v3由四位“特工”协同驱动,并且这四个角色均由同一个GUI-Owl模型扮演


Manager Agent负责全局战略规划。接到用户指令后,它会先调用RAG模块检索外部知识,然后将高阶任务拆解为有序的子目标序列。在执行过程中,它持续接收反馈,动态调整计划。


Worker Agent负责执行操作。面对当前界面状态,它选择最合适的动作并执行,输出包含推理过程、操作指令与意图说明的完整行动元组(Action Tuple)。


Reflector Agent负责事后复盘。每一步操作后,它都会比对Worker的预期结果与实际界面变化,判断结果为 成功 或 失败,并生成详细的归因分析。


Notetaker Agent负责记忆沉淀。仅在成功操作后触发,它会自动提取关键信息——如验证码、订单号等——存入长期记忆,供后续步骤使用。


最新智能体自动操作手机电脑,10个榜单开源SOTA全拿下|通义实验室


四者协同,形成一个闭环增强的自动化流水线:拆解 → 执行 → 检查 → 记录 → 调整 → 再执行


在Mobile-Agent-v3的架构下,AI不再盲目试错,而是有计划地行动、有依据地修正、有记忆地推进


实验结果


团队还开源了全新的全异步、轨迹级强化学习框架,并提出独创的轨迹感知相对策略优化(TRPO)算法,在OSWorld动态环境中将成功率提升近8个百分点,展现出自进化潜力。


最新智能体自动操作手机电脑,10个榜单开源SOTA全拿下|通义实验室


最新智能体自动操作手机电脑,10个榜单开源SOTA全拿下|通义实验室


最新智能体自动操作手机电脑,10个榜单开源SOTA全拿下|通义实验室


最新智能体自动操作手机电脑,10个榜单开源SOTA全拿下|通义实验室


最新智能体自动操作手机电脑,10个榜单开源SOTA全拿下|通义实验室


在遇到复杂任务时,端到端模型往往力不从心,这时就需要多智能体框架来帮大模型理清工作流程。然而GUI专用模型因指令遵循能力弱,很难用于多智能体框架。GUI-Owl通过对推理数据的深度训练,使其能在一个模型内无缝扮演规划者、执行者、反思者、记录员等多种角色。 配合全新的Mobile-Agent-v3框架,在真实环境评测中,带来了高达7~8个百分点的性能提升。


最新智能体自动操作手机电脑,10个榜单开源SOTA全拿下|通义实验室


文章来自于微信公众号“量子位”。


AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
AI代理

【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务,如比较价格、添加购物车、回复各种社交媒体等。

项目地址:https://github.com/browser-use/browser-use


2
AI工作流

【开源免费】字节工作流产品扣子两大核心业务:Coze Studio(扣子开发平台)和 Coze Loop(扣子罗盘)全面开源,而且采用的是 Apache 2.0 许可证,支持商用!

项目地址:https://github.com/coze-dev/coze-studio


【开源免费】n8n是一个可以自定义工作流的AI项目,它提供了200个工作节点来帮助用户实现工作流的编排。

项目地址:https://github.com/n8n-io/n8n

在线使用:https://n8n.io/(付费


【开源免费】DB-GPT是一个AI原生数据应用开发框架,它提供开发多模型管理(SMMF)、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL(智能体工作流编排)等多种技术能力,让围绕数据库构建大模型应用更简单、更方便。

项目地址:https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file



【开源免费】VectorVein是一个不需要任何编程基础,任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤,并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。

项目地址:https://github.com/AndersonBY/vector-vein?tab=readme-ov-file

在线使用:https://vectorvein.ai/付费

3
智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。

项目地址:https://github.com/Significant-Gravitas/AutoGPT


【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

4
RAG

【开源免费】graphrag是微软推出的RAG项目,与传统的通过 RAG 方法使用向量相似性作为搜索技术不同,GraphRAG是使用知识图谱在推理复杂信息时大幅提高问答性能。

项目地址:https://github.com/microsoft/graphrag

【开源免费】Dify是最早一批实现RAG,Agent,模型管理等一站式AI开发的工具平台,并且项目方一直持续维护。其中在任务编排方面相对领先对手,可以帮助研发实现像字节扣子那样的功能。

项目地址:https://github.com/langgenius/dify


【开源免费】RAGFlow是和Dify类似的开源项目,该项目在大文件解析方面做的更出色,拓展编排方面相对弱一些。

项目地址:https://github.com/infiniflow/ragflow/tree/main


【开源免费】phidata是一个可以实现将数据转化成向量存储,并通过AI实现RAG功能的项目

项目地址:https://github.com/phidatahq/phidata


【开源免费】TaskingAI 是一个提供RAG,Agent,大模型管理等AI项目开发的工具平台,比LangChain更强大的中间件AI平台工具。

项目地址:https://github.com/TaskingAI/TaskingAI