近年来,大语言模型(LLM) 的快速发展正推动人工智能迈向新的高度。像 DeepSeek-R1 这样的模型因其强大的理解和生成能力,已经在 对话生成、代码编写、知识问答 等任务中展现出了卓越的表现。如今,LLM 的应用范围正进一步拓展,催生了一类新的智能体 —— 基于 LLM 的 GUI 智能体(GUI Agents),它们能够像人类一样,直接通过鼠标、键盘与计算机或手机进行交互。
这类智能体不再依赖传统 RPA(机器人流程自动化) 方式,即基于预定义的规则和脚本执行任务,而是能够通过自然语言理解用户指令,自主完成操作。例如,它们可以打开应用、编辑文档、浏览网页,甚至执行跨软件的复杂任务,而无需开发者手动编写繁琐的自动化脚本。相比 RPA,这类智能体的优势在于灵活性和泛化能力,能够适应不同任务场景。
这一趋势让人们对 AI 助手的想象逐渐成为现实。科幻电影中的 贾维斯(Jarvis),能够理解自然语言并自主操作计算机,而今天的 LLM 智能体正在向这一方向迈进。企业中也正在推广 数字员工(Digital Workers),他们可以自动完成数据录入、报表生成、邮件回复等重复性任务,从而提高生产力。此外,智能体还被应用于 自动化软件测试、远程控制、智能办公助手 等场景,使人们能够自然地用语言指令控制计算机甚至整个企业 IT 系统。
然而,目前的 LLM 智能体在实际应用中仍然存在效率问题。现有方法依赖 逐步推理,即每执行一个操作前,模型都要 “思考” 下一步该做什么。例如,在执行简单的搜索任务时,智能体需要分别推理 “点击搜索框” → “输入关键词” → “点击搜索按钮”,即便是简单的步骤,也需要耗费额外的计算资源。这种模式虽然提高了通用性,但在应对大量 重复性任务 时,效率却远不如传统的 RPA。
因此,一个关键问题是:是否可以让智能智能体既保留推理能力,能够灵活应对新任务,同时又能像 RPA 一样高效执行常见任务?
为了解决这一问题,西湖大学 AGI 实验室 提出了一种可进化的 GUI 智能体框架 ——AppAgent X。这是 GUI 智能体先驱工作 AppAgent 的最新版本,它让 LLM 驱动的智能体能够从自身的操作经验中学习,不断进化更高效的行为模式。简单来说,AppAgent X 让智能体能够在任务执行过程中识别 重复性操作模式,并将一系列低层级的操作自动归纳为更高级的 “一键” 操作。例如,智能体可以学习到 “搜索” 这一任务模式,并自动将其抽象为一个高层级操作,而无需每次都推理具体步骤。这意味着,智能体在使用过程中会变得越来越高效,越用越聪明。
论文的第一作者是来自西湖大学的研究人员蒋文嘉,指导老师为西湖大学 AGI 实验室的负责人张驰助理教授。实验室的研究方向聚焦于生成式人工智能和多模态机器学习。
AppAgent X的功能示意图
在大语言模型与屏幕进行交互的时候,主流工作例如 AppAgent 定义了一系列模拟人类的动作,例如点击、滑动、输入。这些操作共同定义了一个基本的、与应用程序无关的操作空间,用于模拟人类与智能手机界面的典型交互。
在不断的屏幕感知与动作执行的循环中,直到任务的完成。
在大模型驱动的 GUI 智能体中,一个关键问题是如何在智能决策与执行效率之间取得良好平衡。现有方法虽然能借助大模型的强大推理能力理解界面,并逐步规划点击、输入、滑动等交互操作,但这种逐步推理的方式往往导致较高的计算成本和执行延迟。例如,在完成一个简单的搜索任务时,智能体可能需要针对 “点击搜索框、输入关键词、点击搜索按钮” 三个步骤逐一推理,而这种方式虽然保证了决策的准确性,却牺牲了执行速度。
相较之下,传统的机器人流程自动化(RPA)工具虽然缺乏灵活性,但基于固定脚本的执行策略允许其在预定义任务上实现极高的执行效率。对比二者,大模型智能体的优势在于适应性强,能够在复杂或未知界面中推理最优交互方式,而 RPA 的优势则在于执行速度快,能够高效完成固定任务。如何在大模型智能体的智能性与执行效率之间找到最佳结合点,成为推动该技术落地的重要挑战。
AppAgentX 提出了一种可进化的 GUI 智能体框架,使得智能体不仅能像人类一样自主探索和理解界面,还能通过学习自身的历史交互模式,逐渐优化执行过程,实现智能与效率的最佳结合。
通过引入链式存储机制和动态匹配执行机制,使得智能体能够高效记忆、归纳并优化自身的操作轨迹,从而在后续任务中复用高效的执行策略,减少重复推理,提高整体任务完成速度。
研究者为智能体设计了一种链式知识存储机制,用于记录每次任务执行时的完整交互流程。具体来说,智能体的每次操作都会被存储形成一个 “链”,其中包括:
在此基础上,研究者利用大模型从历史操作路径中提取任务逻辑,并自动总结出页面和交互元素的功能描述。例如,智能体可以总结出 “搜索框 + 确认按钮” 这一模式,并将其作为高层级的语义单元记录下来。这样,在未来遇到类似界面时,智能体便无需从零开始推理,而是可以直接调用已学习到的高效解决方案。
基于存储的交互链,AppAgentX 能够通过进化机制自动提炼出高效的执行方式。当智能体识别到某些操作模式具有固定的执行顺序时(例如点击搜索框 → 输入内容 → 提交搜索),它将动态创建一个捷径节点(shortcut node) ,将多个底层操作整合为一个更高级的动作,从而减少不必要的推理和执行时间。
在后续任务中,智能体会优先匹配当前界面与已有的链式存储记录,并判断是否可以直接调用高级操作节点。如果匹配成功,智能体便无需逐步推理所有低层操作,而是直接执行已经优化的快捷路径,提高任务执行效率。此外,对于未匹配到的任务,智能体仍能够基于基础动作空间进行动态推理,确保智能性和灵活性不受影响。
这一机制的优势在于,它使得智能体的推理能力与执行效率可以动态调节:
随着大语言模型(LLM)的快速发展,智能体正逐步从简单的文本交互进化到能够直接操作操作系统和 GUI 界面的自主智能体。然而,现有方法在效率和执行智能化之间存在权衡,导致 LLM 智能体在面对重复性任务时表现低效。AppAgent X 提出了一种可进化的 GUI 智能体框架,使智能体能够从自身的任务执行经验中学习,逐步形成更高效的操作策略。通过这一方法,AppAgent X 兼顾了 LLM 智能体的灵活性和 RPA 智能体的执行效率,实现了高效、智能、无需后端访问的 GUI 操作。
在实验中,AppAgent X 在多个 GUI 交互任务上展现出了显著的效率提升,并优于现有 SOTA 方法。它的进化能力使得智能体能够不断优化自身的操作流程,为未来的智能化人机交互奠定了新的基础。
展望未来,GUI 智能体的进化将是 LLM 智能体发展的关键方向之一。我们相信,随着 LLM 在推理能力上的持续进步,智能体可以进一步拓展至更复杂的应用场景。
文章来自于“机器之心”,作者“机器之心”。
【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务,如比较价格、添加购物车、回复各种社交媒体等。
项目地址:https://github.com/browser-use/browser-use
【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。
项目地址:https://github.com/Significant-Gravitas/AutoGPT
【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md