面向复杂PC任务的多模态智能体框架PC-Agent,来自阿里通义实验室。
从Office到浏览器,跨APP工作流都可以交给AI来完成了。
指令1(翻译):在记事本应用程序中,打开“文档”中的“备忘录”文件,查看上午的第二项活动。在时钟应用程序中,在该活动开始前1小时设置闹钟。
指令2(翻译):在文件资源管理器中,打开“文档”中的“旅行计划”文件,查看旅行计划的目的地。将旅行目的地添加到时钟应用程序的世界时钟列表中。在Chrome浏览器上搜索从北京到旅行目的地的航班时间。
指令3(翻译):在Chrome浏览器中分别搜索英伟达(Nvidia)和苹果(Apple)的当前股价。在Excel中打开“stock_prices”文件,将公司名称写入A列,相应的股价写入B列。
指令4(翻译):在Outlook中读取发给豪伊的主题为“旅行”的已读邮件,记录行程的出发地、目的地和出发日期。在Chrome浏览器上的booking.com网站搜索单程机票。
指令5(翻译):在文件资源管理器中打开“文档”文件夹里的“test_doc1”文件,在Word中将标题设为加粗,并将前两段的行距设为1.5倍。
近期,基于多模态大模型(MLLM)构建GUI智能体以实现智能设备上(如手机、PC)的任务自动化,受到了广泛的关注。
如下图所示,与手机相比,PC场景的复杂性体现在两方面:
一是PC的图形界面包含了更密集多样的可交互元素,以及不同布局的文本,给细粒度感知带来了挑战;
二是PC常用于生产力场景,涉及更多复杂的App内及跨App工作流,因此包含更复杂的任务序列。
现有工作如UFO、Agent-S等,对文本的精细感知和操作能力不足,并且忽视了子任务之间的复杂依赖,因此在复杂PC任务上存在局限性。
针对这一问题,阿里通义实验室的研究人员提出面向复杂PC任务的多模态智能体框架PC-Agent:
(1)设计主动感知模块(APM)实现对屏幕内容的精细感知和操作;
(2)提出层次化多智能体协作结构,将复杂指令分解为指令-子任务-动作3个层次,并在相应层次设置Manager、Progress、Decision及Reflection智能体,实现对复杂指令自上而下的难度分解,以及自下而上的精确反馈。
为了更好地评估智能体在复杂PC任务上的表现,作者还构建了一个涉及8个常用PC应用的复杂指令集,实验评估发现,所提出的PC-Agent框架在复杂任务上的表现显著超越已有方法。
对于可交互元素,通过提取屏幕的accessibility tree来获取其位置及功能描述信息。对于文本信息,当决策智能体触发Select (目标文本)动作时,主动感知模块通过基于MLLM的意图理解模块提取目标文本的起止范围,然后利用OCR工具进行精确定位及后续精细操作。
△主动感知模块示意图
PC-Agent将复杂指令的执行分解为3个层次:指令-子任务-动作。
(1)在指令层次,设置Manager智能体负责将复杂指令拆分为子任务,以及进行跨子任务通信。如上图所示,复杂指令的子任务之间往往相互依赖,部分子任务需要前序子任务的执行结果才能实例化为一个可独立执行的子任务。设置Manager智能体,有助于处理子任务之间复杂的依赖关系,并有效降低单一子任务的决策难度。
(2)在子任务层次,设置Progress智能体,负责跟踪和总结子任务的执行进度,从而实现更精确的进度感知,并避免冗长模糊的操作历史干扰决策。
(3)在动作层次,设置Decision智能体和Reflection智能体。对于当前子任务的每个步骤,Decision智能体通过感知模块观察屏幕,并结合Progress智能体输出的进度信息和Reflection智能体输出的反思信息,生成当前步骤的操作决策。Reflection智能体则根据每个步骤操作前后屏幕的变化,判断该步骤是否达到了预期的效果,并将可能出现的异常情况反馈给Progress和Decision智能体。
△PC-Agent框架示意图
由于现有基于真实PC环境的动态评测数据集(如WindowsAgentArena)主要由相对基础的指令构成,为了更好地评估智能体在实际场景复杂指令的表现,作者提出了一个新的评测指令集PC-Eval,包含涉及8个常用PC应用的25条复杂用户指令。
每条指令由若干具有依赖关系的子任务构成,强调精细化操作及长程决策,并与现实场景工作流相对应。下表列举了部分指令的示例。
现有基于先进MLLM(如GPT-4o、Claude-3.5)的单智能体方法,几乎无法完成任何复杂指令,验证了PC复杂场景在感知、决策方面极具挑战性。此外,对比分析现有的开源多智能体方法UFO及Agent-S的测试结果,可以发现:
(1)现有方法的精细感知和操作能力较弱,例如UFO在Excel表格场景会将多个信息重复填入同一单元格,而UFO和Agent-S均无法执行Word文档的编辑操作。
(2)现有方法无法有效处理子任务间复杂的依赖,例如对于“打开文档A,翻译其内容,新建文档B,将文档A内容的翻译写在文档B中”这样的指令,Agent-S会在新建的文档中写下“The translation of the content”这句话,而非实际的翻译内容。
(3)相比之下,主动感知模块使得PC-Agent具备精细感知与操作能力,层次化多智能体协作也实现了有效的指令拆解、子任务间通信、进度感知以及错误反馈,从而显著提升了PC-Agent在复杂任务上的性能表现。
搜索多项信息并编辑Excel表格的操作序列
Reflection智能体发现无效操作并反馈给Decision智能体
Word文档中的居中、添加下划线等编辑操作
论文链接:https://arxiv.org/pdf/2502.14282
代码链接:https://github.com/X-PLUG/MobileAgent/tree/main/PC-Agent
文章来自于“量子位”,作者“PC-Agent团队”。
【免费】cursor-auto-free是一个能够让你无限免费使用cursor的项目。该项目通过cloudflare进行托管实现,请参考教程进行配置。
视频教程:https://www.bilibili.com/video/BV1WTKge6E7u/
项目地址:https://github.com/chengazhen/cursor-auto-free?tab=readme-ov-file
【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务,如比较价格、添加购物车、回复各种社交媒体等。
项目地址:https://github.com/browser-use/browser-use
【开源免费】n8n是一个可以自定义工作流的AI项目,它提供了200个工作节点来帮助用户实现工作流的编排。
项目地址:https://github.com/n8n-io/n8n
在线使用:https://n8n.io/(付费)
【开源免费】DB-GPT是一个AI原生数据应用开发框架,它提供开发多模型管理(SMMF)、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL(智能体工作流编排)等多种技术能力,让围绕数据库构建大模型应用更简单、更方便。
项目地址:https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file
【开源免费】VectorVein是一个不需要任何编程基础,任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤,并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。
项目地址:https://github.com/AndersonBY/vector-vein?tab=readme-ov-file
在线使用:https://vectorvein.ai/(付费)
【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。
项目地址:https://github.com/Significant-Gravitas/AutoGPT
【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md
【开源免费】kimi-free-api是一个提供长文本大模型逆向API的开渔免费技术。它支持高速流式输出、智能体对话、联网搜索、长文档解读、图像OCR、多轮对话,零配置部署,多路token支持,自动清理会话痕迹等原大模型支持的相关功能。
项目地址:https://github.com/LLM-Red-Team/kimi-free-api?tab=readme-ov-file
【免费】ffa.chat是一个完全免费的GPT-4o镜像站点,无需魔法付费,即可无限制使用GPT-4o等多个海外模型产品。
在线使用:https://ffa.chat/