Manus让电脑使用再度翻红,一文带你全面认知Computer Use Agent,附项目论文资源

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
AITNT-国内领先的一站式人工智能新闻资讯网站 搜索
Manus让电脑使用再度翻红,一文带你全面认知Computer Use Agent,附项目论文资源
7177点击    2025-03-18 17:01

Manus让电脑使用再度翻红,一文带你全面认知Computer Use Agent,附项目论文资源


  • 聊一聊 Computer Use Agent,Claude 3.5 Sonnet到Manus的技术演进
  • 什么是Computer Use Agent?都有哪些产品和项目?一篇文章看明白
  • 想要了解Computer Use Agent,看这一篇文章就够了
  • 从Claude 3.5 Sonnet到Operator到Manus,Computer Use Agent是个啥?
  • 一文读懂什么是Computer Use Agent,电脑使用智能体即将爆发


Manus的火爆带热了多个技术概念,Computer Use Agent就是其中之一。但要探讨这种“电脑使用”智能体,还得从Claude 3.5 Sonnet说起。


2024年10月,Anthropic发布了Claude 3.5 Sonnet,首次将“Computer Use”能力推向公众视野,掀起了一波关于“AI操作电脑”的热潮。当时,这一功能被描述为“突破性”的技术:开发人员可以通过API指导Claude像人类一样使用计算机——查看屏幕、移动光标、点击按钮、输入文本。


听起来就像科幻电影中的场景:AI 不再局限于聊天框,而是能直接接管你的电脑,帮你完成从打开浏览器到填写表单的各种任务。


能操作电脑的智能体火了后,国内的智谱AutoGLM也火过一段时间,并且在二级市场成功催生了Computer Use相关的概念股。


只是热潮过后,讨论逐渐冷却。原因何在?一方面,这项功能仍处于公测阶段,体验上“笨拙且易出错”,需要开发者自行部署,普通用户难以直接上手;另一方面,其实际应用场景尚未完全打开,更多停留在概念验证阶段。


Manus让电脑使用再度翻红,一文带你全面认知Computer Use Agent,附项目论文资源


紧随其后,2025年1月,OpenAI推出了Operator及其核心模型Computer-Using Agent(CUA),将这一领域推向新高度。与Anthropic的“Computer Use”术语不同,OpenAI采用了“CUA”这一更具技术感的命名。


Operator被定义为“通过强化学习融合GPT-4o视觉能力与高级推理的模型”,能够直接与图形用户界面(GUI)交互,无需依赖特定API。OpenAI强调,CUA不仅能处理浏览器任务(如订票、购物),还具备扩展至桌面应用的潜力,展现了从“对话AI”向“行动AI”的转型趋势。但仅限$200/月的Pro用户使用门槛,仍然劝退了大部分人。


Operator的发布与CUA概念的推广,仍然没有激起多大水花。


直到2025年3月,Monica.im团队发布了号称“全球首款通用型 AI Agent”的Manus,进一步将Computer Use Agent的概念推向产品化。Manus 的宣传语更是直击用户痛点:独立思考、规划并执行复杂任务,覆盖40多个领域。 它不仅能处理文件、分析数据,还能创作内容,甚至在 GAIA 基准测试中以 86.5% 的准确率碾压竞品,成本却仅为对手的1/10。


相比Claude的实验性和Operator的高不可攀,Manus更注重用户体验与实用性,目前虽处于内测阶段,但已计划开源部分模型,显示出更大的野心。只是,大部分人到现在还拿不到邀请码。


Manus让电脑使用再度翻红,一文带你全面认知Computer Use Agent,附项目论文资源


需要说明的是,Computer Use Agent玩家已经有不少。比如Google DeepMind推出的基于Gemini 2的Project Mariner基于,主攻浏览器自动化;微软则通过Windows Agent Arena探索多模态OSAgent,同时微软还有UFO、OmniParser等多个开源项目。智谱的GLM-PC则以CogAgent为核心,支持跨平台任务。


扩展阅读:还拿不到Manus邀请码?试试这几款开箱即用的computer use智能体,附教程


这些项目各有侧重,但都指向一个共同目标:让AI成为真正能够操作一切的数字助手。当然开源社区也不甘落后,像OpenInterpreter、OpenAdapt等早期项目层出不穷。而快速复刻Manus的OpenManus、OWL等项目也正在快速迭代中,并有更多项目正在开发。


这些进展不仅体现了AI从“理解”到“执行”的转变,也引发了我们对未来人机交互的想象。说了那么多,到底什么是Computer Use Agent?目前都有哪些产品和开源项目?有没有相关的学术论文可以学习?这篇文章,王吉伟频道就给大家聊聊这些,也欢迎大家在文末留言讨论。


从Claude 3.5 Sonnet谈起


Anthropic在2024年10月发布发布Claude 3.5 Sonnet的时候,重点介绍了它的computer use能力。当时“能够操作电脑的模型”火了很长一段时间,但后来就偃旗息鼓了。这是为什么呢?主要在于大家对它的感知并不强,因为需要部署,不懂点代码的人都体验不了。


在Claude 3.5的发布中,Anthropic对computer use做了以下介绍:


公开测试版中引入了一项突破性的新功能:计算机使用(computer use)。今天在应用编程接口上,开发人员可以指导克劳德像人们一样使用计算机——通过看屏幕、移动光标、点击按钮和键入文本。


Claude 3.5 Sonnet是第一个在公开测试版中提供计算机使用的前沿人工智能模型。在现阶段,它仍处于试验阶段——有时很麻烦,容易出错。我们将提前发布计算机使用情况,以供开发人员反馈,并预计随着时间的推移,该功能将迅速改进。


Manus让电脑使用再度翻红,一文带你全面认知Computer Use Agent,附项目论文资源


作为首款支持此能力的前沿模型,Claude 3.5 Sonnet在OSWorld基准测试中取得了14.9%的成功率,虽然远低于人类的70-75%,但已显著领先同类AI的7.8%。


而OpanAI在发布Operator以后,重点介绍了计算机使用Agent。在用词方面,OpanAI与Anthropic稍有区别,用的是 Computer-Using Agent (CUA)。原文如下:


Operator(opens in a new window)是一个可以转到Web为用户执行任务的Agent,而为它提供动力的正是CUA,这是一种过强化学习将GPT-4o的视觉能力与高级推理相结合的模型。CUA 经过训练,可以像人类一样与图形用户界面(GUI) 交互,即人们在屏幕上看到的按钮、菜单和文本字段。这使它能够灵活地执行数字任务,而无需使用特定于作系统或 Web 的 API。


CUA建立在多模态理解和推理交叉点的多年基础研究之上。通过将高级GUI感知与结构化问题解决相结合,它可以将任务分解为多步骤计划,并在出现挑战时自适应地自我纠正。此功能标志着 AI 开发的下一步,允许模型使用人类每天依赖的相同工具,并为大量新应用打开大门。


在官方介绍中,这种设计让CUA在OSWorld中拿下38.1%的成功率,在WebVoyager中更是高达87%,接近人类水平。OpenAI强调,CUA不仅能处理浏览器任务(如订票、购物),还具备扩展至桌面应用的潜力,展现了从“对话AI”向“行动AI”的转型趋势。不过,Operator目前仅限$200/月的Pro用户使用,门槛依然不低。


Manus让电脑使用再度翻红,一文带你全面认知Computer Use Agent,附项目论文资源


CUA依赖视觉模型和高级推理模型,两种能力也决定了CUA的能力。所以Manus发布之后,很多复刻它的开源项目比如OpenManus等目前在体验上还有所欠缺,在于大家在模型的选择上使用兼容OpenAI Function Call的模型,但在推理方面要差一些。


Manus是由Monica.im团队开发的一款通用型AI智能体,于2025年3月发布,旨在通过自主任务闭环能力直接交付复杂任务成果,而非仅提供建议。它采用多Agent架构,将任务拆解为子任务并执行,覆盖办公提效、数据分析、跨平台工具集成等多种场景,支持高精度动作捕捉和团队协作功能。


其规划Agent使用蒙特卡洛树搜索优化任务拆解效率,执行Agent调用多种工具完成任务,验证Agent则确保结果准确性。Manus在GAIA基准测试中表现卓越,基础任务得分86.5分,中等难度任务得分70.1分,高难度任务得分57.7分,单任务成本仅为竞品的 1/10,展现了强大的任务执行能力,并且远超同期竞品。


Manus的出现标志着AI智能体技术的新高度,其低代码化设计使用户无需编程即可搭建自动化流程。由于其强大的功能,开源社区迅速推出了多个复刻项目,如OpenManus和OWL,它们分别由MetaGPT团队和CAMEL AI团队开发,支持网页浏览、文件操作、代码编写等任务,且在GAIA测试中表现优异。


Manus让电脑使用再度翻红,一文带你全面认知Computer Use Agent,附项目论文资源


Manus及其复刻项目在办公效率提升、生活服务升级和专业领域支持等方面具有广泛的应用前景,有望在更多场景中发挥重要作用,推动AI技术的进一步发展。


从Claude 3.5 Sonnet到Operator,再到Manus,Computer Use Agent的进化路径逐渐清晰。Claude开启了这一领域的探索,强调视觉感知与GUI交互;CUA则在推理与适应性上迈出关键一步;而Manus通过多Agent协作与成本优化,试图将技术落地到日常场景。


通过上面的介绍,相信大家对computer use已经有了初步认识。


CUA 的定义与工作原理


结合各种文献以及科技博文,可以为Computer Use Agent下一个简单的定义。


Computer Use Agent是一种能够过其图形用户界面 (GUI) 与计算机应用程序交互的AI系统。旨在通过计算机应用程序的GUI控制计算机应用程序并与之交互。这些Agent可以模仿人类用户操作计算机的行为,执行单击按钮、填写表单、单击按钮、导航菜单和滚动等任务。


这些Agent由高级AI模型提供支持,通常将大型语言模型 (LLM) 与多模态视觉功能相结合,使用屏幕感知、通过语言模型做出决策以及模拟鼠标/键盘输入来执行任务。例如,OpenAI 的Operator 由其计算机使用Agent (CUA) 模型提供支持,可以通过处理屏幕截图并与 Web 浏览器交互来在线预订音乐会门票或订购杂货。


Manus让电脑使用再度翻红,一文带你全面认知Computer Use Agent,附项目论文资源


它的工作原理,如下:


CUA处理屏幕截图中的原始像素数据,以了解屏幕上发生的情况。这使它能够像人类用户一样与按钮、菜单和文本字段交互,无需特定于平台的 API。其过程可分为三个步骤:


  • 感知:CUA 截取计算机屏幕的屏幕截图,以将数字环境的内容置于上下文中。这些视觉输入构成了决策的基础。


  • 推理:利用思维链推理,CUA 评估其观察结果并跟踪中间步骤的进度。通过分析过去和当前的屏幕截图,该系统可以动态地适应新的挑战和不可预见的变化。


  • 行动:CUA 使用虚拟鼠标和键盘执行键入、单击和滚动等任务。对于敏感任务,例如处理登录凭证或解决 CAPTCHA 质询,系统会寻求用户确认以确保安全性。


这种结构化的工作流程使 CUA 能够处理复杂的多步骤任务,并在遇到错误时进行自我纠正,使其成为数字问题解决的强大工具。


在主要功能和基准方面,OpenAI对CUA在计算机使用和基于浏览器的任务方面都树立了新的基准,证明了它在不同环境中的灵活性。它的性能已经使用 OSWorld、WebArena 和 WebVoyager 等平台进行了评估:


  • OSWorld:CUA 在一般计算机使用任务中取得了 38.1% 的成功率,远超之前 22.0% 的先进 (SOTA) 结果。


  • WebArena:在这个模拟电子商务和内容管理中实际任务的基准测试中,CUA 得分为 58.1%,优于之前的 SOTA 36.2%。


  • WebVoyager:测试实时网站交互(例如 Amazon、GitHub),CUA 与人类表现相匹配,成功率为 87%。


Manus让电脑使用再度翻红,一文带你全面认知Computer Use Agent,附项目论文资源


这些基准测试突出了 CUA 使用屏幕、鼠标和键盘的单一通用界面在数字环境中有效运行的能力。但是,在更复杂的场景中仍有改进的空间,例如人类成功率更高的 WebArena 任务。


CUA 最引人注目的方面之一是它能够将任务分解为多步骤计划并在面临挑战时动态适应。例如,如果网页无法正确加载或任务偏离预期路径,CUA 可以实时调整其策略。这种灵活性通过将 GUI 感知与结构化问题解决相结合而变得很有价值。


需要说明的是,Computer Use Agent和GUI Agent经常被混淆。两种智能体各有其独特的优势和适用场景:Computer Use Agent 更适合处理复杂的多任务和跨平台操作,GUI Agent则在图形用户界面交互和精准操作方面表现出色。还有一些项目,则是两种技术融合型的智能体。关于GUI Agent,我会在后面的文章中跟大家介绍。


CUA相关的产品


谷歌、微软等都推出了相应的产品或者项目。


Anthropic是第一个明确推出CUA的公司,在去年10月就宣布了这个功能,并在今年发布的Claude 3.5 Sonnet加强了支持。Anthropic强调,它正在为模型提供此功能作为公开测试版,并且仅适用于在 Anthropic 的大型语言模型上构建工具和产品的开发人员。


Claude 通过查看用户所看到内容的屏幕截图并计算将光标移动到某个位置以进行单击所需的像素来导航。Anthropic的一位发言人表示,Claude可以在任何计算机和任何桌面应用程序中完成这项工作。


Google DeepMind推出的Project Mariner,构建于Google的Gemini 2模型之上。该公司在12月展示了Mariner,但称其为 “早期研究原型”,并表示目前仅向 “受信任的测试人员” 提供该工具。


Manus让电脑使用再度翻红,一文带你全面认知Computer Use Agent,附项目论文资源


Project Mariner目前仅在 Chrome 浏览器中运行,并且仅在活动选项卡中运行,用户执行其他任务时,它不会在后台运行。虽然这个要求似乎在某种程度上违背了拥有一个节省时间的 AI 助手的目的,但它可能只是这个早期开发阶段的临时条件。


2025年1月,OpenAI 推出了名为 Operator 的计算机使用Agent (CUA)。OpenAI 称其为“研究预览版”,并且仅向每月支付 200 美元购买 OpenAI 高级服务的用户提供,尽管该公司表示正在努力实现更广泛的发布。


Operator 团队的工程师 Yash Kumar 表示,该工具基本上可以与任何网站一起使用。OpenAI计划先从面向大部分工作的浏览器应用开始,事实上CUA模型也被训练为使用计算机,以后也可以将其扩展与其他桌面应用程序一起使用。Operator同样依靠思维链推理,来获取指令并将其分解为一系列可以完成的任务。


Manus让电脑使用再度翻红,一文带你全面认知Computer Use Agent,附项目论文资源


最近OpenAI还发布了集成至Responses API的工具包Computer Use Tool,允许开发者调用模型生成的鼠标/键盘操作,覆盖网页和部分桌面应用场景。


其实Anthropic到目前推出的还只是CUA的demo体验项目,王吉伟频道在去年11月体验过,它需要通过docker进行部署。懂点代码感兴趣的小伙伴,可以部署体验一下。


项目地址:https://github.com/anthropics/anthropic-quickstarts


这个项目采用了虚拟机,所以体验的时候就是在虚拟环境使用一台电脑,所以可以在里面做任何想做的事,包括上网、用代码写工具等等。友情提示,token消耗量很大。


除了以上几个产品,已经产品化\应用化的CUA产品,还有以下几个。


1、Manus


Manus 是由 Monica.im 团队开发的全球首款通用型 AI Agent,于 2025 年 3 月发布。它采用多智能体架构,能够自主规划、分解并执行复杂任务,覆盖文件处理、数据分析、内容创作等 40 多个领域。Manus目前处于内测阶段,团队计划未来开源部分模型,并申请了多模型路由优化专利。


官网:https://manus.im/


2、Flowith


Flowith是一款类似Manus的AI Agent产品,旨在通过其独特的节点式交互方式和强大的AI功能,为用户提供高效、多线程的AI交互体验。它不仅支持多种先进的AI模型,还提供了知识管理、内容创作、自动化任务执行等功能,适合内容创作者、研究人员、企业员工等多类用户


https://flowith.io


Manus让电脑使用再度翻红,一文带你全面认知Computer Use Agent,附项目论文资源


3、Google AI Studio


Google AI Studio是一个集成了多种 AI 功能且易于使用的 AI 开发平台,专注于简化 AI 模型的创建、优化和部署流程。该应用旨在降低 AI 开发的门槛,使开发者无需深厚的机器学习背景也能快速上手,同时为专业开发者提供强大的工具支持,以满足复杂项目的需求,快速实现 AI 驱动的创新项目。


Google AI Studio有一个功能是与程序互动,通过文字或者语音让Google AI Studio通过浏览器或者电脑做一些自动化的操作。


体验地址:https://aistudio.google.com/prompts/new_chat


4、Midscene.js


Midscene.js是一个Web 自动化开源项目,旨在让AI成为浏览器操作员。用户只需用自然语言描述需求,AI就能操作网页、验证内容和提取数据。它支持多种模型,包括UI-TARS和Qwen2.5-VL等开源模型,适用于UI自动化场景。


Midscene Chrome 扩展还支持一种桥接模式,允许用户使用本地脚本来控制 Chrome的桌面版本。下面是关于桥接模式的说明文档,感兴趣的小伙伴可以自行探索。


https://midscenejs.com/bridge-mode-by-chrome-extension.html


Manus让电脑使用再度翻红,一文带你全面认知Computer Use Agent,附项目论文资源


5、智谱GLM-PC


GLM-PC是智谱公司推出的一款基于多模态大模型CogAgent的电脑智能体。它能够像人类一样“观察”和“操作”计算机,协助用户高效完成各类电脑任务,如文档处理、网页搜索、信息整理、社交互动等。


目前GLM-PC 已经迭代升级到基于智谱多模态大模型 CogAgent的1.1.1版本,推出“深度思考”模式,同时支持 Windows和Mac 系统。大家可以通过以下网址,访问GLM-PC官网,下载适合自己系统的软件版本,这里也附上安装指南。


下载:https://cogagent.aminer.cn/home#/downloads


CUA相关的开源项目


事实上,在Manus火爆之前已经有不少CUA相关的开源项目,这里列举一些。


Manus让电脑使用再度翻红,一文带你全面认知Computer Use Agent,附项目论文资源


1、OpenInterpreter


OpenInterpreter是一个自然语言接口工具,允许大型语言模型在本地运行代码,支持Python、JavaScript等多种语言。用户可以通过类似ChatGPT的界面与计算机互动,执行文件编辑、浏览器控制和数据分析等任务。


项目链接:https://github.com/OpenInterpreter/open-interpreter


2、OpenAdapt


OpenAdapt是一个开源的行为克隆和模仿学习框架,旨在帮助AI通过观察人类行为来学习任务。它支持多种应用,包括自动化任务和复杂操作的简化。


项目链接:https://github.com/llamafactory/openadapt


3、OpenInterface


OpenInterface是一个开源项目,提供简洁的API接口,支持多种编程语言和框架,帮助开发者快速实现功能集成和自动化任务。


项目链接:https://github.com/OpenInterface


4、OmniParser


OmniParserV2,能够将大型语言模型(LLM)转化为具备计算机操作能力的智能Agent。通过视觉解析技术,将用户界面(UI)的屏幕截图转换为结构化数据,使 LLM 能够理解和操作图形用户界面(GUI),从而实现跨平台的自动化任务。


项目链接:https://github.com/microsoft/OmniParser


Manus让电脑使用再度翻红,一文带你全面认知Computer Use Agent,附项目论文资源


5、E2B Desktop Sandbox


E2B Desktop Sandbox是一个桌面沙盒环境,专为开发者设计,提供安全的测试和开发平台,支持多种操作系统和开发工具。


项目链接:https://github.com/E2B-Cloud/E2B-Desktop-Sandbox


6、Claude Computer Use Demo


该项目为MacOS提供了Claude计算机使用的演示工具,帮助用户快速上手AI驱动的计算机操作。


项目链接:https://github.com/AnthropicComputerUse


7、Computer Use - OOTB


提供开箱即用的计算机使用体验,支持多种操作系统,旨在简化用户与计算机的交互。


项目链接:https://github.com/AnthropicComputerUse


8、claude-minecraft-use


将Claude集成到Minecraft中,提供AI辅助功能,帮助玩家在游戏中实现自动化任务和复杂操作。


项目链接:https://github.com/ObservedObserver/claude-minecraft-use


Manus让电脑使用再度翻红,一文带你全面认知Computer Use Agent,附项目论文资源


9、Grunty


Grunty是一个开源的AI工具,支持多种任务自动化,适用于简单和复杂的操作。


项目链接:https://github.com/Grunty


10、Self-Operating Computer Framework


一个自运行计算机框架,支持自动化操作,适用于需要低干预的复杂任务。


项目链接:https://github.com/SelfOperatingComputerFramework


11、Anthropic Computer Use (for Mac)


Anthropic为Mac设计的计算机使用工具,提供AI驱动的交互体验。


项目链接:https://github.com/anthropics/anthropic-quickstarts


12、Cybergod


一个开源的AI驱动工具,支持多种应用,包括自动化任务和复杂操作。


项目链接:https://github.com/Cybergod


13、Bytebot


一个轻量级的AI机器人框架,适用于快速开发和部署,高级计算机控制。


项目链接:https://github.com/Bytebot


Manus让电脑使用再度翻红,一文带你全面认知Computer Use Agent,附项目论文资源


14、UI-Act


提供用户界面自动化操作的工具,支持多种操作系统和应用。


项目链接:https://github.com/UIAct


15、Upsonic


支持MCP的可靠Agent框架,集成浏览器使用和计算机使用。


项目链接:https://github.com/upsonic/upsonic


16、Grunty


计算机控制Agent,任务自动化焦点。


项目链接:https://github.com/suitedaces/computer-agent


17、Cua


计算机使用接口和Agent


项目链接:https://github.com/trycua


18、ScreenAgent


一个由视觉语言模型驱动的计算机控制Agent项目。它创建了一个与真实计算机屏幕交互的环境,Agent可通过鼠标和键盘操作观察屏幕截图并控制GUI。


项目链接:https://github.com/niuzaisheng/ScreenAgent


19、OpenManus


由MetaGPT团队开发的开源复刻版 Manus,旨在复刻并改进 Manus 的核心功能,提供无需邀请码、可本地化部署的智能体解决方案。该项目基于模块化设计,支持多种语言模型(如 GPT-4、Claude 3.5、Qwen VL Plus 等)和工具链。采用 ReAct(推理与行动)框架,将复杂任务分解为可执行的子步骤,并动态协调工具调用。提供实时反馈机制,用户可以直观地看到 AI 的思考过程和任务执行进度。


项目链接:https://github.com/OpenManus/OpenManus


Manus让电脑使用再度翻红,一文带你全面认知Computer Use Agent,附项目论文资源


20、OWL


OWL(Optimized Workforce Learning for General Multi-Agent Assistance in Real-World Task Automation)是由CAMEL-AI团队开发的开源多智能体协作框架,旨在复刻并超越Manus的核心功能。OWL专注于通过多智能体协作实现任务自动化,其目标是彻底变革AI智能体解决现实任务的方式。


项目链接:https://github.com/camel-ai/owl


21、OpenHands


OpenHands是一个由AI驱动的软件开发代理平台,核心定位是“让AI智能体成为全栈开发者”。它能够执行代码修改、命令运行、网页浏览、API调用,甚至可以从StackOverflow复制代码片段。


项目链接:https://github.com/All-Hands-AI/OpenHands


22、Open-Computer-Use


由E2B桌面沙盒支持并由开源 LLMs 控制的安全云 Linux 计算机。它通过键盘、鼠标和 shell 命令操作计算机,支持 10 + LLMs,并可直播沙盒显示。


项目链接:https://github.com/e2b-dev/open-computer-use


23、Clevrr Computer


Anthropic 的 Computer Use 的开源实现,旨在使用 PyAutoGUI 库代表用户执行精确高效的系统作。它可以自动化键盘、鼠标和屏幕交互,同时确保每项任务的安全性和准确性。


项目链接:https://github.com/Clevrr-AI/Clevrr-Computer


Computer Use相关的论文


本文,王吉伟频道精选了以下几篇论文,供大家参考。


Manus让电脑使用再度翻红,一文带你全面认知Computer Use Agent,附项目论文资源


1、计算机使用的人工智能Agent:基于指令的计算机控制、GUI自动化和运算符助手综述


AI Agents for Computer Use: A Review of Instruction-based Computer Control, GUI Automation, and Operator Assistants


从环境、交互和Agent的角度建立计算机控制Agent(CCA)分类法的综合综述,分析了86个CCA和33个数据集


论文地址:https://arxiv.org/abs/2501.16150


2、OS Agent:关于用于一般计算设备的基于 MLLM 的Agent的调查


OS Agents: A Survey on MLLM-based Agents for General Computing Devices Use


论文地址:https://openreview.net/pdf/ed2f5ee6b84c3b118cb953b6e750486dbd700419.pdf


3、UFO:用于 Windows作系统交互的以UI为中心的Agent


UFO: A UI-Focused Agent for Windows OS Interaction


UFO是一种以UI为中心的创新Agent,利用GPT-Vision功能满足Windows操作系统上应用程序的用户请求。满足用户请求方面表现出色,首个为Windows任务完成定制的UIAgent。


论文地址:https://arxiv.org/abs/2402.07939


项目地址:https://github.com/microsoft/UFO


Manus让电脑使用再度翻红,一文带你全面认知Computer Use Agent,附项目论文资源


4、PC Agent:当你睡觉时,AI 工作 -- 进入数字世界的认知之旅


PC Agent: While You Sleep, AI Works -- A Cognitive Journey into Digital World通过 PC Tracker


收集高质量人机交互轨迹,经两阶段认知完成管道转化,再由多Agent系统结合决策规划与视觉接地,实现复杂数字工作能力。


论文地址:https://arxiv.org/abs/2412.17589


5、OS-Copilot:迈向具有自我提升能力的通才计算机Agent


OS-Copilot: Towards Generalist Computer Agents with Self-Improvement


OS-Copilot框架,旨在构建能与操作系统中多种元素交互的通用Agent。


论文地址:https://arxiv.org/abs/2402.07456


6、OSWorld:在真实计算机环境中为开放式任务对多模式Agent进行基准测试


OSWorld: Benchmarking Multimodal Agents for Open-Ended Tasks in Real Computer Environments


用于多模式Agent的可扩展真实计算机环境,支持跨多种操作系统(如 Ubuntu、Windows 和 macOS)的任务设置、基于执行的评估和交互式学习。


论文地址:https://arxiv.org/abs/2404.07972


Manus让电脑使用再度翻红,一文带你全面认知Computer Use Agent,附项目论文资源


7、Windows Agent Arena:大规模评估多模式 OS Agent


Windows Agent Arena: Evaluating Multi-Modal OS Agents at Scale


一个专注于Windows操作系统的可复现通用环境,旨在评估多模态操作系统Agent的性能。


8、ScreenAgent:Vision Language 模型驱动的计算机控制Agent


ScreenAgent: A Vision Language Model-driven Computer Control Agent


一个由视觉语言模型(VLM)驱动的计算机控制Agent。研究团队构建了一个让Agent与真实计算机屏幕交互的环境,Agent可通过鼠标和键盘操作观察屏幕并操控图形用户界面。


论文地址:https://arxiv.org/abs/2402.07945项目地址:https://github.com/niuzaisheng/ScreenAgent


后记:机遇和挑战并存


聊到这里,相信大家对Computer Use Agent已经有了全面的认知。从Claude 3.5 Sonne 电脑使用的推出,到OpenAI CUA的性能飞跃,再到Manus的通用化落地,毫无疑问这个领域将在2025年迎来爆发式增长。越来越多产品和项目的出现,意味着它们不再是实验性项目,而是正在走进我们的数字生活。


未来几年,你可能只需说一句“帮我订明天去旧金山的机票”,一个智能体就会流畅地自动打开浏览器、搜索航班、填写信息,甚至在付款前提醒你确认。这种便利背后,是多模态 AI、链式推理和 GUI 交互技术的融合。Manus的86.5% GAIA准确率和OpenAI在WebVoyager上87%的成功率,意味着AI正在从“听懂人话”走向“干人活”。


Manus让电脑使用再度翻红,一文带你全面认知Computer Use Agent,附项目论文资源


但这条路才刚刚开始,挑战依然存在。现阶段的Computer Use Agent虽已能在浏览器中订票、在桌面上整理文件,但距离真正无缝接管复杂工作流仍有距离。比如,OSWorld中人类72.4%的基准,提醒我们AI在通用场景下的鲁棒性仍需加强;WebArena中58.1%的得分,也暴露了其在动态任务中的局限。即便是 Manus,其多智能体架构在面对极端场景时是否稳定,仍需更多实战检验。


隐私与安全问题更是不容忽视。这些智能体需要频繁截屏和操作用户界面,如何确保敏感数据不被滥用?OpenAI和Anthropic都强调了用户确认机制和不训练用户数据的承诺,但随着技术普及,这类问题可能会成为公众关注的焦点。还有成本与门槛:Operator 的 $200/月订阅和Manus的内测限制,都提醒我们,真正全民化的Computer Use Agent还需要时间。


成功率与人类差距明显、部署复杂性高、隐私安全等问题亟待解决。当然,这些问题也正是未来突破的方向。


Manus让电脑使用再度翻红,一文带你全面认知Computer Use Agent,附项目论文资源


即便如此,Computer Use Agent的市场潜力令人振奋。Manus的多Agent架构或许只是个开始,结合自适应学习和更强的多模态能力,下一代Agent可能实现真正的“自主性”——无需用户确认,就能独立完成从计划到执行的全流程。


开源社区的活跃(如Midscene.js、OpenInterpreter)也将加速这一进程,更多开发者正在参与到技术迭代中。随着边缘计算和隐私保护技术的进步,Agent有望在本地运行,降低成本与安全风险。


五年后,你的电脑或者手机可能就会由一个安全、快速、稳定的Agent全权管理,从日程安排到数据分析,只需一句话即可搞定。


最后,放一个Anthropic Computer Use的演示视频动图,视频速度为三倍速。


Manus让电脑使用再度翻红,一文带你全面认知Computer Use Agent,附项目论文资源


文章来自于“王吉伟”,作者“王吉伟”。


Manus让电脑使用再度翻红,一文带你全面认知Computer Use Agent,附项目论文资源

关键词: AI , Manus , 智能体 , GUI
AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
OWL

【开源免费】OWL是一个完全开源免费的通用智能体项目。它可以远程开Ubuntu容器、自动挂载数据、做规划、执行任务,堪称「云端超级打工人」而且做到了开源界GAIA性能天花板,达到了57.7%,超越Huggingface 提出的Open Deep Research 55.15%的表现。

项目地址:GitHub:https://github.com/camel-ai/owl

2
OpenManus

【开源免费】OpenManus 目前支持在你的电脑上完成很多任务,包括网页浏览,文件操作,写代码等。OpenManus 使用了传统的 ReAct 的模式,这样的优势是基于当前的状态进行决策,上下文和记忆方便管理,无需单独处理。需要注意,Manus 有使用 Plan 进行规划。

项目地址:https://github.com/mannaandpoem/OpenManus


3
AI代理

【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务,如比较价格、添加购物车、回复各种社交媒体等。

项目地址:https://github.com/browser-use/browser-use


4
AI工作流

【开源免费】n8n是一个可以自定义工作流的AI项目,它提供了200个工作节点来帮助用户实现工作流的编排。

项目地址:https://github.com/n8n-io/n8n

在线使用:https://n8n.io/(付费)


【开源免费】DB-GPT是一个AI原生数据应用开发框架,它提供开发多模型管理(SMMF)、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL(智能体工作流编排)等多种技术能力,让围绕数据库构建大模型应用更简单、更方便。

项目地址:https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file



【开源免费】VectorVein是一个不需要任何编程基础,任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤,并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。

项目地址:https://github.com/AndersonBY/vector-vein?tab=readme-ov-file

在线使用:https://vectorvein.ai/(付费)

5
智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。

项目地址:https://github.com/Significant-Gravitas/AutoGPT


【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

6
免费使用GPT-4o

【免费】ffa.chat是一个完全免费的GPT-4o镜像站点,无需魔法付费,即可无限制使用GPT-4o等多个海外模型产品。

在线使用:https://ffa.chat/

7
prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。

项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md

在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0

8
无人直播

【开源免费】VideoChat是一个开源数字人实时对话,该项目支持支持语音输入和实时对话,数字人形象可自定义等功能,首次对话延迟低至3s。

项目地址:https://github.com/Henry-23/VideoChat

在线体验:https://www.modelscope.cn/studios/AI-ModelScope/video_chat


【开源免费】Streamer-Sales 销冠是一个AI直播卖货大模型。该模型具备AI生成直播文案,生成数字人形象进行直播,并通过RAG技术对现有数据进行寻找后实时回答用户问题等AI直播卖货的所有功能。

项目地址:https://github.com/PeterH0323/Streamer-Sales