这两天,Claude 3.5 Sonnet升级版刷爆了朋友圈,满屏都是:它能像人一样操作电脑。
大语言模型(Large Language Model,LLM)能够像人一样操作电脑这件事,看起来蛮炸裂的,但在AI Agent圈子里早已经见多不怪了。
作为一个AI Agent,结合多模态大模型、屏幕语义理解以及RPA等相关技术,实现操作PC并不是很难的事情。在过去1年多时间里,已经有很多公司及团队发布了相关的产品、项目及论文,比如实在Agent、UFO、CogAgent等等。
而大语言模型的Agent化从去年就已开始了,让大语言模型直接应用于某些场景(比如网页搜索与总结等)已是常态,这一点从ChatGPT再到kimi等都体现出来。尤其是现在加入思维链(Chain of Thought,CoT)的kimi,可以针对某个问题阅读200多个网页,真的给用户带来了很多惊喜和震撼。
这也算是一些大模型厂商开始主攻应用开发的重要原因。对于大部分大模型厂商来说,搞应用应该会比搞大模型有意思也更有价值得多。
所以从大模型Agent化这个角度来看,Claude 3.5 Sonnet实现操作PC也在意料之中,它的竞争对手OpenAI甚至在这方面的尝试更早,却让Anthropic拔得了头筹。
虽然GPT模型没能先一步实现操作PC,但发力多智能体已是板上钉钉的事实。最近ChatGPT的Windows版已经在微软商城上线,Plus会员已经能够能在PC上体验ChatGPT,这被一些媒体解读为ChatGPT攻入PC端的前置步骤。
当然东道主微软更加积极。除了今年早期推出UFO架构试水Agent操控PC,前段时间推出能够构建自主Agent的Copilot Studio,最近几天又在Dynamics 365软件中引入了10个“自主Agent”,这些Agent可以帮助用户自动处理IT问题、熟悉工作等各种任务。
似乎以Agent操作PC桌面,已经成为一众厂商发力的主旋律。
包括国内的大模型厂商也是如此,在借助开发者卷完各种场景的智能体应用之后,估计接下来都要卷包括PC屏幕和手机屏幕在内的用户界面了。
AI Agent操作PC界面的原理很简单,就是通过API接口和屏幕识别操作各种端侧应用,你可以理解为AI Agent四种设计方式中的“tool use”。API用于启动各种应用,屏幕识别用于定位和操作应用,这些技术早已经被RPA厂商发挥得淋漓尽致。
推荐阅读:Agentic Workflow新范式,基于大语言模型的工作流、业务流程、智能体大融合
在ChatGPT刚火爆的时候,很多人都说大语言模型不久就会干掉用户界面,结果现在大模型都在抢着认识并熟悉GUI了,蛮有意思。
事实上,对于大语言模型操作PC这件事,自从LLM出现以来就有很多自动化厂商在尝试了。RPA\超自动化、低代码、ERP等企业服务领域的厂商尝试的最早,大概可以追溯到OpenAI的GPT 2刚发布的时候。
在LLM、RPA和AI Agent融合以更简单操作PC实现业务流程构建自动化这件事上,RPA\超自动化厂商的行动至少比Anthropic早了一年。
那么,在Anthropic之前都有哪些厂商哪些项目或者产品实现以大语言模型、AI Agent操作PC了呢?本文,王吉伟频道就跟大家聊聊这些。
大语言模型Agent化是指将大型语言模型作为智能体(Agent)的核心,使其具备环境感知、自主理解、决策制定及执行行动的能力。这种Agent化的技术,让大模型能够模拟独立思考过程,灵活调用各类工具,逐步达成预设目标。
与第三方厂商借助这些大语言模型构建AI Agent不同,大语言模型的Agent化是在大模型本身基础上融合了Agent应用,加入了反思、工具应用等技术元素,使得大语言模型本身就成为一个AI Agent。从而让大模型多了更多的功能,而不需要普通用户再去考虑复杂的提示词或者再去学习如何添加更多的功能。
比如OpenAI前段时间推出的能够推理的o1模型,就是一个AI Agent,可以通过思维链进行反思从而给予用户更好的答案。
大语言模型的Agent化,将语言模型转变为具备自主决策和执行能力的智能体。这意味着模型不仅能生成文本,还能理解上下文、制定计划并与外部环境交互,从而执行任务,如自动化客服、数据分析或个人助手等。
Claude 3.5 Sonnet升级版便是Claude进一步Agent化的结果,大模型的直接升级让其实现能够直接操作电脑。
除了编程能力、性能与效率得到进一步提升之外,Claude 3.5 Sonnet升级版的最大特点是具备计算机使用功能。
Claude 3.5 Sonnet引入了名为"computer use"的突破性功能,允许AI像人类一样操作计算机。包括查看屏幕、移动光标、点击按钮和输入文本等操作。这项功能目前处于公开 beta 测试阶段,允许开发者通过 API 指挥 Claude 执行各种计算机任务,如自动化处理重复性流程、构建和测试软件,或进行开放式研究。
目前多家知名公司如 Asana、Canva、Cognition、DoorDash、Replit 和 The Browser Company 已开始探索这些新功能的潜力,将其应用于复杂的多步骤任务中,相信接下来又会多一批PC自动化软件应用。
Claude 3.5 Sonnet升级版已正式上线,支持通过Anthropic API、Amazon Bedrock和Google Cloud进行调用,为开发者提供了灵活的集成选项,感兴趣的朋友可以尝试。
Claude 3.5 Sonnet升级版能够直接操作PC,在很多人看起来足够震撼。但事实上,基于LLM或者AI Agent操作PC的项目,目前已经有不少。尤其是微软,对于如何使用LLM操控及优化自家Windows系统自是格外用心。
下面这些代表性项目,都是基于GPT、开源模型或者自研模型实现PC操作的,王吉伟频道整理出来供大家参考。
当然,如果你现在还无法体验Claude 3.5 Sonnet升级版,也可以先拿其中的项目尝尝鲜。
微软推出的UFO(User Interface-Focused Agent)是专为Windows操作系统设计的智能体框架,它通过自然语言处理和图形用户界面分析,理解和执行用户的复杂请求。UFO采用双Agent架构,HostAgent负责分析用户请求并选择合适应用程序,而AppAgent在选定应用上执行动作。它能够在多应用程序间无缝操作,处理图像和文本信息,实现多模态输入。
UFO还允许自定义任务和控件,高度可扩展,且操作有保障措施,如提示用户确认敏感操作。由LLM驱动,UFO展现了Windows在AI领域的创新,为操作系统发展提供新方向。
项目地址:https://github.com/microsoft/UFO
论文:https://arxiv.org/abs/2402.07939
Cradle是一个多模态AI Agent框架,由昆仑万维、北京智源人工智能研究院、新加坡南洋理工大学、北京大学等机构推出。Cradle使AI Agent无需训练便能像人一样直接控制键盘鼠标,实现任意开闭源软件交互。
官网链接:https://ai-bot.cn/cradle/
Cradle论文:https://arxiv.org/abs/2403.16971
ScreenAgent是一个由吉林大学人工智能学院开发的项目,利用视觉语言模型(VLM)直接控制电脑GUI,实现大模型直接操作电脑的目标。
项目链接:https://github.com/niuzaisheng/ScreenAgent
ScreenAgent论文:https://arxiv.org/abs/2402.07945
PyGPT是一个第三方软件,支持GPT-4、GPT-4V、GPT-3.5和DALL-E 3,以及Langchain/Llama-index提供的所有LLMs,如Llama 3、Mistral、Google Gemini和Anthropic Claude。它具有内置的互联网搜索、语音合成和识别、预设提示、对话历史记录、插件支持等功能。
官网链接:https://pygpt.net/
项目链接:https://github.com/pygpt-net/PyGPT
5、DesktopGPT
DesktopGPT是由HIX.AI开发的一款桌面应用程序,它将ChatGPT的AI功能扩展到Windows操作系统,使用户能够在任何网站、应用程序、文档和电子邮件上利用人工智能。该程序支持多种AI模型,包括GPT-3.5 Turbo和GPT-4,提供键盘快捷键和预设模板以简化任务。
它还支持200多种语言,适用于Windows和macOS系统,并需要互联网连接。这款应用程序旨在提高生产力,使用户能够快速、轻松地在桌面上使用AI辅助工具。
官网链接:https://desktopgpt.hix.ai/
Open Interpreter是一个开源项目,允许大型语言模型在本地计算机上执行多种编程语言代码,如Python、JavaScript和Shell。它通过自然语言处理技术,将用户的日常语言指令转换为可执行的代码,实现文件操作、数据处理、编程教学等多种功能。用户只需通过简单的语言输入,即可控制计算机完成复杂的任务。
Open Interpreter的安装和使用非常简便,通过pip安装后,在终端运行即可开始交互。此外,它还支持交互式调试和智能上下文理解,提供实时反馈和多步骤任务执行能力。
项目链接:https://github.com/OpenInterpreter/open-interpreter
官网链接:https://www.openinterpreter.com/
Open-Interface是一个基于大语言模型(LLM)的计算机自动化工具,它使计算机能够理解并执行自然语言指令,完成各种任务。该工具支持多平台,包括MacOS、Linux和Windows,用户可以通过简单的安装步骤和配置API密钥来使用。其核心功能包括将自然语言请求转化为操作步骤,并通过模拟输入执行这些步骤。它还具备根据屏幕截图进行纠错的能力,确保任务的准确性。
Open-Interface的系统架构设计使其能够处理复杂的用户请求,其成本效益和易于中断操作的特点,为用户提供了灵活的控制选项。
项目地址:https://github.com/AmberSahdev/Open-Interface
开发者博客: https://ambersah.dev/
业务流程自动化是广大企业的刚需,也是打入企业服务赛道不可避免的业务切口。大语言模型想要在业务流程中发光发热,就要研究如何融合并赋能业务流程自动化。因此,很多大模型厂商在探索应用落地的时候,也会优先考虑基于LLM以及AI Agent的PC自动化与业务流程自动化。
下面这几个典型项目都是由大模型厂商推出的,其中不乏科技巨头。
AppAgent是由腾讯人工智能实验室与德州大学达拉斯分校合作开发的一个基于大型语言模型(LLMs)的多模态智能Agent框架。它的主要功能是模仿人类在手机上操作应用程序的行为,通过自主学习和模仿人类的点击和滑动手势,在手机上执行各种任务。
通过自主探索和观察人类示范,AppAgent能够学习并掌握使用各种应用的技巧,无需访问敏感数据。该Agent已在10种不同应用上成功执行社交媒体上发帖、帮助用户撰写和发送邮件、使用地图、在线购物、图像编辑等50个任务,展现出强大的适应性和学习效率。
项目地址:https://github.com/mnotgod96/AppAgent
MobileAgent是阿里巴巴和北京交通大学开发的可以模拟人类操作手机的自主多模态AI Agent。它利用人工智能技术,特别是在多模态大型语言模型的应用,实现移动设备Agent的自主决策和交互。
MobileAgent是一个纯视觉解决方案,不需要系统代码,通过分析手机截图来理解和操作手机界面,实现即插即用。这款AIAgent能够模拟人类操作,自主完成购物、播放音乐、导航、写便签、发邮件等多种任务,且操作范围不受限制,可实现跨应用操作。MobileAgent具有自主任务规划和执行能力,用户无需进行探索和培训即可随时使用。此外,它还具备自反思能力,能够不断优化自身性能。
项目地址:https://github.com/X-PLUG/MobileAgent
CogAgent是由智谱AI联合联合清华大学推出的多模态大模型,专门设计用于理解和导航图形用户界面(GUI)。该模型能够处理高达1120×1120分辨率的图像,具备视觉问答、视觉定位等能力。
CogAgent在多个图像理解基准测试中表现优异,包括VQAv2和STVQA等,并在电脑、手机GUI导航任务中大幅超越了基于LLM的方法。其核心技术包括高分辨率交叉注意力模块,有效降低计算成本。CogAgent-18B模型已在GitHub开源,提供网页版Demo,为自动化测试和智能交互等领域带来新的可能性。
论文地址:https://arxiv.org/abs/2312.08914
模型地址:https://link.juejin.cn/?target=https%3A%2F%2Fhuggingface.co%2FTHUDM%2Fcogagent-chat-hf
ProAgent是由面壁智能联合清华大学等机构推出的智能体流程自动化技术,它利用大型语言模型(LLMs)来创建能够动态适应并与队友协作的智能Agent。与传统RPA相比,ProAgent能够自主构建工作流,并在执行中处理复杂决策。
它通过引入DataAgent和ControlAgent来实现数据处理和逻辑控制,支持自然语言指令生成代码,并优化工作流构建过程。ProAgent在多智能体系统中展现了卓越的协作能力,特别是在与人类Agent合作时性能提升了超过10%。
项目地址:https://github.com/OpenBMB/ProAgent
再来聊聊RPA Agent
王吉伟频道的老朋友应该知道,RPA Agent是基于RPA融合屏幕识别等技术、LLM以及AI Agent架构实现的。RPA本身就能操作PC系统,在融合AI Agent之后更是进一步实现了通过自然语言指令操作PC,做到了“用户说PC做”。
目前国内外很多厂商都在RPA基础上融合AI Agent推出了相关的RPA Agent产品,还有的厂商则是在AI Agent架构中采用了RPA这种兼顾UI与API自动化工具。
下面这张表格,列举了当前已经推出RPA\超自动化Agent的国内外厂商。
可以看出,全球主流RPA厂商几乎清一色将RPA融合了AI Agent。还没有出现在这张图表中的厂商,则是因为先推出了copilot模式,并且正走在推出AI Agent的路上。
推荐阅读:【万字长文】RPA与AI Agent融合产品大盘点:产品形态是怎样的?有什么优势和机会?未来发展如何?
RPA Agent是一种更智能的软件机器人,旨在自动执行通常由人类完成的重复性和规则性任务。RPA Agent通过模拟人类在计算机上的操作,如点击、输入数据、读取和处理信息等,来实现业务流程的自动化。其主要目的是提高效率、减少人为错误和降低运营成本。
RPA Agent能够模拟人类在计算机上执行的操作,自动执行通常由人类完成的重复性和规则性任务。RPA Agent通过模拟人类在计算机上的操作,如点击、输入数据、读取和处理信息等,来实现业务流程的自动化。
融合LLM based AI Agent架构的RPA Agent,核心功能包括感知当前环境、执行任务、记忆历史经验以及自主决策等,不仅可以接收指令、理解任务需求,还能自主完成工作流程的拆解、执行和反馈。
较之仅通过API接口调用各种工具的AI Agent,兼顾UI与API自动化并且具备LLM理解、推理、编码、生成等功能的RPA Agent执行能力更强,且应用范围更广,能够根据预设的规则和流程,自动处理各种业务场景,提高工作效率和质量。
基于LLM的特性和AI Agent架构的优势,RPA Agent已经进化到用户说一句话就能执行PC自动化与手机自动化的程度。
目前的RPA Agent产品大部分都是面向B端的,毕竟RPA产品本来就是服务企业级应用的。当然也有同时面向B端与C端的,比如实在Agent。
由实在智能推出的“实在 Agent” 智能体诞生于去年8月,该产品借助垂直大语言模型 TARS,调用 RPA 和 ISSUT 来完成点击、输入、下载等任务。它无需 API,能够为企业员工配备全能业务专家,实现超自动化执行以及自然对话式交互。
推荐阅读:智能体进化发展了一年,现在的RPA Agent迭代到什么程度了?
当然对于大部分C端用户来说,因为它能通过RPA操作更多的PC应用,所以能实现的功能也就更多,可以算作更全面的AI 个人助理。
感兴趣的朋友,可以到官网下载这款产品体验一下。
下载体验地址:https://www.ai-indeed.com/products/agentRpa
虽然Claude 3.5 Sonnet升级版与RPA Agent都能操作PC,但是两者还是有一定区别的。最后,我们也来简单说一说。
对比Claude 3.5 Sonnet升级版以及实在Agent等RPA Agent产品,两者的区别主要包括以下几点:
首先在概念方面,前者是一个大语言模型,后者则是一个AI Agent产品。Claude 3.5 Sonnet升级版由国外Anthropic公司开发,是Claude系列的重要升级,增加了“computer use”功能,实现对计算机的操控。而RPA Agent如实在Agent则基于RPA技术,能模拟人类操作,自动完成重复、规则性的工作流程。
其次,在核心功能与应用场景方面。Claude 3.5 Sonnet升级版通过API接口实现计算机操控,如移动光标、点击屏幕、输入信息等,极大提高了工作效率和智能化水平。它还具有出色的编程能力,能高效解决编程问题并生成代码,同时助力数据分析。RPA Agent能接收指令、理解任务需求并自主完成工作流程,跨系统集成能力强,已广泛应用于金融、制造、零售等行业,实现业务流程自动化,降低人力资源成本。
第三,在技术实现方面。Claude 3.5 Sonnet升级版依赖Anthropic公司的API接口翻译用户指令,结合强化学习范式和高质量合成数据提升性能。RPA Agent则通过模拟人类操作实现自动化,利用自然语言处理和屏幕语义理解技术理解和执行复杂业务场景的自动化流程。
最后,在性能与表现方面。Claude 3.5 Sonnet升级版在OSWorld基准测试上领先,尤其在多步骤任务中得分远超对手,虽速度和准确性待提升,但整体性能行业领先。RPA Agent则在实际应用中高效可靠,能快速完成自动化任务,降低人力成本,提高工作效率和准确性。
更详细的对比,王吉伟频道也做了一个表格。
Claude 3.5 Sonnet升级版与RPA Agent在技术背景、核心功能、技术实现方式和性能表现等方面都存在着一些差异。但两者各有优势,适用于不同的应用场景和需求,这就需要开发者们灵活结合两者的特点与优势,打造成更强劲的产品与解决方案。
虽然大模型直接操作PC来得晚了一些,但Claude 3.5 Sonnet升级版的推出对于行业未来推动工作效率提升、拓展AI应用场景、促进技术创新与产业升级以及优化资源配置与降低成本等多个方面都有着积极的意义。
无疑,来来构建于Claude 3.5 Sonnet升级版这样的模型之上的AI Agent,也将在企业的数智化进程中发挥更大的作用。
文章来自于微信公众号“王吉伟”,作者“ 王吉伟”
【开源免费】n8n是一个可以自定义工作流的AI项目,它提供了200个工作节点来帮助用户实现工作流的编排。
项目地址:https://github.com/n8n-io/n8n
在线使用:https://n8n.io/(付费)
【开源免费】DB-GPT是一个AI原生数据应用开发框架,它提供开发多模型管理(SMMF)、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL(智能体工作流编排)等多种技术能力,让围绕数据库构建大模型应用更简单、更方便。
项目地址:https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file
【开源免费】VectorVein是一个不需要任何编程基础,任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤,并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。
项目地址:https://github.com/AndersonBY/vector-vein?tab=readme-ov-file
在线使用:https://vectorvein.ai/(付费)
【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。
项目地址:https://github.com/Significant-Gravitas/AutoGPT
【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md
【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。
项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md
在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0