一不留神,大模型已经学会了操纵手机?
最近,腾讯最新多模态智能体框架AppAgent曝光,可以像人类一样操作各种应用。
比如在地图软件中输入目标地址,然后唤起导航。
或者想要发一封邮件,AppAgent也能轻松编写,然后直接在客户端中发送。
就算是“反人类”的验证码,也丝毫难不住AppAgent。
甚至是用Lightroom这样人类都不一定会的专业软件P图,也能三下五除二地完成。
而且它还可以观察人类操作,甚至是自主探索,不用教就能学会新的APP。
目前,该项目在GitHub上已经取得了1.5k星标。
为了更具体地评估AppAgent的表现,研究团队一共在10个不同的应用程序上测试了50个任务,其中还包括没有学习过的新APP或操作,结果它都能出色完成。
除了P图的效果由人工评判,AppAgent在其它九个APP上的表现,分别用成功率(SR)、奖励分数和平均步数来衡量。
在自动探索模式下时,AppAgent完成这些任务的成功率达到了73.3%,学习过DEMO之后可以提升到84.4%。
虽然离人类手工指导的95.6%还存在差距,但这样的表现已经远远超过了GPT-4。
而在使用Lightroom进行P图操作时,真人会对“参赛选手”的表现进行评价,评价的方式是对它们的作品效果进行排名而不是打分。
结果AppAgent自行学习DEMO后,表现的平均排名为1.95/3,略低于手工指导的1.75,但比GPT4的2.3还是高出不少。
那么,AppAgent优异表现的背后,采用了什么样的方法呢?
研究人员给AppAgent设定了点击、长按、滑动、输入、返回和退出这六种预置操作。
后续的学习过程和操作方案,都是由这六种操作按一定顺序排列组合而成的。
模型方面,AppAgent的基础模型是多模态版的GPT4;工作流程则分为了探索和操作两个阶段。
探索阶段中,研究人员会把应用说明和标有界面中元素位置的XML文件,连同界面截图一起输入给模型。
然后模型通过分析不同截图之间的界面变化,学习APP的功能和操作逻辑。
以发送邮件为例,人类的操作过程被转换成六种预置操作的组合,然后被AppAgent学习。
到了操作阶段,AppAgent会调用学习后的知识库,对应用界面进行分析,了解界面中的功能并根据任务需要设计操作策略。
目前,AppAgent已有DEMO可供体验,暂只支持安卓手机,具体详情和使用方法可以到项目页中查看。
论文地址:
https://www.arxiv.org/abs/2312.13771
【开源免费】n8n是一个可以自定义工作流的AI项目,它提供了200个工作节点来帮助用户实现工作流的编排。
项目地址:https://github.com/n8n-io/n8n
在线使用:https://n8n.io/(付费)
【开源免费】DB-GPT是一个AI原生数据应用开发框架,它提供开发多模型管理(SMMF)、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL(智能体工作流编排)等多种技术能力,让围绕数据库构建大模型应用更简单、更方便。
项目地址:https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file
【开源免费】VectorVein是一个不需要任何编程基础,任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤,并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。
项目地址:https://github.com/AndersonBY/vector-vein?tab=readme-ov-file
在线使用:https://vectorvein.ai/(付费)
【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。
项目地址:https://github.com/Significant-Gravitas/AutoGPT
【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md
【开源免费】FASTGPT是基于LLM的知识库开源项目,提供开箱即用的数据处理、模型调用等能力。整体功能和“Dify”“RAGFlow”项目类似。很多接入微信,飞书的AI项目都基于该项目二次开发。
项目地址:https://github.com/labring/FastGPT