鹅厂新智能体亮相!操纵手机水平媲美真人,GitHub一周获1.5K星

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
鹅厂新智能体亮相!操纵手机水平媲美真人,GitHub一周获1.5K星
9184点击    2023-12-26 20:26

一不留神,大模型已经学会了操纵手机?


最近,腾讯最新多模态智能体框架AppAgent曝光,可以像人类一样操作各种应用。


比如在地图软件中输入目标地址,然后唤起导航。


鹅厂新智能体亮相!操纵手机水平媲美真人,GitHub一周获1.5K星


或者想要发一封邮件,AppAgent也能轻松编写,然后直接在客户端中发送。


鹅厂新智能体亮相!操纵手机水平媲美真人,GitHub一周获1.5K星


就算是“反人类”的验证码,也丝毫难不住AppAgent。


鹅厂新智能体亮相!操纵手机水平媲美真人,GitHub一周获1.5K星


甚至是用Lightroom这样人类都不一定会的专业软件P图,也能三下五除二地完成。


鹅厂新智能体亮相!操纵手机水平媲美真人,GitHub一周获1.5K星


而且它还可以观察人类操作,甚至是自主探索,不用教就能学会新的APP。


目前,该项目在GitHub上已经取得了1.5k星标。


鹅厂新智能体亮相!操纵手机水平媲美真人,GitHub一周获1.5K星


操纵水平超越GPT4


为了更具体地评估AppAgent的表现,研究团队一共在10个不同的应用程序上测试了50个任务,其中还包括没有学习过的新APP或操作,结果它都能出色完成。


鹅厂新智能体亮相!操纵手机水平媲美真人,GitHub一周获1.5K星


除了P图的效果由人工评判,AppAgent在其它九个APP上的表现,分别用成功率(SR)、奖励分数和平均步数来衡量。


在自动探索模式下时,AppAgent完成这些任务的成功率达到了73.3%,学习过DEMO之后可以提升到84.4%。


虽然离人类手工指导的95.6%还存在差距,但这样的表现已经远远超过了GPT-4。


鹅厂新智能体亮相!操纵手机水平媲美真人,GitHub一周获1.5K星


而在使用Lightroom进行P图操作时,真人会对“参赛选手”的表现进行评价,评价的方式是对它们的作品效果进行排名而不是打分。


结果AppAgent自行学习DEMO后,表现的平均排名为1.95/3,略低于手工指导的1.75,但比GPT4的2.3还是高出不少。


鹅厂新智能体亮相!操纵手机水平媲美真人,GitHub一周获1.5K星


那么,AppAgent优异表现的背后,采用了什么样的方法呢?


通过界面变化学习操作


研究人员给AppAgent设定了点击、长按、滑动、输入、返回和退出这六种预置操作。


后续的学习过程和操作方案,都是由这六种操作按一定顺序排列组合而成的。


模型方面,AppAgent的基础模型是多模态版的GPT4;工作流程则分为了探索操作两个阶段。


鹅厂新智能体亮相!操纵手机水平媲美真人,GitHub一周获1.5K星


探索阶段中,研究人员会把应用说明和标有界面中元素位置的XML文件,连同界面截图一起输入给模型。


然后模型通过分析不同截图之间的界面变化,学习APP的功能和操作逻辑。


鹅厂新智能体亮相!操纵手机水平媲美真人,GitHub一周获1.5K星


以发送邮件为例,人类的操作过程被转换成六种预置操作的组合,然后被AppAgent学习。


鹅厂新智能体亮相!操纵手机水平媲美真人,GitHub一周获1.5K星


到了操作阶段,AppAgent会调用学习后的知识库,对应用界面进行分析,了解界面中的功能并根据任务需要设计操作策略。


鹅厂新智能体亮相!操纵手机水平媲美真人,GitHub一周获1.5K星


目前,AppAgent已有DEMO可供体验,暂只支持安卓手机,具体详情和使用方法可以到项目页中查看。


论文地址:


https://www.arxiv.org/abs/2312.13771


文章来自于微信公众号“量子位”(ID: QbitAI),作者 “克雷西”
关键词: AppAgent , 腾讯AppAgent
AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
AI代理

【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务,如比较价格、添加购物车、回复各种社交媒体等。

项目地址:https://github.com/browser-use/browser-use


2
AI工作流

【开源免费】n8n是一个可以自定义工作流的AI项目,它提供了200个工作节点来帮助用户实现工作流的编排。

项目地址:https://github.com/n8n-io/n8n

在线使用:https://n8n.io/(付费)


【开源免费】DB-GPT是一个AI原生数据应用开发框架,它提供开发多模型管理(SMMF)、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL(智能体工作流编排)等多种技术能力,让围绕数据库构建大模型应用更简单、更方便。

项目地址:https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file



【开源免费】VectorVein是一个不需要任何编程基础,任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤,并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。

项目地址:https://github.com/AndersonBY/vector-vein?tab=readme-ov-file

在线使用:https://vectorvein.ai/(付费)

3
智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。

项目地址:https://github.com/Significant-Gravitas/AutoGPT


【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

4
知识库

【开源免费】FASTGPT是基于LLM的知识库开源项目,提供开箱即用的数据处理、模型调用等能力。整体功能和“Dify”“RAGFlow”项目类似。很多接入微信,飞书的AI项目都基于该项目二次开发。

项目地址:https://github.com/labring/FastGPT