# 热门搜索 #
搜索
腾讯这篇论文,暴露了它想操控所有APP的野心
4089点击    2023-12-25 12:01

AI时代的第一个超级APP,很可能又是腾讯搞的


虽然现在各种AI加持下的Chatbot、生图、扩图应用层出不穷,但总感觉好像并没有给日常生活带来什么变化。


回想当年互联网技术从网页到移动端的进化,支付宝取代了现金、滴滴重塑了出行、美团改写了用餐方式...那么AI技术会带来什么样的变革?


腾讯研究团队的一篇最新论文带来了一种可能:一个帮你操作所有APP的应用。


只要告诉这个应用你想做什么,它就会自动打开相关的手机App,直接把事儿给你办了。



比如帮你订个工作日起床闹钟、给领导发个微信消息、上美团点杯奶茶、去拼多多买一箱最便宜的纸巾、让滴滴叫一辆去机场的车、或者把刚拍的照片P好看一下然后直接发到朋友圈,顺手配一段伤感的文字。



有了这个APPAgent就再也不用去一页页找各种APP了,未来需要咱们手动点开的可能就这一个APP。


这是什么?这不就是个比微信更强大的超级流量入口嘛!


01


具体如何实现这一操作的,APPAgent分为几个步骤。


首先是如何保证能够“调用”所有应用,比如说Siri能够访问“闹钟”应用,就是从系统上植入了访问接口,而市面上的APP几乎无穷无尽,不可能每一个开发者都给Siri搞一个接头暗号。


AppAgent第一个厉害之处就来了,它不需要开发者做任何改动,可以直接模仿人类玩手机的方式,通过图形界面来操作App。


也就是说,它把人类使用APP的过程拆解成了几个具体动作,比如滑动、点击、长按、输入等。



也就是说它在AI的加持下,自行学习人类使用APP的过程,从而达到模拟的效果。


这意味着无论市面上出现了什么新的App,只要给AppAgent一点时间自己摸索一下,它就能自己熟练使用了。


在这个过程中,最大的问题是AI如何识别这千千万万种不同的APP、不同的页面按钮分别是做什么的。


AppAgent要玩手机,首先要看得见手机屏幕。传统的方式是把常见的UI界面截图下来,人工打上标记,比如这个是输入框,那个是返回按钮,黄色袋鼠是美团,企鹅是QQ之类的。


然后通过这些数据训练出来一个能识别常见UI元素的视觉模型。


这个问题GPTV其实已经有解决方案了,GPTV其实是GPT-4 Vision的一个缩写,今年11月跟着GPT-4的上线一起来到了大众的视野。


GPT-4 Vision能做到的事简单来说,就是可以看懂用户发给它的图片。


比如像下面这样上传一张过马路的照片,然后问GPT-4照片里有多少人。它的回答是有137人,还很谦虚的说我是大概估算了一下,有些地方太暗还有些人被挡住了,所以我可能数得不准。[2]



大家一拥而上搞出了许多花样,包括但不限于:足球比赛解说、实时解读摄像头里出现的物品、根据手绘草图在电脑上帮你画图等等。[3]


大家一致评价:识别速度快、准确性也高,不过缺点也不是没有,太贵。比如做一个13秒的足球视频解说,就要花费约30美元。


但是能用钱解决的问题,都不是问题。


02


第二步,APPAgent会根据人类设定的目标,自我思考并拆解这个目标需要哪些过程。


收到一个请求后,AppAgent首先做的事情是观察环境,也就是上面提到的“看图说话”。


然后再思考怎么根据现状去实现最终目标,得出结论之后就行动。


最后根据行动之后,带来了哪些改变,做一个复盘,然后把这个复盘传递给下一个步骤。



比如说它点到了一个广告,就会发现和主要任务无关,并将这一结果的复盘向下传递,并得出结论不要点这个页面。


AppAgent在训练的时候强调了以目标为导向的逻辑,如果进入了与目标不相关的页面就返回上一页。并且还加入了现有大模型中有关用户界面的知识和人类操作的演示。


效果好得惊人,团队在9个APP上总共测试了45个任务,AppAgent在10个步骤内就能成功的概率高达84.4%,而且平均下来只需要5.1个步骤就可以完成。

这样每一步下去都会越来越接近目标。


这是执行任务的过程拆解,而在具体的操作上,如何让AI识别各个功能按键又是个大问题。


为了提升AppAgent在操作上的准确度和效率,团队在两件事儿上下了功夫。


首先,他们先简化了手机界面的坐标,根据前端的XML文件给每个UI元素指定了一个唯一编号。



然后,简化了手机的交互操作,规定了以下6种操作:轻点、长按、滑动、输入文字、返回和退出。


当AppAgent思考好了行动计划以后,只要根据操作+位置编号来执行就可以了。


像上图里的“点击(3)”,意思就是执行“点击”这个操作,点的位置是编号为3的区域,也就是邮件发送按钮。


这种操作方式极大地提高了AppAgent操作的准确率。


在过去,直接用GPT-4来操作手机完成任务,成功率仅有2.2%,而还让GPT-4来指挥,但是执行端换成上面这种操作方式之后,成功率就提升到了48.9%。


实际上,这篇论文提供的是一种训练AI操作APP的解决方案,其突破性的创意在于改变了智能体实施操作的学习过程。


既互动方式模拟人类、识别UI靠数据标记、执行操作靠位置编号。


就当下来看,这是智能代理技术最为先进的解决方案,让明年AI Agents的普及成为了一种可能。



这技术普及还有另一种问题:以后水军刷评论更方便了。



参考文章:


[1] AppAgent: Multimodal Agents as Smartphone Users|Tencent 


[2] OpenAI's GPT-4 Vision explained: Transforming AI with Visual Capabilities | Encord 


[3] 解说梅西球赛、英雄联盟,OpenAI GPT-4视觉API被开发者玩出新花样 | 机器之心 


文章来自于 微信公众号“`新硅NewGeek”(ID:gh_b2beba60958f),作者 “刘白”


关键词: APP Agent , AI Agent , AI
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。

项目地址:https://github.com/Significant-Gravitas/AutoGPT


【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md