腾讯这篇论文，暴露了它想操控所有APP的野心

5011点击 2023-12-25 12:01

AI时代的第一个超级APP，很可能又是腾讯搞的

虽然现在各种AI加持下的Chatbot、生图、扩图应用层出不穷，但总感觉好像并没有给日常生活带来什么变化。

回想当年互联网技术从网页到移动端的进化，支付宝取代了现金、滴滴重塑了出行、美团改写了用餐方式...那么AI技术会带来什么样的变革？

腾讯研究团队的一篇最新论文带来了一种可能：一个帮你操作所有APP的应用。

只要告诉这个应用你想做什么，它就会自动打开相关的手机App，直接把事儿给你办了。

腾讯这篇论文，暴露了它想操控所有APP的野心

比如帮你订个工作日起床闹钟、给领导发个微信消息、上美团点杯奶茶、去拼多多买一箱最便宜的纸巾、让滴滴叫一辆去机场的车、或者把刚拍的照片P好看一下然后直接发到朋友圈，顺手配一段伤感的文字。

腾讯这篇论文，暴露了它想操控所有APP的野心

有了这个APPAgent就再也不用去一页页找各种APP了，未来需要咱们手动点开的可能就这一个APP。

这是什么？这不就是个比微信更强大的超级流量入口嘛！

01

具体如何实现这一操作的，APPAgent分为几个步骤。

首先是如何保证能够“调用”所有应用，比如说Siri能够访问“闹钟”应用，就是从系统上植入了访问接口，而市面上的APP几乎无穷无尽，不可能每一个开发者都给Siri搞一个接头暗号。

AppAgent第一个厉害之处就来了，它不需要开发者做任何改动，可以直接模仿人类玩手机的方式，通过图形界面来操作App。

也就是说，它把人类使用APP的过程拆解成了几个具体动作，比如滑动、点击、长按、输入等。

腾讯这篇论文，暴露了它想操控所有APP的野心

也就是说它在AI的加持下，自行学习人类使用APP的过程，从而达到模拟的效果。

这意味着无论市面上出现了什么新的App，只要给AppAgent一点时间自己摸索一下，它就能自己熟练使用了。

在这个过程中，最大的问题是AI如何识别这千千万万种不同的APP、不同的页面按钮分别是做什么的。

AppAgent要玩手机，首先要看得见手机屏幕。传统的方式是把常见的UI界面截图下来，人工打上标记，比如这个是输入框，那个是返回按钮，黄色袋鼠是美团，企鹅是QQ之类的。

然后通过这些数据训练出来一个能识别常见UI元素的视觉模型。

这个问题GPTV其实已经有解决方案了，GPTV其实是GPT-4 Vision的一个缩写，今年11月跟着GPT-4的上线一起来到了大众的视野。

GPT-4 Vision能做到的事简单来说，就是可以看懂用户发给它的图片。

比如像下面这样上传一张过马路的照片，然后问GPT-4照片里有多少人。它的回答是有137人，还很谦虚的说我是大概估算了一下，有些地方太暗还有些人被挡住了，所以我可能数得不准。[2]

腾讯这篇论文，暴露了它想操控所有APP的野心

大家一拥而上搞出了许多花样，包括但不限于：足球比赛解说、实时解读摄像头里出现的物品、根据手绘草图在电脑上帮你画图等等。[3]

大家一致评价：识别速度快、准确性也高，不过缺点也不是没有，太贵。比如做一个13秒的足球视频解说，就要花费约30美元。

但是能用钱解决的问题，都不是问题。

02

第二步，APPAgent会根据人类设定的目标，自我思考并拆解这个目标需要哪些过程。

收到一个请求后，AppAgent首先做的事情是观察环境，也就是上面提到的“看图说话”。

然后再思考怎么根据现状去实现最终目标，得出结论之后就行动。

最后根据行动之后，带来了哪些改变，做一个复盘，然后把这个复盘传递给下一个步骤。

腾讯这篇论文，暴露了它想操控所有APP的野心

比如说它点到了一个广告，就会发现和主要任务无关，并将这一结果的复盘向下传递，并得出结论不要点这个页面。

AppAgent在训练的时候强调了以目标为导向的逻辑，如果进入了与目标不相关的页面就返回上一页。并且还加入了现有大模型中有关用户界面的知识和人类操作的演示。

效果好得惊人，团队在9个APP上总共测试了45个任务，AppAgent在10个步骤内就能成功的概率高达84.4%，而且平均下来只需要5.1个步骤就可以完成。

这样每一步下去都会越来越接近目标。

这是执行任务的过程拆解，而在具体的操作上，如何让AI识别各个功能按键又是个大问题。

为了提升AppAgent在操作上的准确度和效率，团队在两件事儿上下了功夫。

首先，他们先简化了手机界面的坐标，根据前端的XML文件给每个UI元素指定了一个唯一编号。

腾讯这篇论文，暴露了它想操控所有APP的野心

然后，简化了手机的交互操作，规定了以下6种操作：轻点、长按、滑动、输入文字、返回和退出。

当AppAgent思考好了行动计划以后，只要根据操作+位置编号来执行就可以了。

像上图里的“点击（3）”，意思就是执行“点击”这个操作，点的位置是编号为3的区域，也就是邮件发送按钮。

这种操作方式极大地提高了AppAgent操作的准确率。

在过去，直接用GPT-4来操作手机完成任务，成功率仅有2.2%，而还让GPT-4来指挥，但是执行端换成上面这种操作方式之后，成功率就提升到了48.9%。

腾讯这篇论文，暴露了它想操控所有APP的野心

实际上，这篇论文提供的是一种训练AI操作APP的解决方案，其突破性的创意在于改变了智能体实施操作的学习过程。

既互动方式模拟人类、识别UI靠数据标记、执行操作靠位置编号。

就当下来看，这是智能代理技术最为先进的解决方案，让明年AI Agents的普及成为了一种可能。

腾讯这篇论文，暴露了它想操控所有APP的野心

这技术普及还有另一种问题：以后水军刷评论更方便了。

腾讯这篇论文，暴露了它想操控所有APP的野心

参考文章：

[1] AppAgent: Multimodal Agents as Smartphone Users｜Tencent

[2] OpenAI's GPT-4 Vision explained: Transforming AI with Visual Capabilities | Encord

[3] 解说梅西球赛、英雄联盟，OpenAI GPT-4视觉API被开发者玩出新花样 | 机器之心

文章来自于微信公众号“`新硅NewGeek”(ID:gh_b2beba60958f)，作者 “刘白”

关键词: APP Agent , AI Agent , AI

AITNT资源拓展

根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考

AI代理

【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务，如比较价格、添加购物车、回复各种社交媒体等。
项目地址：https://github.com/browser-use/browser-use

智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的（AI Agents）项目。用户创建的智能体能够自动执行各种任务，从而让AI有步骤的去解决实际问题。
项目地址：https://github.com/Significant-Gravitas/AutoGPT

﻿【开源免费】MetaGPT是一个“软件开发公司”的智能体项目，只需要输入一句话的老板需求，MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色，包括产品经理 / 架构师 / 项目经理 / 工程师，MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址：https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md