2024 年即将结束,今年行业对 AI 的论调也基本尘埃落定.相比 2023 年的多个重磅发布,2024 年是模型能力的小年,但 AI Agent 却是实在的大年。OpenAI、AI 大模型独角兽 Anthropic、微软等科技公司纷纷转向开发 AI Agent,试图打破目前 LLM 的技术平台期。
图片来源:Anthropic
2024 年 10 月,Anthropic 已经推出了名为“Computer Use”的 AI Agent。Anthropic 开发了一个特殊的 API,允许开发者指导 Claude 完成各种计算机操作任务。这些任务包括查看屏幕内容、移动光标、点击按钮以及打字等。开发者可以通过这个 API 将书面指令转换为具体的计算机指令,从而实现自动化任务。
在 7 月 12 日,OpenAI 举行了一个全体员工会议,设计了一个从 1 到 5 的"AI 成长等级,更新定义了 AGI 的路线图。OpenAI 认为自己目前处于第 1 级,但接近达到第 2 级。从第3阶段起的 Agents、Innovators、Organizations,是具备高推理能力的模型基础上,依靠外部工程手段实现的智能体框架,已经脱离大模型能力范畴。
图片来源:OpenAI
据彭博社报道,OpenAI 即将推出一款代号为"Operator"的软件,可以直接对个人电脑进行操作。这款工具能够自动执行包括编写代码、预订旅行、自动电商购物等复杂任务,并计划作为研究预览版向开发者开放 API 接口。"Opertaor "预计将在 2025 年 1 月发布。
今年 10 月,在伦敦举行的"AI Tour"活动上,微软对外公布了一项重要计划:面向 Dynamics 365 业务应用平台,开发部署 10 款专业 AI 助手。这批智能代理将主要服务于企业的销售环节、会计业务以及客户服务等关键领域。按照发布时间表,这些 AI 助手将在年底开放公测,测试阶段预计延续到 2025 年初期。
图片来源:微软
同时期,国内大模型公司智谱发布 AI Agent 项目 AutoGLM 。AutoGLM 的任务执行需要通过无障碍服务权限获取用户当前屏幕上的信息,基于此进行理解分析并且做出任务规划,实现手机上常用操作的模拟执行。只需接收简单的文字/语音指令,它就可以模拟人类操作手机,在微信朋友圈评论点赞,在携程上预订酒店、在 12306 上购买火车票、在美团上点个外卖等等。11月的升级发布,将支持自主执行超过54步的长步骤操作,也可以跨 App 执行任务。还发布基于 PC 的自主 Agent GLM-PC ,可以自主完成会议替身、文档处理、网页搜索与总结、远程和定时操作等功能。
图片来源:智谱
1. 强自主性:
AI Agent 与传统软件自动化系统存在本质性差异。传统自动化系统通常要求用户通过规范化的方式——无论是基于 UI 的拖拽操作还是编程方式——来定义具体的操作逻辑,以此取代手动编码。这种方式需要经历完整的实施周期:从前期的业务流程分析,到中期的部署实施,再到后期因界面或句柄变更而进行的重新部署。
相比之下,AI Agent 展现出更高层次的智能自主性:它只需要一个明确的目标指令,就能够自主完成任务的分解与执行。在纯软件环境中,AI Agent 的能力范围已相当广泛,从网页浏览、办公软件操作,到购买决策分析,甚至能够执行支付操作等复杂任务,体现出显著的适应性和灵活性。这种范式的转变标志着自动化技术正在向更智能、更自主的方向演进。
2. 复杂工具调用:
Agent 需要有丰富的工具调用能力,从基础的代码函数、应用程序,到复杂的 AI 模型,乃至硬件设备的运动控制算法。在实际运行中,大语言模型(LLM)通过文本形式对这些工具进行智能选择,并根据具体场景确定所需的调用参数。当底层完成相关工具的执行逻辑封装后,LLM 便能够自主地进行工具调用和任务执行,实现了一种高度灵活且可扩展的自动化范式。这种架构设计不仅提升了系统的适应性,也为 AI Agent 的能力边界提供了持续扩展的可能。
3. 视觉能力:
视觉能力意味着,AI 解除了获取用户界面和物理世界信息的限制,模型将可以与人类使用相同类型 UI,而不是通过 API 进行读取。视觉能力也将帮助 AI 获得更多的上下文信息,从而深入用户场景。
视觉的信息丰富度远远超过文字。因此,视觉能力也将决定未来大模型实际落地的价值有多大。我们完成任务不仅需要解决“它是什么”,还需要解决“它在哪里”。智谱发布的 GLM-PC 正是将其通用的视觉-操作模型 CogAgent 应用到了计算机上,CogAgent 模拟人类的视觉感知来从环境中获取信息输入,以进行进一步的推理和决策。
已经离开 OpenAI Andrej Karpathy,曾在在 23 年发表了关于 LLM 操作系统(LLM OS)的愿景,他的想法是语言模型在某种程度上是一种新型计算机,一种新型操作系统。大语言模型置于计算系统的核心位置,类似于传统操作系统中 CPU 的角色。通过函数调用机制连接并控制外围设备(如视频、音频)、传统软件工具(如计算器、Python 解释器)、存储系统以及网络资源(浏览器、其他 LLM)
图片来源:Andrej Karpathy
从 Karpathy 的技术前瞻带来一些启发。计算范式转变从指令式到意图式:传统计算机需要精确的指令序列,而 LLM 可以理解模糊的人类意图并将其转换为具体操作。抽象层次的提升:就像 CPU 让程序员不必关心底层电路细节,LLM 让用户不必关心具体的程序实现细节。Agent 完成人机交互:Agent 替代人完成作步骤,普通用户也能完成复杂的计算任务
桌面端应用的繁荣受益于 Windows 和 Mac 等操作系统的成熟,移动端应用的繁荣受益于 Android 和 IOS 的繁荣。未来 AI 应用的繁荣,也将依赖于 AI 操作系统的繁荣。
前 Android 核心成员 Hugo Barra 认为开发者目前没有标准的工具和系统来构建 AI Agent ,并希望通过创建一个统一的平台来填补这一空白,使其成为 AI 世界的操作系统。其创立的 /dev/agents 首轮估值5亿美金,正致力于基于云的操作系统将跨设备工作,并利用生成性人工智能提供个性化用户界面。
大模型公司与手机厂、PC 厂、芯片厂正在进行深度合作,软硬件的结合 LLM-OS 也将成为 AI 落地的深水区。Agent 不仅在操作系统 OS 和应用 app 上实现用户体验变革,还能将其推广到各类智能设备上,实现基于大模型的互联互通。这种全面的操控和协调能力,正是未来 LLM 驱动的操作系统的核心特征。
智谱新的产品发布涵盖了从 Phone Use、Computer Use、Car Use 到 All Device Use, 全是基于 GLM 大模型链接智能与终端硬件。AutoGLM 只是智谱在端侧的初步落地,未来还将拓展更多场景和应用落地。智谱的客户及合作伙伴荣耀、华硕、小鹏、高通、英特尔等硬件厂商都看到了 AI Agent 的巨大前景,分别从不同的场景出发,展望智能终端的实践。
可以说大模型通用操作系统 LLM-OS 的前夜已经到来。
参考资料:
TechCrunch, https://techcrunch.com/2024/11/28/ai-agent-startup-dev-agents-has-raised-a-massive-56m-seed-round-at-a-500m-valuation/
文章来自于“Z Potentials”,作者“Z Potentials”。
【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。
项目地址:https://github.com/Significant-Gravitas/AutoGPT
【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md