图片来源:Unsplash
Agent 是未来人工智能公司所承诺的——也是迫切需要的,他们打赌你会为此付费。
人类已经自动化任务几个世纪了。现在,人工智能公司看到了利用我们对效率热爱的盈利途径,他们为他们的解决方案起了个名字:Agent 。
AI Agent 是自主程序,能够执行任务、做出决策,并在很少有人类输入的情况下与环境互动,它们是每个主要从事 AI 工作的公司的焦点。微软有“Copilots”,旨在帮助企业自动化客户服务和行政任务等事务。谷歌云首席执行官托马斯·库里安最近概述了六种不同 AI 生产力Agent 的提案,谷歌 DeepMind刚刚挖走了 OpenAI 在其 AI 视频产品上的联合负责人, Sora ,以开发用于训练 AI Agent 的模拟。Anthropic为其 AI 聊天机器人 Claude 发布了一项功能,允许任何人创建自己的“AI 助手”。OpenAI 将Agent 作为其实现 AGI 或人类水平人工智能的五级方法中的第二级。
显然,计算机充满了自主系统。许多人访问过带有弹出式客户服务机器人的网站,使用过像 Alexa Skills 这样的自动语音助手功能,或者编写过一个简单的 IFTTT 脚本。但人工智能公司认为“Agent ”——你最好不要称它们为机器人——是不同的。它们相信,Agent 不仅仅是遵循一套简单的、机械的指令,而是能够与环境互动,从反馈中学习,并在没有持续人类输入的情况下做出决策。它们可以动态管理任务,如进行购买、预订旅行或安排会议,适应不可预见的情况,并与可能包括人类和其他人工智能工具的系统进行互动。
人工智能公司希望 Agent 能够为强大而昂贵的人工智能模型提供盈利的途径。风险投资正涌入那些承诺彻底改变我们与技术互动方式的人工智能 Agent 初创公司。企业设想效率的飞跃,Agent 处理从客户服务到数据分析的所有事务。对于个人来说,人工智能公司正在推销一个新的生产力时代,在这个时代,日常任务被自动化,从而腾出时间用于创造性和战略性工作。真正信奉者的最终目标是创造出一个真正的合作伙伴,而不仅仅是一个工具的人工智能。
“你真正想要的,”OpenAI CEO Sam Altman 告诉麻省理工科技评论今年早些时候,“就是这个在一旁帮助你的东西。” Altman 将人工智能的杀手级应用描述为“一个超级能干的同事,知道我整个生活中的一切,所有的电子邮件,所有我曾经进行过的对话,但并不感觉像是一个延伸。” Altman 还补充说,它可以立即处理简单任务,对于更复杂的任务,它会尝试,但如果需要会带着问题返回。科技公司自 1970 年代以来一直在尝试自动化个人助理,现在,他们承诺他们终于接近实现这一目标。
在 OpenAI 的新闻发布会上,开发者体验负责人罗曼·于埃特展示了公司的新实时 API 和一个助手Agent 。于埃特给Agent 设定了预算和一些购买 400 个巧克力草莓的限制,并要求它通过电话向一个虚构的商店下订单。
该服务类似于 2018 年推出的谷歌预约机器人 Duplex。但那个机器人只能处理最简单的场景——结果发现四分之一的电话实际上是由人类拨打的。
你在 OpenAI 工作吗?我很想聊天。你可以通过 Signal 安全地联系我 @kylie.01 或通过电子邮件 kylie@theverge.com。
虽然那个订单是用英语下的,但于埃特告诉我他在东京进行了更复杂的演示:他让一个Agent 用日语为他预订酒店房间,Agent 会用日语进行对话,然后用英语给他回电话确认已完成。“当然,我听不懂日语部分——它只是处理这些,”胡埃说。
但于埃特的演示立即引发了在场记者的担忧。这个 AI 助手难道不能被用来进行垃圾电话吗?它为什么不自我标识为一个 AI 系统?(于埃特为官方开发者日更新了演示,一位与会者表示,让Agent 自我标识为“罗曼的 AI 助手。”)不安的情绪显而易见,这并不令人惊讶——即使没有 Agent ,AI 工具也已经被用于欺骗。
还有另一个可以说是更紧迫的问题:演示没有成功。Agent 缺乏足够的信息,并错误地记录了甜点口味,导致它在一列中自动填充了香草和草莓等口味,而不是说它没有该信息。Agent 经常在多步骤工作流程或意外场景中遇到问题。而且它们消耗的能量比传统的机器人或语音助手要多。它们对计算能力的需求很大,尤其是在推理或与多个系统交互时,这使得它们在大规模运行时成本高昂。
AI Agent 在潜力上提供了飞跃,但在日常任务中,它们尚未显著优于机器人、助手或脚本。OpenAI 和其他实验室旨在通过强化学习增强它们的推理能力,同时希望摩尔定律继续提供更便宜、更强大的计算能力。
所以,如果人工智能 Agent 还不是很有用,为什么这个想法如此受欢迎?简而言之:市场压力。这些公司掌握着强大但昂贵的技术,迫切希望找到可以也向用户收费的实际应用案例。承诺与现实之间的差距也创造了一个引人注目的炒作周期,推动了资金的流入,而恰好在 OpenAI筹集了 66 亿美元的时候,它开始炒作Agent 。
人工智能 Agent 初创公司在过去 12 个月中获得了 82 亿美元的投资资金。
大型科技公司一直在急于将各种“人工智能”整合到他们的产品中,但他们希望特别是人工智能助手能够成为解锁收入的关键。Huet 的人工智能电话演示超越了目前模型在规模上能做到的,但他告诉我,他预计像这样的功能将在明年更普遍地出现,因为 OpenAI 正在完善其“推理”o1 模型。
目前,这个概念似乎主要集中在企业软件堆栈中,而不是面向消费者的产品。Salesforce 提供客户关系管理(CRM)软件,在其年度 Dreamforce 大会前几周推出了一项“Agent ”功能,受到了广泛关注。该功能允许客户使用自然语言在几分钟内通过 Slack 构建一个客户服务聊天机器人,而不是花费大量时间进行编码。这些聊天机器人可以访问公司的 CRM 数据,并且比不基于大型语言模型的机器人更容易处理自然语言,这可能使它们在询问订单和退货等有限任务上表现更好。
AI Agent 初创公司(这个术语仍然可以说是模糊的)已经成为一个相当热门的投资领域。在过去的 12 个月里,他们获得了 82 亿美元的投资者资金,涉及 156 笔交易,同比增长 81.4%,根据 PitchBook 的数据。其中一个较为知名的项目是 Sierra,这是一个类似于 Salesforce 最新项目的客户服务Agent ,由前 Salesforce 联合首席执行官 Bret Taylor 推出。还有 Harvey,它为律师提供 AI Agent ,以及 TaxGPT,一个处理您税务的 AI Agent 。
尽管对 Agent 的热情高涨,但这些高风险的应用提出了一个明确的问题:它们真的可以被信任处理法律或税务这样严肃的事务吗?AI 幻觉,常常让 ChatGPT 的用户陷入困境,目前尚无解决办法。从根本上说,正如IBM 在 1979 年预见到的,“计算机永远无法被追究责任”——作为一个推论,“计算机绝不能做出管理决策。”与其说是自主决策者,不如将 AI 助手视为它们真正的本质:强大但不完美的低风险任务工具。这值得 AI 公司希望人们支付的高额费用吗?
目前,市场压力占主导地位,人工智能公司正在争相实现盈利。OpenAI 的新首席产品官凯文·韦尔在新闻发布会上表示:“我认为 2025 年将是Agent 系统最终进入主流的一年。如果我们做对了,这将带我们进入一个我们可以花更多时间在重要的人类事务上,而少花一些时间盯着手机的世界。”
文章来自于“Z Potentials”,作者“Z Potentials”。
【开源免费】n8n是一个可以自定义工作流的AI项目,它提供了200个工作节点来帮助用户实现工作流的编排。
项目地址:https://github.com/n8n-io/n8n
在线使用:https://n8n.io/(付费)
【开源免费】DB-GPT是一个AI原生数据应用开发框架,它提供开发多模型管理(SMMF)、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL(智能体工作流编排)等多种技术能力,让围绕数据库构建大模型应用更简单、更方便。
项目地址:https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file
【开源免费】VectorVein是一个不需要任何编程基础,任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤,并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。
项目地址:https://github.com/AndersonBY/vector-vein?tab=readme-ov-file
在线使用:https://vectorvein.ai/(付费)
【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。
项目地址:https://github.com/Significant-Gravitas/AutoGPT
【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md