如果您正在探寻人工智能未来的辉煌篇章,那么答案就在这里。
OpenAI的领导者Sam Altman和Greg Brockman最近表示:“现在正是我们展望未来的最佳时机。”他们预见了一个新时代,用户将不再只是与单一的模型对话,而是与由众多多模态模型和工具构成的系统互动,这些系统能够代表用户执行操作。
这正是“代理agents”概念的生动写照,它在过去一年中已经成为人工智能领域的热门话题。
代理是一种能够自主追求开放性、宽泛定义目标的AI系统。它们可能会制定长远计划、利用“工具”(比如互联网浏览器)以及根据新信息动态尝试新方法。
让我们通过一个具体的例子来阐释这个概念。想象一下,有一个AI代理系统,它能够在您即将到来的旅行中自动为您预订机票,而无需您的任何干预。为了高效完成这项任务,代理需要:
1. 检查您的电子邮件或日历,了解您的旅行时间和目的地;
2. 记住您的旅行偏好,比如您喜欢靠窗还是靠过道的座位,是偏好夜间航班还是白天航班;
3. 搜索并为您挑选最合适的航班;
4. 获取您的个人信息和支付方式;
5. 利用航空公司的预订系统(无论是通过网页浏览器还是API)为您购买机票。
这个例子展示了代理如何通过自主操作,使人工智能更加智能和实用。
人工智能代理正成为当下热议的焦点的同时,也使得我们很难在众多声音中分辨出哪些是真正具有影响力的信号。然而,至关重要的是,我们不能因此而忽略了更大的未来愿景:代理技术将引领人工智能的下一次重大飞跃。
吴恩达曾这样预言:“人工智能代理的工作流程将在本年度推动人工智能的巨大进步——甚至可能超越下一代基础模型。这是一个不容忽视的趋势,我强烈建议所有人工智能领域的工作者给予它足够的关注。”
同样,Andrej Karpathy也明确指出:“很明显,通用人工智能(AGI)将采取某种人工智能代理的形式。”
本文将首先 (1) 深入探讨人工智能代理的技术支撑,以及 (2) 介绍一些当今最具潜力的年轻人工智能代理初创公司。
如果您已经被当今的人工智能系统所震撼,那么请做好准备,迎接即将到来的变革。
人工智能代理的概念并非源自某一篇开创性的论文或某个特定的研究团队,而是随着时间的积累,由一系列相互关联的技术进步共同塑造而成。这些进步相互促进,使得人工智能系统能够展现出越来越复杂的自主行为。
这些进步的核心目标是围绕大型语言模型(LLMs)构建结构和流程,以释放人工智能自主行动的潜力。
在深入讨论之前,让我们先来澄清一下术语。在人工智能领域,“agentic”一词常作为“agent”的形容词形式使用。我们赞同吴恩达对此的观点:使用“agentic”一词有助于在讨论这项快速发展的技术时,提供更多的细微差别和灵活性。与其将某个人工智能系统严格分类为代理或非代理,不如将人工智能系统视为在不同程度上具有代理特征,这有助于避免在语义上对某个系统是否“算作”代理的无谓争论。
为智能体奠定基础的一项重要工作是2022年Google Brain的一篇论文,该论文引入了“思维链提示chain-of-thought prompting”的概念。这项研究表明,LLMs能够将复杂问题分解为更小的中间步骤,然后逐步解决每个步骤,最终解决整个问题。
思维链提示最初并非为开发人工智能代理而设计,论文中也没有考虑人工智能模型与外部世界的交互。然而,这种技术显著增强了LLMs的多步推理和规划能力,这正是代理行为的核心。
2022年Google Brain的ReAct项目可能是第一个明确旨在结合LLMs的推理和行动能力的研究工作。尽管ReAct在概念上取得了重要进展,但其功能仍然有限。
一个有效的代理必须能够利用外部应用程序,如浏览互联网、发送电子邮件、在线购物、呼叫Uber、构建网站、更新数据库、提交拉取请求等。在人工智能代理领域,这种能力通常被称为“tool use”。
2023年Meta研究人员发布的Toolformer是关于代理工具使用的一项里程碑式的研究。Toolformer团队对大型语言模型进行了微调,使其学会如何以及何时进行API调用,以便利用外部应用程序,如计算器、日历和语言翻译程序。
包括Gorilla和Chain-of-Abstraction在内的最新研究,都是在Toolformer基于API的方法基础上进行的,以实现更复杂和灵活的工具使用。
Gorilla方法允许AI代理从成千上万甚至数百万种不同的API中进行选择,而不是仅使用少数几个手动选择的工具。与此同时,抽象链Chain-of-Abstraction使代理能够创建多步骤计划来组合使用不同的工具,包括考虑一个工具的输出如何影响另一个工具的输入。这种关于工具使用的宏观规划能够激发更强大、更通用的代理行为。
代理系统的最后一个组成部分是最近出现的多代理架构概念,它显示出巨大的潜力。
多代理架构背后的基本理念是,就像人类一样,单个人工智能代理单独行动可能很有用,但多个人工智能代理协同工作可能会更加强大。
一个流行的多代理系统开源示例是ChatDev,由一群AI代理协同工作来构建软件程序。ChatDev系统中的代理扮演着首席执行官、首席技术官、软件程序员、软件审查员和测试工程师等角色。每个代理都专注于其特定的职责(例如,首席技术官负责架构整个系统,程序员将其转化为代码,审查员检查代码中的错误),同时相互协作,以实现构建软件应用程序的共同目标。
A visual depiction of the ChatDev agent team at work.
"ChatDev: Communicative Agents for Software Development" (arXiv:2307.07924)
虽然直观上看起来,由于所有代理都由同一个智能源(大型语言模型,LLM)驱动,似乎没有必要构建多代理系统并进行角色划分。但实际上,多代理系统在处理更复杂的任务时,往往比单代理系统表现得更为出色。这背后的原因是什么呢?
关键在于专业化和模块化的优势。当一个代理被专门用来处理一个特定的子任务时,它在该任务上的表现会比一个单一的庞大代理试图完成整个项目要好得多。对于人类开发者而言,多代理框架在概念上也极具价值,因为它能够将复杂的系统分解为可以独立进行改进和评估的模块。
首个被广泛采用的多代理协调开源框架是AutoGen。随后,包括MetaGPT和Langchain的LangGraph在内的其他框架也相继涌现。
多代理系统目前仍处于起步阶段,并且发展迅速,最佳实践仍在不断演变之中。如何为协同工作的代理群体设计最佳的层级关系?代理之间如何最有效地共享信息并相互学习?在面对变化时,应该如何以及何时即时生成新的代理?随着系统中代理数量的激增,如何最有效地管理计算需求?这些问题的答案正在由人工智能领域的建设者们实时探索和解答。
明日的顶尖人工智能应用将以其代理性质为核心,这将成为未来数年人工智能发展的一个标志性主题。这引发了一个问题:在当前的环境下,初创公司在这一领域有哪些最具吸引力的机遇?
在早期技术领域,一个普遍的思维模式是将初创公司划分为基础设施公司和应用公司。简而言之,基础设施公司打造基础工具和平台,然后这些平台为应用公司开发面向终端客户的产品提供支持。
普遍的看法是,在任何新技术浪潮中,基础设施层面的机会通常会先于应用层面的机会出现。毕竟,从直觉上讲,为了支持强大、成熟、可扩展应用的开发,首先需要建立正确的基础设施。风险投资家们长期以来一直青睐“镐和铲子”理论。(正如马克·吐温所言:“当每个人都在寻找黄金时,正是从事镐和铲子生意的好时机。”)
目前代理技术的基础设施层面活跃着众多初创公司,它们开发了针对代理的编排、内存管理、身份验证和托管等工具。但尽管代理应用的数量在近几个月内有了显著增长,这些工具的实际使用率却依然低迷。
目前看来,在基础模型提供商与代理应用之间,能够孕育出大规模业务的空间尚不明朗。
在技术发展的初期阶段,产品架构尚未标准化和实现互操作性,目前大多数基于代理的产品都是依靠与应用紧密结合的内部工具来驱动的。随着底层基础模型的不断演进,它们将能够承担越来越多的“核心任务”,这些任务原本需要代理基础设施来解决。(如果GPT-5在架构和功能上天生就具备代理特性,那也不足为奇。)
基于这些原因,我们认为,对于代理初创公司而言,最大且最具吸引力的市场机遇在于应用层。这应是当前的行动焦点所在。
在我们深入挖掘当前代理初创公司所面临的一些具体且充满潜力的应用领域之前,先来总体观察一下应用层的代理初创公司,并分析它们取得成功的关键要素。
首先,目前还无法实现真正全能且可靠的通用水平代理。这项技术还未完全成熟。要打造一个能够满足客户需求并在实际生产环境中部署的代理产品,关键在于为其定制特定的终端市场或行业垂直解决方案,从而有效限制其操作的自由度。
那些特别适合“代理化agentized”的终端市场通常涉及结构化和可重复的活动。
软件工程、销售开发代表(SDR)以及监管合规性等领域都是代理技术应用的典型例子。尽管这些领域涉及的活动内容各异,但它们都有一个共同点:包含可识别的、有规律的工作流程,这些流程适合被代理系统学习和复审。
使某个应用领域特别适合部署人工智能代理的第二个特点是“自然人在循环中natural human in the loop”的存在。
尽管代理技术尚未达到完美可靠,偶尔会遇到极端情况,但适当的人工监督可以帮助这些系统更加稳定可靠。然而,对于专注于代理的初创公司来说,雇佣人员手动检查系统的输出既不现实也不经济。
幸运的是,某些工作流程中已经存在可以轻松审查和批准代理行为的人类角色,这为代理技术的应用提供了便利。
客户支持是展示人工智能代理应用的绝佳例子。在每一次客户支持的互动中,都有一个关键角色能够审查并批准重要决策——那就是客户自己。而且,根据系统的设计,人类客户支持经理可以充当人工智能代理中的“自然人在循环中”的角色。这些人员的参与可以帮助代理进行必要的调整,确保实现有效的成果。
谈到人工智能代理所代表的巨大市场机遇,还有一个重要的点值得关注。
企业在员工身上的投入远远超过了软件:通常来说,公司大约70%的预算是用于员工薪酬,而投入到软件产品的预算却不到10%。
代理应用程序的革命性在于,它们不仅仅是另一种提升员工效率的软件工具;它们本身就是劳动力。对于某些职能,它们能够完成与员工相同的工作。这意味着它们能够以更接近员工薪酬的定价模式来进行定价,而不是作为软件工具。这为技术初创公司打开了前所未有的市场机会,意味着巨大的潜在市场。
实际上,一些目前领先的代理初创公司已经开始成功地利用客户的招聘预算,而不仅仅是IT预算。
现在,让我们来探讨以下四个具体的应用领域,这些领域中,代理人工智能初创公司正准备创造巨大的价值。
客户支持对于任何企业来说都是一项不起眼但必不可少的功能。这也是一个巨大的市场:2023年,联络中心全球市场规模估计达到了3320亿美元,并预计到2030年将增长至5000亿美元以上。
在很多方面,客户支持是人工智能代理的典型应用市场。它是一种标准化、程序化的活动,大多数客户请求(比如重置密码)都是重复出现的。如前所述,客户支持中包含一个“自然人在循环中natural human in the loop”——客户本人和/或客户支持经理——他们可以在任何重大操作最终确定之前提供监督和批准。
因此,客户支持是代理已经投入生产并为企业创造实际价值的领域之一。
金融科技独角兽公司Klarna就是例证。今年早些时候,Klarna宣布部署了由OpenAI驱动的人工智能助手,以自动化其客户服务互动。该公司表示,这款人工智能助手已经能够处理三分之二的客户服务请求(仅在第一个月就处理了230万次对话),自动化了700名全职员工的工作,并为公司在今年带来了约4000万美元的额外利润。
众多新兴的初创公司正致力于构建人工智能客户支持代理。
其中最引人注目且资金雄厚的是Sierra,该公司至今已从知名风险投资公司Benchmark和Sequoia筹集了超过1亿美元的资金。Sierra有何独特之处?它的创始团队非常出色。Sierra的首席执行官兼联合创始人Bret Taylor——前Salesforce联合首席执行官、前Facebook首席技术官、前Twitter董事会主席、现任OpenAI董事会主席——是全球最受尊敬的技术高管之一。
Sierra的AI客户支持代理能够实时响应客户咨询;通过与内部系统集成并调用适当的API来获取所有必要的客户信息;并在需要时采取行动以满足客户请求(比如更新客户地址或取消国际数据计划)。
Sierra计划根据完成的工作量为其代理产品定价,而不是采用更传统的软件订阅模式。如上所述,这种按工作成果收费而不是按软件收费的模式,代表了代理带来的重要的商业模式转变。
“我们认为基于结果的定价是软件行业的未来。有了人工智能,我们终于拥有了不仅提高生产力,而且真正完成工作的技术。它实际上正在完成工作,”泰勒表示。
另外两家在客户支持领域构建代理解决方案的有前途的初创公司是Decagon和Maven AGI,它们最近都宣布了A轮融资。
Maven声称其代理能够自主处理93%的客户咨询,同时将解决时间缩短60%。
与此同时,Decagon拥有一系列令人印象深刻的早期客户,包括Eventbrite、Rippling和Substack。
“技术差异化在这一类别中是一个有趣的问题,”Decagon的首席执行官兼联合创始人Jesse Zhang说。“每个人都在使用相同的底层AI模型,无论是OpenAI的模型还是像Llama这样的开源模型。因此,差异化在于你围绕这些模型构建的基础设施和编排。当前,企业在开发人工智能代理时,基本上是在打造一个由多个操作点构成的网络,每个操作点可能是一次API调用或一次大型语言模型(LLM)的交互等。我们对于如何优化这个网络架构,有着自己独特的见解和方法。”
企业每年投入巨额资金以确保其决策和业务活动遵循所有适用的法规。
监管合规性涵盖了公司运营的方方面面:包括对外沟通的内容、内部政策的制定、业务交易的执行、数据隐私措施的实施、报告和披露的进行,以及税务责任的处理等。
合规流程尤其适合交由人工智能代理来执行,原因有几点:
首先,合规工作高度结构化、依赖于模式识别且具有重复性。
此外,合规团队通常由一线分析师和负责监督并最终决定合规行动的管理人员组成。这为引入人工智能代理提供了机会,同时保持“自然人在循环中”的机制:代理可以替代一线分析师的角色,而高层管理人员则在任何重大决策最终确定之前持续进行人工审核。
纽约的初创公司Norm AI正致力于构建用于监管合规的人工智能代理,并在Coatue领投的两轮连续融资中筹集了近4000万美元。
Norm的代理系统能够持续审查公司的运营情况,识别出不合规的活动,并提出补救措施以确保合规。
Norm的代理目前能够理解和支持的法律和法规包括《清洁空气法案》(213,796字)、《平价医疗法案》(371,810字)和《美国残疾人法案》(22,481字)。鉴于这些法律的长度和复杂性,其自动化分析和应用的能力显得尤为引人注目。
另一家在这一领域具有潜力的早期公司是Greenlite AI。与Norm AI旨在构建全方位合规活动的代理不同,Greenlite AI最初专注于反洗钱和了解你的客户(AML/KYC)操作。例如,Greenlite的代理能够通过审查文件和搜索互联网来自动执行对公司的例行调查。
Greenlite的首席执行官兼联合创始人Will Lawrence表示:“领先的银行和金融科技公司已经信任我们的代理,在生产环境中自动化AML工作流程。” “当前现状通常是依赖海外合同工来完成这些任务。因此,采用Greenlite意味着用我们的人工智能取代位于其他国家的外包工人。我们的人工智能在成本、速度、准确性和透明度方面带来了巨大的优势。”
软件开发是代理技术应用中最大和最引人注目的领域之一。如今,这一应用引起了巨大的关注(并且理由充分),像 Cognition AI 这样的公司正引领潮流,该公司在成立不到六个月后估值最近就达到了20亿美元。关于在软件工程中应用代理的机会,已经有很多讨论。
一个主题相似但关注度较低的代理应用机会是数据科学。
与软件工程类似,数据科学涉及的活动复杂、高薪,但同时也是结构化和可重复的,这些正是代理系统擅长处理的。
在当今企业中,数据科学(或称为“预测性机器学习”)的应用无处不在:比如个性化服务、需求预测、推荐系统、动态定价和欺诈检测。
一家在数据科学领域构建代理的令人兴奋的初创公司是 Delphina。Delphina 由 Uber 的两位资深数据科学领导者创立,其代理能够自动化整个数据科学生命周期:包括界定问题、选择和转换数据、执行特征工程、训练模型以及在部署后监控和改进模型。
正如 Delphina 的联合创始人 Jeremy Hermann 和 Duncan Gilchrist 所描述的:“可以把 Delphina 的代理看作是初级数据科学家。他们负责处理数据科学工作流程中的耗时和例行任务,就像一个初级数据科学家所做的那样,让人类数据科学家能够将更多时间用于宏观的思考和创新。”
让我们以人工智能代理所有用例中最明显、最明确的一个应用作为结束:个人助理。
人工智能个人助理的概念早在几十年前的科幻小说和电影中就已出现(比如《钢铁侠》中的贾维斯或《她》中的萨曼莎)。或许正是因为它太过显而易见——甚至显得有些陈腐——相比于本文讨论的其他应用类别,这一领域实际上并没有吸引到同样多的关注和行动,至少在今天的代理技术创业者和投资者中是如此。
历史上,有多波初创公司的浪潮试图打造自动化执行行政助理或私人助理工作的软件解决方案,但无一例外都遭遇了挫败。原因在于,这些产品在面对日常生活中层出不穷的多变场景、通信方式和需求时,显得力不从心,缺乏足够的适应性和鲁棒性。
大型语言模型以及围绕它们构建的代理系统的出现可能最终使称职的人工智能个人助理的愿景变得触手可及。
与客户支持或合规性等应用相比,构建充当通用个人助理的人工智能代理是一项更加不受约束和开放的任务。因此,对于那些致力于实现这一愿景的初创公司而言,面临的一个主要挑战在于如何找到恰当的方法,为代理的运行构建足够的结构和界定清晰的边界,以确保其稳定而可靠地执行功能。同时,也要避免过度约束,以免限制了代理的灵活性,导致用户获得的价值大打折扣。
Mindy 是一家很有前途的初创公司,致力于打造由代理驱动的个人助理。
Mindy 将自己描述为“每个人的私人参谋长”。例如,用户可以要求 Mindy 安排午餐并邀请与会者;在线购买指定商品;或对某个行业或公司进行市场调查。
Mindy 的联合创始人来自“PayPal 黑手党”,这有助于解释为什么来自红杉资本的 Roelof Botha 和来自 Founders Fund 的 Peter Thiel(PayPal 黑手党的两位主要成员)在今年早些时候领导了该公司 600 万美元的种子轮融资。
Mindy 代理被嵌入在电子邮件中,用户可以像与人类助理或同事交流一样与它通信。
Mindy 团队阐述了这一核心设计决策的考量:"电子邮件作为最早的互联网技术之一,至今在商业沟通中占据着无可匹敌的地位。用户可以通过抄送Mindy来安排会议,或者将文档转发给Mindy以获取总结,这种方式能够在不打破用户现有工作流程的前提下,发挥生成式人工智能的优势,且用户无需学习如何进行‘prompt’。全世界有超过40亿人使用电子邮件账户。"
电子邮件的异步本质为Mindy提供了优势,使其能在回复用户之前进行深入的研究和分析,这与ChatGPT等聊天机器人需要即时回应的方式不同。此外,这种模式也便于在Mindy给出答案之前,轻松地加入一定程度的人工审核过程。
Mindy 代理现已可供任何人免费试用。
该类别中另一个有趣的初创公司是 Ario。
Ario 是专门为C端消费者而不是企业用户构建的。Ario 可以帮助用户完成诸如管理家庭日历、协调您的亚马逊退货以及制定个性化假期行程等任务。
为了深入理解用户本人,Ario 会汇集用户在各种常用消费应用中的数据,包括 Instagram、Google 日历、DoorDash 以及 Fitbit 等(公司承诺将严格保护数据隐私和安全)。利用这些信息,Ario 能够主动协助用户管理日常生活,比如,它会提醒用户女儿的生日快到了,并根据她目前的兴趣提供个性化的派对策划建议。
如果像 Mindy 和 Ario 这样的个人助理代理能够实际运作——并不要求它们做到完美无缺,只要它们足够实用——那么它们无疑将成为市场上极为成功的产品。
核心问题在于,通过精心的工程设计,我们是否能利用当前的大型语言模型,实现在如此广泛的主题和任务集合上的有效代理行为。我们不久将得到答案。
这四个应用场景凸显了当今代理初创公司的光明前景,但它们仅仅是众多可能性中的一小部分示例。从软件开发到收益管理,从医疗保健的患者监护到销售开发代表,再到产品分析和数据工程,许多其他领域也已经准备好迎接由人工智能代理带来的变革。
这些领域正是代理技术目前能够大展身手的舞台。随着底层AI技术的不断突破和飞速发展,人工智能代理能够接手的人类活动范围将迅速扩大。我们不禁要问,代理系统完全接管律师、调查记者、政策制定者、风险投资家或人工智能研究员的工作,这一天还会远吗?
代理技术不只是人工智能领域里又一个被热炒的概念,它是人工智能系统未来发展的必然趋势。不知不觉中,您可能已经每天都在与各种代理进行互动。
展望未来,人工智能代理将带来更加奇妙和不可预知的变革。
文章来自于微信公众号“非凡产研”,作者“AI商业智库”
【开源免费】n8n是一个可以自定义工作流的AI项目,它提供了200个工作节点来帮助用户实现工作流的编排。
项目地址:https://github.com/n8n-io/n8n
在线使用:https://n8n.io/(付费)
【开源免费】DB-GPT是一个AI原生数据应用开发框架,它提供开发多模型管理(SMMF)、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL(智能体工作流编排)等多种技术能力,让围绕数据库构建大模型应用更简单、更方便。
项目地址:https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file
【开源免费】VectorVein是一个不需要任何编程基础,任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤,并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。
项目地址:https://github.com/AndersonBY/vector-vein?tab=readme-ov-file
在线使用:https://vectorvein.ai/(付费)
【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。
项目地址:https://github.com/Significant-Gravitas/AutoGPT
【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md
【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台,可以对大语言模型(LLM)和多模态图文模型(VLM)进行预训练和轻量级微调。XTuner 支持多种微调算法,如 QLoRA、LoRA 和全量参数微调。
项目地址:https://github.com/InternLM/xtuner
【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。
项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md
在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0