通过从信息转向行动——想象一下能够完成复杂工作流程的虚拟同事——这项技术预示着生产力和创新的新浪潮。
在过去几年中,世界对生成式人工智能(Generative AI)的能力和潜力赞叹不已。基础模型,例如大语言模型(LLMs),能够执行令人瞩目的任务,如提取信息、跨文本、音频、图像和视频等多种媒介生成内容。然而,生成式AI的下一阶段发展可能会带来更为深远的影响。
我们正逐步从基于知识的、由生成式AI驱动的工具——比如能够回答问题和生成内容的聊天机器人——向使用基础模型在数字世界中执行复杂、多步骤工作流程的生成式AI“agents”转变。简而言之,这项技术正从只能单纯进行思考迈向可以执行实际行动。
一般来说,“agentic”系统指的是能够在动态环境中自主交互的数字系统。尽管这类软件系统的初步形态已存在一段时间,但生成式人工智能(AI)的自然语言处理技术为它们带来了新的发展机遇。这使得这些系统不仅能够规划和执行行动,还能利用在线工具完成任务,与其他代理系统及人类进行协作,并持续学习以优化自己的性能。
未来,生成式AI智能代理甚至可能成为熟练的虚拟合作伙伴,与人类无缝且自然地协同工作。例如,一个虚拟助手能够规划并预订一个复杂的个性化旅行行程,处理多个旅行平台的后勤事务。工程师只需用日常语言描述一个新软件特性,程序员智能代理便能编写代码、进行测试、迭代优化并部署这一工具。
传统上,代理系统的实现一直充满挑战,通常需要繁琐的基于规则的编程或者对机器学习模型进行高度专业化的训练。Gen AI 改变了这一切。当代理系统基于基础模型构建时(这些基础模型经过了极大规模且多样化的非结构化数据集训练,而不是依赖预定义规则),它们就有潜力像大型语言模型(LLMs)那样适应不同的场景,即使这些场景并非它们明确训练过的内容。
此外,通过使用自然语言而非编程代码,人类用户可以指导一个由生成式AI驱动的代理系统来完成复杂的工作流程。然后,多代理系统可以解释和组织这个工作流程为可执行的任务,将工作分配给专门的代理,利用数字工具生态系统执行这些细化的任务,并与其他代理和人类协作,以迭代方式提高其行动的质量。
在本文中,我们将探讨生成式AI代理所带来的机遇。尽管这项技术仍处于初期阶段,需要进一步的技术发展才能准备就绪并投入商业使用,但它已经迅速吸引了业界的关注。仅在过去一年里,谷歌、微软、OpenAI等科技巨头就已投资于支持代理功能的软件库和框架。
由大型语言模型驱动的应用,例如微软的Copilot、亚马逊的Q以及谷歌推出的Project Astra,正在从纯粹的知识提供者转变为更加注重行动的助手。
同时,像Adept、crewAI和Imbue这样的公司和研究实验室也在积极开发基于代理的模型和多代理系统。鉴于生成式AI的快速发展,agents有望成为像今天的聊天机器人一样普遍的存在。
代理系统所能够释放的价值,在于它们有潜力自动化那些复杂且具有高度可变输入和输出的长尾应用——这些应用历来难以以成本效益或时间效率的方式得到解决。
以商务旅行为例,这样看似简单的事务实际上可能涉及多种不同的行程安排,包括不同航空公司和航班的选择,以及酒店积分奖励计划、餐厅预订和业余活动安排等,所有这些都需要在多个不同的在线平台上进行操作。尽管人们已经尝试对这一流程进行部分自动化,但大部分工作仍然需要手动完成,这主要是因为潜在的输入和输出变化极大,使得自动化过程变得过于复杂、成本过高或耗时。
生成式人工智能(Gen AI)驱动的代理系统可以通过以下三种关键方式简化复杂和开放式用例的自动化:
1. 管理复杂性:许多商业用例和流程遵循线性工作流,有明确的起点和一系列步骤,最终导致特定的解决方案或结果。这种相对简单性使得它们易于在基于规则的系统中编码和自动化。然而,基于规则的系统往往在遇到设计者未预见的情况时会失效。
相比之下,生成式人工智能代理系统基于基础模型,能够实时适应并处理给定用例的各种不太可能发生的情况,完成流程所需的专门任务。
2. 自然语言指导:目前,自动化一个流程需要将其分解为一系列可以编码的规则和步骤,这通常需要转换为计算机代码并集成到软件系统中,这是一个既昂贵又耗时的过程,需要大量的技术专长。
代理系统使用自然语言作为指令形式,使得即使是复杂的工作流程也可以更快、更轻松地进行编码。更重要的是,这个过程可以由非技术人员而不是软件工程师来完成,这使得整合专业知识变得更加容易,扩大了生成式人工智能和人工智能工具的可及性,并简化了技术和非技术团队之间的协作。
3. 与现有软件工具和平台协同工作:代理系统不仅可以分析和生成知识,还可以使用工具并在更广泛的数字生态系统中进行通信。例如,代理可以被指导与软件应用程序(如绘图和制表工具)一起工作,搜索网络以获取信息,收集并整理用户反馈,甚至利用额外的基础模型。
使用数字工具(Digital-tool)是代理(agents )系统的核心特征之一(它们以此在现实世界中施展作用),同时也是其生成式人工智能能力得以独特展现的重要途径。
基础模型能够学习如何与各种工具进行交互,这包括利用自然语言或其他界面方式。若缺乏基础模型的支持,实现这些功能将需要人们进行大量的手动操作来整合系统(比如,运用数据抽取、转换和加载工具),或者需要人们不厌其烦地从不同的软件系统中搜集和整理输出结果。
代理系统能够应对跨行业的高复杂性业务场景和职能,特别是在那些包含耗时任务或需要进行多种专业定性与定量分析的工作流程中表现突出。
它们通过递归(recursively)方式细化复杂流程,并依据专业指令和数据源执行子任务,以达成既定目标。这一过程大致遵循以下四个步骤:
1. 用户提供指令:用户通过自然语言提示与人工智能系统交互,就像向一位可靠的同事下达指令一样。系统识别出预期的应用场景,并在必要时请求用户提供额外的详细信息。
2. 代理系统规划、分配和执行工作:代理系统将用户指令转化为工作流程,将其细化为任务和子任务,由管理子代理分配给其他专门的子代理。这些子代理配备了必要的领域知识和工具,利用以往的“经验”和编码化的领域专业知识,相互协调并利用组织数据和系统来执行这些任务。
3. 代理系统迭代优化输出:在整个过程中,代理可能会请求用户额外的输入,以确保输出的准确性和相关性。这个过程可能以代理向用户提供最终输出,并根据用户反馈进行迭代优化而告终。
4. 代理执行实际操作:代理在现实世界中执行必要的操作,以彻底完成用户请求的任务。
这些系统对企业来说意味着什么?通过以下三个潜在应用我们可以预见不久的将来可能出现的情况。
应用 1:贷款承销
金融机构在决定是否向借款人发放信贷或贷款时,需要准备信用风险备忘录来评估风险。这个过程包括收集、分析和审查与借款人、贷款类型及其他相关因素的各种信息。由于涉及众多信用风险场景和所需分析,这通常是既耗时又需要高度协作的任务,需要关系经理与借款人、相关方和信贷分析师合作,进行专业分析,并将结果提交给信贷经理进行审查和提供专业意见。
潜在的基于代理(agent-based )的解决方案:一个由多个承担不同专业任务的代理组成的系统,可能被设计来处理广泛的信用风险场景。用户可以通过自然语言输入,启动流程并提供具体规则、标准和条件的高级任务计划。随后,这些代理将工作细化为可执行的子任务。
例如,一个代理可能扮演关系经理的角色,负责与借款人和金融机构之间的沟通。另一个执行代理可以汇编必要的文件,并将其发送给财务分析代理,后者会检查现金流量表中的债务并计算相关的财务比率,然后由评审代理进行复核,以识别差异和错误并提供反馈。这一分解、分析、优化和审查的过程将不断重复,直至最终完成信用备忘录。
应用 2:代码文档和现代化
大型企业的老旧软件应用和系统常常带来安全风险,并可能拖慢业务创新的步伐。但现代化这些系统可能非常复杂、成本高昂且耗时,需要工程师审查并理解数百万行的旧代码库和业务逻辑的手动文档,然后将这些逻辑转换为更新的代码库,并与其他系统集成。
潜在的基于代理的解决方案:人工智能代理有潜力大幅简化这一过程。可以部署一个专门代理作为遗留软件专家,分析旧代码并记录和翻译各种代码段。同时,一个质量保证代理可以批评该文档并生成测试应用,帮助人工智能系统迭代地完善其输出并确保其准确性和遵守组织标准。
同时,此过程的可重复性可以产生飞轮效应,其中代理框架的组件可重复用于组织内其他软件迁移,显著提高生产力并降低软件开发的总体成本。
应用3:创建在线营销活动
设计、启动和执行在线营销活动往往需要运用多种不同的软件工具、应用程序和平台。这一工作流程极为复杂,它要求营销团队将业务目标与市场趋势转化为具有创意的营销策略,并根据不同细分市场和地区的需要,制作和定制个性化的文案与视觉内容,同时还需在多个平台上对用户群体进行测试。为了完成这些任务,营销团队不得不频繁地在各种软件工具间切换和传输数据,这个过程不仅繁琐,而且耗时费力。
潜在的基于代理的解决方案:代理技术能够无缝地整合数字营销生态系统。例如,营销人员可以通过自然语言详细说明目标受众、初步构思、预期的营销渠道及其他关键参数。在营销专家的配合下,代理系统将助力开发、测试并不断优化各种营销策略。数字营销策略代理能够借助在线调研、客户关系管理(CRM)系统的分析结果以及其它市场研究工具,搜集关键见解,并运用多模态基础模型来制定策略。随后,内容营销、文案创作和设计代理可以制作定制化的内容,再由人工审核员进行审查,确保与品牌定位相符。这些代理将协同工作,迭代完善输出内容,采取策略以最大化营销活动的影响力,同时将品牌风险降至最低。
尽管代理技术目前还处于起步阶段,但对这些工具的持续投入有望在未来几年推动该技术取得显著进展,并实现广泛应用。因此,对于企业决策者而言,现在正是深入理解代理技术、探索如何通过代理系统和功能加速其核心业务流程或关键业务需求的绝佳时机。
这种前瞻性的洞察力对于未来路线图的规划和场景构建至关重要,有助于确保领导者们始终站在创新的前沿。
一旦确定了潜在的应用场景,组织便可以开始探索不断扩展的代理技术领域,利用API、工具包和库(例如Microsoft Autogen、Hugging Face和LangChain)来更深入地掌握相关技术。
为顺利迎接代理系统(agentic systems)的到来,企业需考虑以下三个关键要素:
1. 知识体系的构建:实施复杂用例通常要求组织清晰定义并记录业务流程,创建可供代理学习的系统化工作流程。此外,企业应思考如何有效捕捉和应用领域专家的知识,利用自然语言指令指导代理,以简化流程的复杂性。
2. 战略性技术布局:企业需整合其数据和IT系统,确保代理系统能无缝对接现有基础设施。这涉及到收集用户互动数据以提供持续反馈,并确保新技术的集成不会影响现有业务的运行。
3. 人机协同控制机制:随着AI代理更深入地参与现实世界的互动,建立有效的控制机制以平衡自主性和风险变得至关重要。人类需验证代理输出的准确性、合规性及公平性,与专家合作维护和扩展代理系统,并构建一个持续学习与改进的循环。企业应开始规划在何种情境下部署这种人机协同机制。
麦肯锡的最新“人工智能现状”调研显示,超过72%的受访公司正在积极部署人工智能解决方案,对新一代人工智能的兴趣持续上升。因此,企业将代理agents技术等前沿技术纳入其规划和未来人工智能路线图,是符合趋势的。代理驱动的自动化不仅令人兴奋,更有可能彻底改变整个行业的运作方式,为工作流程带来革命性的效率提升。
尽管代理技术仍处于早期发展阶段,要充分发挥其潜力还需进行大量的开发和测试。随着这些系统的复杂性和自主性不断增加,它们也带来了一系列新的挑战和风险。
正如新团队成员的加入需要经过充分的测试、培训和指导,AI代理在被赋予独立操作权之前,也需要经历相似的过程。即便在这些早期阶段,我们也能预见到这些新一代虚拟同事将带来的巨大潜力和机遇。
文章来自于“非凡产研”,作者“Lareina Yee”。
【开源免费】n8n是一个可以自定义工作流的AI项目,它提供了200个工作节点来帮助用户实现工作流的编排。
项目地址:https://github.com/n8n-io/n8n
在线使用:https://n8n.io/(付费)
【开源免费】DB-GPT是一个AI原生数据应用开发框架,它提供开发多模型管理(SMMF)、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL(智能体工作流编排)等多种技术能力,让围绕数据库构建大模型应用更简单、更方便。
项目地址:https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file
【开源免费】VectorVein是一个不需要任何编程基础,任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤,并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。
项目地址:https://github.com/AndersonBY/vector-vein?tab=readme-ov-file
在线使用:https://vectorvein.ai/(付费)
【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。
项目地址:https://github.com/Significant-Gravitas/AutoGPT
【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md