Z Highlights
RPA虽然能完成任务的80%,但在20%的失败情况中,仍然需要人工介入;下一代的RPA将由AI Agent来完成,而不是依赖传统的RPA。
为了让AI Agent取得成功,往往需要在初期将其应用于一个非常明确和受限的领域。例如物流、医疗或法律等行业。这些领域具有完整的上下文信息,包含所有必要的输入、集成等条件,能够专注于自动化特定的工作流程。
这将是一个逐步发展的过程,并且会因行业对技术的接受程度而有所不同。对于那些较为传统、依赖本地部署(on-prem)或更偏向于实体操作的行业来说,这需要一些时间。
传统RPA技术不尽人意
Kimberly Tan:没有人愿意做繁琐的数据录入工作,也没人愿意花时间处理一百份传真并将其输入系统。如果你能为这个行业开发一个专门的智能AI agent,精准匹配他们的业务流程,这几乎是一个不言而喻的解决方案。
主持人:Kimberly,你写了一篇标题很有趣的文章,《RIP to RPA》。我们来聊聊这个话题,但首先,什么是RPA呢?
Kimberly Tan:RPA(机器人过程自动化)是一种自动化手动任务的技术,主要用于数据录入、发票处理等几乎所有企业都需要做的工作,但这些任务通常并不是公司的核心业务,而是组织内那些繁琐、重复的工作。过去,这些任务都是通过人工完成的,企业会雇佣数据分
析师或后勤人员来处理。近20年来,随着技术的进步,人们开始思考是否可以通过自动化来完成这些工作。传统的做法是使用RPA技术,通过构建软件机器人来模拟人工操作,自动完成点击、选择等动作。这种方式非常固定,也就是说,机器人按照预定的流程执行任务,就像人类在操作一样。
然而,现实中的工作往往不按理想中的流程进行,组织内部的任务往往充满了变数。例如,一个简单的拼写错误,或者网站上的登录框位置发生变化,都可能导致RPA流程中断。正如我们所想的那样,这种情况发生的可能性几乎是无限的。因此,RPA虽然能完成任务的
80%,但在20%的失败情况中,仍然需要人工介入。由于它的可靠性不足,无法完全自动化所有任务,企业仍然需要依赖传统的后勤人员来填补这些空缺。我认为,随着AI和大语言模型(LLMs)的发展,尤其是它们能够处理复杂的非结构化数据并智能地收集上下文信息,下一代的RPA将由智能AI agent来完成,而不是依赖传统的RPA。
智能自动化技术崛起以消除重复性工作
主持人:智能自动化,或者你提到的这些正在实际应用的大语言模型(LLMs),能做些什么是RPA无法做到的呢?
Kimberly Tan:以我们投资的公司Tennr为例。Tennr为医疗机构提供转诊管理服务。如果我是一名主治医生,需要将病人转诊给专家,传统的做法是,我会把转诊信息写在纸上,然后传真给专家。专家前台的工作人员会接收到传真,查看传真上的所有信息,并将其输入到自己的数据库中,核查保险政策、病史等,最后决定是否接受病人。这个过程完全依赖人工操作,且因为涉及的步骤和信息较为复杂,传统的RPA技术无法有效处理,只能依靠人工完成。
然而,借助智能自动化,Tennr提出了一种非常高效的解决方案,能够自动化整个流程。传统的RPA通常需要雇佣一名实施顾问,他们会观察工作人员的操作流程,记录每一步的点击动作,然后将这些操作编程实现。但像Tennr这样的公司,并不会让人坐在前台看着行政人员做操作,而是开发了一个非常流畅的UI(用户界面),看起来像是拖拽式的流程图,用户可以自己创建自动化流程。这个界面非常直观,操作起来不需要复杂的技术背景,尽管其背后处理的却是复杂的业务流程。这使得用户能够自主设置自动化流程,简化了操作的复杂性,同时大大提高了效率。
主持人:很多人在思考“幻觉”问题时,自然会产生疑问:当前技术的发展处于什么阶段?我们是否真的能够实现智能自动化的理念?是否还存在一些障碍?在这一发展轨迹中,我们目前处于什么位置?
Kimberly Tan:我们发现,最有效的方式是从一个非常具体的自动化流程开始,确保这一流程能够完美实现。这通常是针对某个特定行业的流程,因为这样可以深度集成到该行业的核心系统中,理解行业背景,并专注于一个高度重复但非常手动的流程。例如,数据录入:工作人员接到一个电话,获取关于订单状态的更新,然后将订单的所有信息从通话中解析出来并录入主系统。对于大型组织来说,这种操作每天可能要手动执行数千次,而这就是一个非常具体且明确的流程,甚至只是个开始。一旦这个流程优化完成,就可以进一步扩展到其他流程中。但我认为,更成功的路径是首先了解其中的限制条件,并围绕这些限制进行构建,确保AI agent的表现是准确无误的,而不是一开始就试图解决医疗、法律和物流等所有领域的问题。
主持人:我感觉听众已经知道,AI正在到来,事实上,它已经到来了。大语言模型(LLMs)可能是许多人熟悉的术语,但是否还有更深层的“为什么是现在”的原因?或者,有哪些特定的技术进步让LLMs能够真正实现这些可能性?
Kimberly Tan:是的,我认为让我们真正感到兴奋的一点是,大家提到AI时,常会说“AI会改变一切”,但具体来说,这究竟意味着什么?实际上,有许多截然不同的技术突破使得各种应用场景成为可能。就智能自动化而言,我认为之所以现在比以往更有实现的可能性,很大程度上归功于来自大型实验室的基础研究成果。例如,最近Anthropic宣布了一项名为“computer use”的技术,它本质上是一个浏览器 agent,能够智能地理解任何桌面浏览器上的操作,并相应地采取行动。我们提到过,传统的RPA是通过像素级别的理解来工作的,比如“点击这里,然后再点击那里”。
但像“computer use”这样的功能,或者据我所知,OpenAI即将发布的一个名为Operator的工具,这些智能 agent将能够以更复杂、更高级的方式浏览互联网和网页。这将为智能 agent能够实现的功能打开许多全新的可能性。
我们认为,许多智能自动化初创公司并不会独立进行基础研究。虽然要让浏览器 agent在大规模应用中完全发挥作用,仍然需要技术上的突破,但令人振奋的是,大型实验室显然已经在投入研发,并且清楚地看到了这一领域的潜力。因此,随着技术的不断进步,我们相信会有一大批初创公司涌现出来,它们将利用这些技术,服务于各个行业,而这些行业可能是大型实验室不会直接涉足的领域。
主持人:在谈到这个机遇时,你在文章中将其划分为两种可能的路径。一种是水平型的AI赋能者,另一种是垂直型的自动化解决方案。请你详细说说这两种路径,如果人们想要在这个领域展开业务,他们可以选择的方向有哪些?
Kimberly Tan:首先是横向AI赋能者。这是我们认为任何从事自动化或智能自动化的公司都必须具备的能力之一。例如,一个非常常见的案例就是数据提取。几乎所有的智能自动化流程都从处理混乱的非结构化数据开始,需要从中提取关键输出。如今,许多人仍然依靠手动完成这部分工作,但我们已经开始看到一些专注于这一领域的公司涌现。他们的核心任务就是将非结构化数据提取并转化为结构化数据,我们认为这是一个非常有潜力的机会。无论是内部开发自动化流程的公司,都可以将这一功能作为关键组件,还是构建端到端解决方案的公司,都可以将其纳入产品体系中。
我个人非常期待的是垂直领域的自动化路径。为了让智能AI Agent取得成功,往往需要在初期将其应用于一个非常明确和受限的领域。例如物流、医疗或法律等行业。这些领域具有完整的上下文信息,包含所有必要的输入、集成等条件,能够专注于自动化特定的工作流程。我们对这一领域感到兴奋的原因在于,很多行业存在大量需要人工完成的工作,尤其是在拥有庞大后勤部门的行业中。如果我们思考这些工作中哪些是需要被自动化的,或者是之前RPA未能解决的问题,就会发现一些机会。比如,这些工作可能不属于某些财富500强客户的核心需求,或者个体客户需求规模不足以支持自动化解决方案。
接下来,我们需要思考:哪些行业符合这些条件?有哪些工作流程是真正可以自动化的?我们尤其感兴趣的是那些能够直接创造收入的工作流程。因为这些客户之前由于流程限制,业务规模受到约束。例如,通过语音接收客户订单,这在过去可能无法实现,但现在可以完成。又或者像推荐管理这样的流程,之前可能因为无法快速处理大量数据而受到限制,而现在这一问题得到了突破。
主持人:当你考虑市场规模时,你刚才提到的这种方法实际上是在有效瞄准那些以前由人工完成的工作。这反映出的市场潜力和规模究竟有多大?
Kimberly Tan:市场的潜力要大得多。我们可以从劳动统计局的数据中看到,许多市场规模非常庞大。而当你观察这些市场中现有的软件供应商时,会发现他们与这些巨大机遇并不匹配。历史上,这种不匹配的原因之一是软件技术无法应对企业实际操作中各种复杂的边缘案例,或者这些企业的预算不足以支持大型软件项目。但事实上,这些企业往往有庞大的人力资源预算,并且充满了需要优化的机会,而技术正是实现这一点的关键。
我们认为,智能自动化的出现,为传统市场带来了前所未有的激动人心的机会。现在,可以通过AI agent来服务这些传统市场,而这些是传统工作流或软件技术无法实现的。将历史上的软件公司与市场机会对比并得出“这就是一家企业所能达到的上限”的结论,其实是一个错误的比较。过去,许多市场的潜力无法被技术挖掘,而现在,随着智能AI agent、语音 agent等技术的发展,我们终于可以触及这些未被开发的机会。
主持人:是的,我完全同意你的看法,之前确实有大量潜力未被挖掘,因为技术的局限性并没有达到那个水平。但现在技术已经发展到了这个阶段,你怎么看接下来五到十年的发展趋势?因为人们在思维方式上也需要做出一些转变,从过去单纯考虑软件预算,到现在将其与劳动力预算结合起来。这种转变几乎要求人们重新调整思维方式,认识到许多之前无法实现的自动化现在已经成为可能。那么,你如何看待这一趋势的发展轨迹?
Kimberly Tan:我认为这将是一个逐步发展的过程,并且会因行业对技术的接受程度而有所不同。对于那些较为传统、依赖本地部署(on-prem)或更偏向于实体操作的行业来说,这需要一些时间。这也是为什么我觉得为特定行业打造端到端的自动化解决方案如此令人兴奋,因为你可以根据他们的具体工作流程开发出高度定制化的工具,让他们几乎无法拒绝使用。毕竟,没有人愿意做数据录入这样的工作,也没有人愿意坐在后面处理一百份传真并将其录入系统。而且,这些任务本身也从来不是任何公司的核心竞争力。
如果能够为某个行业开发出智能AI agent,并精确匹配其业务流程,那么使用它几乎是显而易见的选择。这样一来,原本负责这些工作的人员就可以转向更有价值的任务,例如与客户直接互动的工作或更复杂的任务。同时,随着时间的推移,比如在未来五到十年,越来越多的公司会逐步接受这波技术浪潮,人们对这些AI agent的能力和局限性会有更深的了解,对这项技术的接受度也会提高。通过与客户群体及其核心系统的深度整合,你将有机会承担更多的人工劳动或传统系统所处理的核心任务。
因此,现在是一个非常令人兴奋的时机,因为有明确的机会可以开发出既能带来投资回报(ROI),又能显著提升公司业绩的解决方案。而且,在这个阶段切入市场,你还能趁早占据优势,随着这些公司在技术采纳曲线上的成熟,为未来的发展赢得更多的机会。
主持人:正如你提到的,我们现在还处于这个趋势的早期阶段,但未来还有许多令人期待和激动的发展。你希望开发者重点关注哪些领域?你又希望听到哪类开发者的声音?
Kimberly Tan:我对那些思考“过去无法实现的事情”的人感到非常兴奋。我们已经讨论了很多RPA今天的功能以及它目前能够服务的客户类型。但如果你考虑一下,通过智能自动化可以改变的工作世界,以及这种变化为员工和企业带来的时间和成本节约,其规模远远超出了当前的可能性。因此,我特别期待那些关注过去RPA无法处理的任务类型以及它未能覆盖的行业的人。他们能够深入思考,这些行业中有哪些任务可以成为首批实现自动化的流程?又有哪些干净直观的UI(用户界面)或UX(用户体验设计)可以用于实现这些解决方案?这些问题的答案可能会为整个行业带来颠覆性的改变。
主持人:我很喜欢这一点,也很高兴听到你不仅关注金融或医疗领域的建设者,还关注一些非常细分的市场。我认为这是一个真正的范式转变。
Kimberly Tan:是的,如果说10年后,没有人再需要手动录入数据,或者在客服岗位上被愤怒的顾客训斥,我认为这对所有人来说都是一种胜利。这样一来,这些人就可以专注于更具创造性、更有成效的任务,而这些任务很可能让他们感到更加快乐和满足。
主持人:终于可以淘汰传真机了
Kimberly Tan:没错。
原视频:RIP to RPA: How AI Makes Operations Work
https://www.youtube.com/watch?v=O6DtzLGLNWY
编译:Liyun Yao
文章来源公招号“Z Potentials”;作者;a16z
【开源免费】n8n是一个可以自定义工作流的AI项目,它提供了200个工作节点来帮助用户实现工作流的编排。
项目地址:https://github.com/n8n-io/n8n
在线使用:https://n8n.io/(付费)
【开源免费】DB-GPT是一个AI原生数据应用开发框架,它提供开发多模型管理(SMMF)、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL(智能体工作流编排)等多种技术能力,让围绕数据库构建大模型应用更简单、更方便。
项目地址:https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file
【开源免费】VectorVein是一个不需要任何编程基础,任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤,并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。
项目地址:https://github.com/AndersonBY/vector-vein?tab=readme-ov-file
在线使用:https://vectorvein.ai/(付费)
【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。
项目地址:https://github.com/Significant-Gravitas/AutoGPT
【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md