可信任的AI Agent,就是推理过程可解释、可迭代。
生成式人工智能浪潮下,软件应用正逐渐从以往促进流程、工作流和任务的工具,转变为能够代表终端用户开展工作的智能系统,特别是在企业级市场,软件应用将从仅仅支持业务流程的执行,逐步演变为代表人类员工进行工作或完成部分工作的智能应用(Intelligent Applications)。
根据全球知名咨询机构Gartner的定义,“智能应用”可以从数据中学习、适应用户行为,并做出自主决策以优化性能和结果。
图源来自:Gartner报告
而软件应用到智能应用的转变,不仅是技术的进步与发展,更意味着软件应用在功能和价值上将发生深刻变革,为企业的管理和运营带来全新机遇与挑战,同时也将触发商业和技术转型的新一波浪潮。在智能应用时代,于25年前诞生的SaaS也将获得全新内涵,从“Software as a Service”转变为“Service as a Software”。
那么,是否传统软件应用+大模型就等于智能应用?如果不是,将如何实现智能应用?我们或许可以从计算机视觉(CV)、自动驾驶的发展历程来观测智能应用的实现路径。
众所周知,人工智能的发展关键要素主要由算法、数据以及算力构成,纵观历史,无论是CV,还是自动驾驶的发展演进,往往先是算力实现突破,为算法的创新与改进提供更为强劲的支撑基础;算法在算力的助力下取得突破,催生出全新的应用场景;而新场景的出现,又促使大量新数据的积累。如此循环往复,推动行业不断向前。
从计算机视觉、自动驾驶的发展就不难得出结论:要实现智能应用,没有大模型是不行的,但只有大模型也是不行的。在我看来,可信任的AI Agent将是通往智能应用的必经之路。
在企业级市场,最典型的智能应用——数字员工的角色和能力是逐步发展和演变的——从Copilot(类似于副驾驶或辅助角色),发展为企业中业务专家和普通员工之间的桥梁,再到能够独立自主运行整个业务流程。
伴随着大模型越来越聪明,AI Agent将逐步积累与数字世界、物理世界及智能世界之间交互的数据,并走向自主化的阶段。在这个过程中,专家知识以及专家知识指导下的价值判断/推演的过程的数据最为稀缺,因此也是制约行业发展的关键因素。
大模型能力变得更强,人机协作方式和知识数字化的层次也将演进——国内已经有了开源的和GPT-4相当的模型(QWEN2.5 72B),所以在设计AI Agent的时候,可以假设Agent有便宜的、通用的自然语言理解和表达能力,以及相当于高中文科生的推理能力,我们发现这个级别的Agent能够利用数据、文档里的知识来辅助普通员工完成复杂的业务任务。
Sequoia刚刚发布的一份关于生成式 AI 的年度报告提到,“o1 的发布代表了通过「推理时计算」所取得的一般推理能力的重大进展,这是生成式AI的‘AlphaGo时刻’,也是大模型 scaling law 的一个重要转折点。我们给模型的推理时间计算越多,它的推理就显著越好。这也将进一步推动应用层的可用性。”
OpenAI最新发布的o1模型带来了推理能力的提升,也为如何提升AI Agent智能化地完成复杂性任务带来了启发和新思路。比如能够解决标准品的销售任务,根据客户需求给出合适的报价方案等类似业务活动的智能化。这里的“标准品”可以是金融领域的存款/贷款,也可以是工业品,例如发电机、压缩机,甚至是机票等。
在我看来,AI Agent完成复杂任务的过程,是智能应用的实现过程,也可以被抽象为需求与供给实现智能化匹配的过程。而可信任的AI Agent,就是推理过程可解释、可迭代。
在需求侧,有客户画像这样的数据,例如行业、财务模型、工厂大小等等。每个具体的需求,可能是这段时间内的资金需求,或者是厂房布置规定的要求,又或者是某个特定的航程,有很多维度的条件或者限制。
在供给侧,标准品本身有很多属性,如价格、时间、功率,也有很多案例参考,如行业最佳实践或上次购买内容等等。
因此,面对需求和供给智能化匹配这个问题,核心考验的就是AI Agent的规划能力,而这个规划能力是由几个模块组成的:
其一是用户画像/偏好的理解(或者说怎样升维变成高维空间中的向量),其二是组合方案推荐(或者说通过推理,搜索到合适的方案,并对该方案的卖点进行总结),第三是能够评价需求和方案匹配的价值函数。当然,在冷启动的时候是可以接受没有价值函数的,因为我们可以通过与用户多轮对话来理解用户对不同方案的偏好。
再以订机票的场景为例,每个用户在订票时都有不同的画像,比如是否价格敏感、持有哪国护照;还有场景的变化,是商务还是休假?以及不同的偏好,比如航司/飞机类型、座位以及餐食,当然,最重要的是金钱成本和时间成本。
客户画像以及客户历史购票记录,可以帮助对机票组合有先验概率分布的评价函数,但是在没有大模型的情况下,只能通过一些预先设置好的选项例如价格优先或时间优先等来获取用户特定的偏好,而无法满足更复杂的需求,如隔夜那么价格就必须在5000元以下,或者希望在新加坡机场逗留3小时以上等这样复杂的需求。
将这些场景抽象化就可以发现,绝大部分User Case都是「如何满足用户需求」,即需求和供给的匹配问题。
随着Agent规划能力越来越强,在已有的应用中嵌入这样的智能,就可以升维成Gartner所提到的“智能应用”。
根据Gartner的定义,智能应用应具备五个特点:数据连接、可组装架构、内嵌智能、自主编排、自适应体验。我们认为,智能应用的五个特点可以分为三个阶段来实现:
图源来自:澜码科技
第一个阶段是能够连接更多的数据和可组装的架构,现在的Agent就可以实现;
第二个阶段是自主编排和内嵌智能,本阶段将随着Agent规划能力的加强和提升而实现;
最后一个阶段则是应用能够自己适应用户需求的变化。
文章来自于“ 36氪”,作者“ 周健@澜码科技”
【开源免费】n8n是一个可以自定义工作流的AI项目,它提供了200个工作节点来帮助用户实现工作流的编排。
项目地址:https://github.com/n8n-io/n8n
在线使用:https://n8n.io/(付费)
【开源免费】DB-GPT是一个AI原生数据应用开发框架,它提供开发多模型管理(SMMF)、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL(智能体工作流编排)等多种技术能力,让围绕数据库构建大模型应用更简单、更方便。
项目地址:https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file
【开源免费】VectorVein是一个不需要任何编程基础,任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤,并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。
项目地址:https://github.com/AndersonBY/vector-vein?tab=readme-ov-file
在线使用:https://vectorvein.ai/(付费)
【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。
项目地址:https://github.com/Significant-Gravitas/AutoGPT
【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md
【开源免费】graphrag是微软推出的RAG项目,与传统的通过 RAG 方法使用向量相似性作为搜索技术不同,GraphRAG是使用知识图谱在推理复杂信息时大幅提高问答性能。
项目地址:https://github.com/microsoft/graphrag
【开源免费】Dify是最早一批实现RAG,Agent,模型管理等一站式AI开发的工具平台,并且项目方一直持续维护。其中在任务编排方面相对领先对手,可以帮助研发实现像字节扣子那样的功能。
项目地址:https://github.com/langgenius/dify
【开源免费】RAGFlow是和Dify类似的开源项目,该项目在大文件解析方面做的更出色,拓展编排方面相对弱一些。
项目地址:https://github.com/infiniflow/ragflow/tree/main
【开源免费】phidata是一个可以实现将数据转化成向量存储,并通过AI实现RAG功能的项目
项目地址:https://github.com/phidatahq/phidata
【开源免费】TaskingAI 是一个提供RAG,Agent,大模型管理等AI项目开发的工具平台,比LangChain更强大的中间件AI平台工具。
项目地址:https://github.com/TaskingAI/TaskingAI