Agent的“编排之战”｜我开源了！

8039点击 2024-11-07 09:49

请问哪家大模型能够更准确地转化下述问题：

“原告是安利股份的案件审理法院是哪家法院？”

为可被大模型执行的指令序列（Routine）?

公司简称:安利股份->上市公司基本信息;
公司名称:上市公司基本信息.公司名称->法律文书信息;
法律文书信息.过滤(原告等于上市公司基本信息.公司名称);
法院代字:法律文书信息.法院代字->法院地址代字信息;
法院名称:法院地址代字信息.法院名称;

回答这类问题，可以用到“4-One Bench”，这是老于依托于在《第三届琶洲算法大赛-GLM法律行业大模型挑战赛道》中获得全国第11名的竞赛程序，构建并开源的一套大模型Routine Gen能力评估体系。

而老于开源的初衷就是希望通过开源以促进“编排型”Agent在企业的落地。

“编排型”Agent

微软和Salesforce之间的Agent之争最近开始升级：微软发布了10个Agents以硬刚Salesforce的Agentforce战略，而Salesforce CEO则直白地宣称微软的Agent“Just doesn't work”。

虽然两家公司正在开启“互喷”模式，但二者对Agent商业化方向的判定还是趋同的，都瞄准了“编排型”Agent。

Every organization will have a constellation of agents — ranging from simple prompt-and-response to fully autonomous. They will work on behalf of an individual, team or function to execute and orchestrate businesses process.

- Jared Spataro， Microsoft CMO

两家公司共同野心是在SaaS层打造一套类似于云计算（IaaS）和容器（PaaS）的编排体系，即“编排型”Agent。编排型Agent的终极目标是依据任务需求，自动编排和执行企业数据资产（包括系统、API、结构和非结构化数据、以及人等）以达成业务目标。

例如，在前几日的AI Tour上，微软便展示了相关案例：基于预设的Routine，麦肯锡EM Agent能够解析客户的邮件为销售机会，并调度CRM和HR系统以安排恰当的合伙人跟进该销售机会（图1）：

Agent的“编排之战”｜我开源了！

图1：麦肯锡EM Agent，红色标识部分为对CRM和HR的调度

如果这两家公司的野心兑现，编排型Agent将有机会一统原本分散在单系统中由代码逻辑驱动、多系统间由工作流引擎驱动、以及当下还未被SaaS完全囊获，由人驱动的编排体系，并在SaaS市场攫取相当的战略优势（图2）：

Agent的“编排之战”｜我开源了！

图2:编排型Agent有机会统一现有编排体系

但是，这两家公司尚未搞定编排型Agent的“胜负手”。

“胜负手”

编排型Agent的胜负手在于Routine Gen，即根据任务准确生成Routine的能力（图3）：

Agent的“编排之战”｜我开源了！

图3: Routine Gen是编排型Agent的胜负手

而为了保证商业可靠性，微软和Salesforce的Routine Gen皆为手工编制，例如，在上述麦肯锡案例中，Routine就是由人工书写（图4）：

Agent的“编排之战”｜我开源了！

图4：由人工书写的麦肯锡EM Agent Routine

以大模型当下的能力来看，手工编制不失为一种选择。但当微软和Salesforce得偿所愿，企业运转着百万，乃至数以亿计的Agents时，这些Routine的维护将成为企业的噩梦。因此，由大模型驱动的自动化Routine Gen是一种必然。

虽然OpenAI o1已经展露出些许自动化Routine Gen的潜质（详情参见我的文章《OpenAI o1正在重塑Agent？》），但基于商业领域的严谨性，编排型Agent的决胜时刻还远未到来。因此，业界需要一套可以持续评估大模型Routine Gen能力的体系。

为此，抛砖引玉，我开发了“4-One Bench”。

4-One Bench

4-One Bench是一套轻量级评估体系，定位于帮助用户快速评估大模型的Routine Gen能力，并鼓励用户结合自身商业实践定制评估内容。此外，用户亦可参照Bench中的编排自定义文法体系。

4-One Bench的架构采用Generator-Verifier模式，同时，该Bench具备如下特色（图5）：

Agent的“编排之战”｜我开源了！

图5：4-One Bench 系统架构

首先，One-Query：4-One Bench模拟日常商业实践中常见的“一句话任务”场景，涉及单项或者多项企业资源的编排：

Agent的“编排之战”｜我开源了！

图6：满足One-Query需要编排单或多项企业资源

其次，One-Knowledge Graph：依据任务，一套描述数据资产关系的知识图谱指导大模型自动编排企业数据资产，同时，用户亦可结合自身商业实践定制知识图谱内容。

Agent的“编排之战”｜我开源了！

图7：描述API和商业实体的知识图谱

再次，One-Shot。考虑到实际商业环境中对Agent的响应速度和准确率要求，4-One Bench重点考察大模型一次性成功生成Routine概率。

最后，One-Syntax。一套自定义的文法（Syntax）主要的作用是将任务结构为指令，而指令又可被映射为函数以用于企业数据资产调用（图8）：

Agent的“编排之战”｜我开源了！

图8：4-One Bench的自定义文法

我们用来源于《GLM法律行业大模型挑战赛》的51道问题评估了4家厂商（OpenAI、智谱、阿里云和字节）的8个大模型并形成了评估基线。通过评估，我们发现（图9）：

当前表现最好的模型（gpt-4o）One-Shot的准确率有七成，如果我们利用Verifier将One-Shot架构转化为ReAct，凭借提示词Routine Gen的准确率有望达到90%+；
准确率超过60%的模型对知识图谱有较好的理解，而如果该指标低于50%，则不建议使用此类模型进行Routine Gen；
国产主力模型能力距gpt-4o不远（例如 glm-4-plus的准确率为～65%），市场上有望出现能够PK微软和Salesforce的纯国产的"编排型"Agent；
各个模型所犯错误较为近似，有进一步通过优化提示词工程提升准确率的空间。

Agent的“编排之战”｜我开源了！

图9：4-One Bench 测评结果

下述视频演示了如何使用4-One Bench测评glm-4-520的Routine Gen能力：

Agent的“编排之战”｜我开源了！

视频：使用4-One Bench进行测评

4-One Bench的代码已经开源，可在Github上搜索：laoyu84/4onebench，或扫描下方QR Code：

Agent的“编排之战”｜我开源了！

文章来自于“老油杂谈”，作者“笔者老于”。

Agent的“编排之战”｜我开源了！

关键词: AI , 智能体 , AI法律 , 人工智能 , 4-One Bench

AITNT资源拓展

根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考

AI工作流

【开源免费】字节工作流产品扣子两大核心业务：Coze Studio（扣子开发平台）和 Coze Loop（扣子罗盘）全面开源，而且采用的是 Apache 2.0 许可证，支持商用！
项目地址：https://github.com/coze-dev/coze-studio

【开源免费】n8n是一个可以自定义工作流的AI项目，它提供了200个工作节点来帮助用户实现工作流的编排。
项目地址：https://github.com/n8n-io/n8n
在线使用：https://n8n.io/（付费）

【开源免费】DB-GPT是一个AI原生数据应用开发框架，它提供开发多模型管理（SMMF）、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL（智能体工作流编排）等多种技术能力，让围绕数据库构建大模型应用更简单、更方便。
项目地址：https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file


【开源免费】VectorVein是一个不需要任何编程基础，任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤，并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。
项目地址：https://github.com/AndersonBY/vector-vein?tab=readme-ov-file
在线使用：https://vectorvein.ai/（付费）

智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的（AI Agents）项目。用户创建的智能体能够自动执行各种任务，从而让AI有步骤的去解决实际问题。
项目地址：https://github.com/Significant-Gravitas/AutoGPT

﻿【开源免费】MetaGPT是一个“软件开发公司”的智能体项目，只需要输入一句话的老板需求，MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色，包括产品经理 / 架构师 / 项目经理 / 工程师，MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址：https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法，编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词，进而高质量的帮助用户通过AI解决问题。
项目地址：https://github.com/langgptai/LangGPT/blob/main/README_zh.md
在线使用：https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0