ChatGPT 人工智能 GPT4 伦理 生成式 医疗 监管 安全 机器学习 深度学习 神经网络 计算机视觉 强化学习 模型 算法 应用 开发 研究 工具 平台 框架 数据集 训练 部署 安全 合规 培训 投资 LLM,llm AI,ai,Ai 大模型 大语言模型 制图 生图 绘图 文生图 文生视频 生成式AI AGI 世界模型 sora chatGPT,chatgpt,ChatGpt claude openai Llama deepseek midjourney 红熊猫模型 Red panda,panda Stable Diffusion,StableDiffusion,stable DALL- E 3 DALL E DALL Flux,flux 扩散模型 混元大模型 文心一言 通义千问 可灵 Pika PixelDance 豆包 月之暗面 零一万物 阶跃星辰 搜索增强 MiniMax Talkie Agent prompt fastai LangChain TTS 微调 提示词 知识库 智能体
# 热门搜索 #
搜索
为什么说大模型无法取代AI Agent ?
2445点击    2024-11-18 15:19

大模型和AI Agent完全属于两个不同品类,一个是思考系统,一个是行动系统,所以并不会由于大模型的迭代优化,而在模型层替代AI Agent的功能。


OpenAI CEO Sam Altman最近在一次互动访谈中谈到,人类带宽的限制可能会被Agent打破,Agent能够像一个聪明的同事一样,与用户一起合作完成项目。Agent的商业价值已经毋庸置疑,但与此同时,也有越来越多的人担心Agent涉及的核心技术会因为大模型的迭代优化而直接在模型层把Agent的相关功能取代。


从技术图谱的角度看,大模型能否取代AI Agent?我的答案是否定的。


下面是最有名的一张AI Agent的技术架构图,描述了Agent需要具备的四大核心能力,我们来逐个讨论:



1. Plan(规划)能力。技术上,规划能力看似是大模型和Agent最重合的部分,特别是在o1系列模型发出之后,由于推理有了scaling law,并且在数学能力上有了很大进步,似乎我们就该用大模型的规划能力,但事实上,有两大因素会使得AI Agent 规划能力的发展会和大模型的规划能力不一样,其中,最核心的是成本和响应速度。


具体来说,最好的大模型通常也是最贵的,o1模型又进一步提高了模型推理所需要的时间。所以在实际商业场景中,通过工程手段降低对大模型参数和模型推理时间的要求,是实现大模型应用的ROI为正的很重要的因素。本质上就是建立缓存系统能够使得不同复杂度、不同价值的业务问题,能够在合适的成本下被解决,这是AI Agent的规划能力和大模型规划能力的最大区别。


第二个因素是个性化的部分,AI Agent的推理可以低成本的用到短期、长期记忆来辅助决策,这使得它能够更有效地利用“系统1/快思考”机制,来得到高质量的答复和响应,这也是Agent和大模型的规划能力不一样的地方。


2. 短时记忆/长时记忆(Short/Long term memory)。记忆是大模型本身不涉及的技术,记忆在应用中需要可修改可解释,大模型是把所有数据都压缩进模型参数中,做不到可修改可解释。而且短时记忆、情景记忆和过程记忆也正是AI Agent能够利用来做到低成本和个性化的很重要的一个抓手。


3. 工具使用(Tool Use)。大模型有个功能叫做function-call,与AI Agent的使用工具的能力相对应。AI Agent可以利用大模型function-call的能力扩展可调用的工具数量,此外,通过“分而治之”的方式,AI Agent可以通过构建分层的意图识别,利用大模型的规划能力进行意图识别、分类,然后在第二层目标处理中,进一步使用大模型的function-call能力,从而达到倍增的工具选择能力。


举个例子,在电商的智能客服场景,我们可以分成售前/售中/售后三类场景,每个场景都配置不同的工具,然后在多轮对话中识别出客户的需求到底是哪一类之后,再进一步的进行规划和工具使用,从而能够满足更多样的场景需求。


4. 行动(Action)。大模型当前直接执行行动的能力仍然偏弱,本质上是和环境互动的能力偏弱。在所谓的Computer-use、Phone-use场景中,在关键的OSWorld测试集下,当前最好的大模型也只有15%的准确率,离人类平均水平的70%的准确率差距极大。所以Agent在这个模块中会有专门的验证和调试模块来保障行动执行的准确率和安全性,这里最核心的是有环境的仿真能力,这也是Agent和大模型不一样的技术路线之一。


大模型和AI Agent完全属于两个不同的品类,一个是思考系统,一个是行动系统,所以并不会由于大模型的迭代优化,而在模型层替代AI Agent的功能。此外,AI Agent有自己的产品价值和技术体系,可以沉淀相关的比较优势。


图源来自:澜码科技


可以参考下面这张架构图,这些是AI Agent和大模型最大的差异点。


图源来自:澜码科技


AI Agent是领域驱动的,其中有个最核心的理念叫做“信念”,即对何为真实以及何为有价值的判断。打个比方,就像图书馆里有众多书籍,如果两本书在知识上有冲突,以中国作者写的为最佳答案,还是以美国作者写的为最佳答案,对阅读者后续的规划行动会产生截然不同的影响。


在AI Agent进入到具体企业业务场景,在这些知识面对具体业务决策以及拿到商业上的反馈后,如何总结出适合这家公司或者这个专家的信念体系,就是AI Agent的核心功能。在我看来,最能体现AI Agent厂商核心能力的就是如何把大模型能力和企业内部的私域知识/数据有效结合,用ROI最高的方式去服务企业业务需求。


文章来自于“周健@澜码科技”,作者“周健”。


关键词: AI , Agent , 智能体 , 人工智能
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。

项目地址:https://github.com/Significant-Gravitas/AutoGPT


【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md