这几天,Agent 的相关概念沸沸扬扬。
不做词义追源,仅从大众角度,这个事儿是前年初开始的,也就是 2023 年 2-3 月。标志性事件包括:
《AI 学会使用工具了》
2023年2月14日,报道自赛博禅心
由于语言泛化,今天出现了很有趣的现象:「Agent 是什么」,这个问题没有了标准的定义。
一个常见的观点是:Agent 是一种让 AI 以类似人的工作和思考方式,来完成一系列的任务。一个 Agent 可以是一个 Bot,也可以是多个 Bot 的协同。就像是职场里,简单的工作独立完成,复杂的工作协作完成一样。
对于每个 Bot 来说,可能会包括:
再具象一点,这里我从 GPTs 里截了个图:
GPTs,通常被认为是由 OpenAI 设计的最简版的 Agent。默认情况下,只能进行单 Bot 交互:
在这里,大脑链接眼睛和手,需要一种神经信号,代码里叫做协议。
最早的协议是 OpenAI Plugin 协议,发布于 2 年前的差不多这个时候,定向邀请。
之后 Anthropic 在去年发布了 MCP 协议,是公开版的
当时我也做了个短评:
类比来说,可理解为 Claude 桌面版的插件系统(类比 OAI 去年3月的发布),不同点在于:
- Claude 的插件,暂还不能共享
- 只能在「Claude 桌面版」(网页版不行)、「Zed」、「Cody」里面使用
- 没有更新到接口(仍然没有正式的 Function Calling / JSON Mode / Sturctured Output)
- 早期版本,很多东西还是饼,比如 Sampling
从进步角度,一定程度上解决了 Claude 不能输出结构化信息的问题:之前 Claude 想要结构化输出,只能 prompt + prefill + regex
公众号:赛博禅心
短评Claude 发布的 MCP 协议
而下面,就让我们一起来看看这个 MCP 协议。
Norah Sakal 写了一篇不错的介绍,宝玉进行了翻译
什么是模型上下文协议(MCP)?它如何比传统API更简单地集成AI?https://norahsakal.com/blog/mcp-vs-api-model-context-protocol-explained/
模型上下文协议(Model Context Protocol,简称MCP) 是一种全新的开放协议,专门用于标准化地为大语言模型(LLMs)提供应用场景和数据背景。
你可以把MCP想象成AI领域的“USB-C接口”,它能让不同的AI模型与外部工具和数据源轻松连接。
本文将清晰地解释MCP的价值、工作原理,以及它与传统API的关键区别。
模型上下文协议(MCP) 就像是为AI模型量身定制的“USB-C接口”,可以标准化地连接AI系统与各类外部工具和数据源。
就像USB-C接口让你的电脑更容易连接各种设备一样,MCP让AI模型更简单地获取数据、工具与服务。
通常,AI系统想连接外部工具时,需要单独整合多个不同的API。每个API都有独立的代码、文档、认证方式、错误处理和后续维护,极大地增加了开发复杂度。
打个比方: API就像不同的门,每扇门都需要自己的钥匙和特定的规则。
为什么使用MCP而非传统API?
传统的API要求开发者为每个服务或数据源单独编写代码和整合方案。
MCP最早由Anthropic ↗[1]公司开发,目的是帮助AI模型(如Claude)更容易地连接工具和数据源。
但现在,MCP已经成为一个开放协议,越来越多的企业和开发者开始采用它,这也让它逐渐成为AI与工具互动的新标准。
📌 想深入了解?可以访问官方的MCP规格文档 ↗[2]。
为什么要有双向通信?
MCP提供实时互动,模型能:
MCP采用简单的客户端-服务器架构:
MCP的工作架构
比如,一个Python脚本(client.py
)作为MCP客户端,可以轻松连接MCP服务器,以控制Gmail、Slack或日历应用,无需每个工具单独编写代码。
设想下面几个场景:
如果你的应用场景需要精准且严格受控的交互方式,那么传统API可能更合适。MCP提供广泛而灵活的动态能力,更适合需要上下文理解的场景,但不一定适用于严格受控的场合。
快速集成MCP的步骤:
什么是MCP?
MCP让AI与外部数据、工具的连接变得更加标准化和高效。
MCP不仅仅是另一种API,而是一个强大的连接框架,让AI应用能更智能、更动态地融入丰富的上下文环境,快速实现复杂的功能互动。
[1]
Anthropic ↗: https://www.anthropic.com/news/model-context-protocol
[2]
MCP规格文档 ↗: https://modelcontextprotocol.io/
文章来自微信公众号 “ 赛博禅心 “,作者 Norah Sakai
【开源免费】OWL是一个完全开源免费的通用智能体项目。它可以远程开Ubuntu容器、自动挂载数据、做规划、执行任务,堪称「云端超级打工人」而且做到了开源界GAIA性能天花板,达到了57.7%,超越Huggingface 提出的Open Deep Research 55.15%的表现。
项目地址:GitHub:https://github.com/camel-ai/owl
【开源免费】OpenManus 目前支持在你的电脑上完成很多任务,包括网页浏览,文件操作,写代码等。OpenManus 使用了传统的 ReAct 的模式,这样的优势是基于当前的状态进行决策,上下文和记忆方便管理,无需单独处理。需要注意,Manus 有使用 Plan 进行规划。
项目地址:https://github.com/mannaandpoem/OpenManus
【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。
项目地址:https://github.com/Significant-Gravitas/AutoGPT
【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md
【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。
项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md
在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0