聊一聊 Agent 的存算分离架构设计

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
聊一聊 Agent 的存算分离架构设计
9982点击    2026-06-02 15:23

一个有灵魂,有记忆的 Agent,一次任务的生命周期包括以下步骤


  1. 用户输入 query(text + files)
  2. Agent 读取提示词文件(soul.md,identify.md,user.md 等)
  3. Agent 读取可用的工具和技能(tools,skills 等)
  4. Agent 读取记忆(memory.md,memory_search 查询)
  5. Agent 构建上下文(prompt + tools + memory + query)
  6. Agent 进入 Loop(LLM 调用 → 工具调用 → 观测 → 再推理)
  7. Agent 交付结果(Artifacts)


什么需要存:提示词文件,工具和技能,对话记录,交付产物


什么需要算:上下文拼接,LLM 调用,工具调用


简单表示这个过程


fn(query, agent runtime) = artifacts


我们可以把  agent 运行方式简单分为三类


  1. 本地裸机运行
  2. 本地带沙盒(sandbox)运行
  3. 云端多副本运行


Agent 运行方式


1-本地裸机运行。


这是 OpenClaw 之类 Agent 的常见模式。Agent 提示词文件、skills,对话记录(sessions)全部存在本地磁盘,Agent 执行任务时,会在固定 workspace 目录下运行,用户上传的文件、Agent 产出的文件全部落在同一个 workspace,Agent Loop 完全依赖本地文件构建上下文和执行工具调用,存跟算是一体的。


这种模式好处是足够简单,避免了额外的文件挂载开销,弊端在于安全性,比如 Agent Loop 执行了一个 exec(rm  -rf /) 工具调用,很容易对宿主机产生破坏


2.本地带沙盒运行。


这是 Codex 之类的 Agent 的常见模式。主要解决两个问题。一是防止 Agent 越权操作,提高安全性;二是解决宿主机的依赖缺失导致工具调用异常的问题。


Agent Loop 执行工具调用时,涉及到敏感操作或者有外部依赖时,把宿主机的 workspace 目录挂载到 sandbox,在 sandbox 执行工具调用,输出产物自动同步到宿主机的 workspace 目录


这种模式下的存算分离,只在工具调用环节引入 sandbox 来动态计算,存储主要靠宿主机的文件系统


3.云端多副本运行。


这是 Manus 之类的工具型 Agent 的常见模式。主要特点是多租户,多任务,长时间运行


像 genspark claw,kimi claw,max claw 之类的托管版小龙虾,本质上是在云端多副本运行的助理型 Agent,每个用户有独立的提示词文件,动态安装的 skills,需要长期记忆


这类 claw 托管服务,最简单的实现方式是搭建一套 k8s 集群,在每个 pod 部署一套 Agent 框架(OpenClaw,harmes 等),通过 pvc 挂载云硬盘,实现对用户资料的持久化存储。通过负载均衡策略把每个用户的请求路由到固定的 pod,在同一个 pod 做 Agent Loop,存算是一体的,每个 Agent 有独立的运行空间。这种方案隔离性很好,不好的地方在于 pod 需要常驻,运行成本很高,难以规模化


Agent 存算分离


云端 Agent 需要规模化(scalable),必然要结合 serverless 架构做存算分离。计算层依赖 k8s 集群的调度机制动态扩缩容,水平扩展 Agent 网关的并发处理能力


存储层结合 Agent 的运行生命周期,不同阶段的产物用不同的存储方案,主要分为四种


  1. 热状态。Agent Loop 的 step,plan,游标等状态,用 kv(redis)来存,高性能,低延迟,用于异常重启后的断点恢复
  2. 对话和任务记录。在任务完成后用关系型数据库(postgres)来存
  3. 长期记忆。基于对话/任务记录做摘要,提取成记忆,用向量数据库(pgvector,milvus)来存
  4. 工作产物。包括用户上传的文件,Agent 输出的文件,系统内置的 tools,动态创建的 skills 等,用对象存储(s3,oss)来存


FastClaw 运行示例


以 FastClaw 为例,演示基于存算分离架构的云端 Agent 的运行过程👇


1.一套 k8s 集群,日常 2 个 pod,部署 fastclaw gateway,接收用户请求


2.负载均衡把用户请求路由到其中一个 pod,Agent 开始计算逻辑:


  • 2.1  从 db 读取提示词文件(soul,identity,user)
  • 2.2  初始化 pod 内一个临时目录作为 workspace
  • 2.3 初始化 sandbox,挂载 workspace
  • 2.4 从对象存储下载用户资料和系统 skills 到 workspace
  • 2.5 调用 memory_search 工具,从向量数据库查询记忆
  • 2.6 拼接上下文,调用 llm,解析工具
  • 2.7 在 sandbox 执行工具调用,读写 workspace 内的文件
  • 2.8 把 Agent Loop 过程中的状态设置为 checkpoint,保存到 kv
  • 2.9 Agent 输出结果给用户


3.通过惰性检查,把不活跃的 sandbox 关闭,关闭前把 sandbox 内 workspace 的文件上传到对象存储


以上的存算分离架构,计算层依赖 pod + sandbox,pod 水平扩容支持并发调用,sandbox 承接少量的工具调用,使用 e2b 作为 sandbox 可以做到秒级启动,构建 sandbox 池可以提高并发容错;存储层依赖 kv + db + vector db + oss 的组合使用,瓶颈在于 io 延迟


这套架构最大的挑战在于分布式多副本场景下的数据一致性,需要合理使用锁机制和负载均衡策略。


理解了这套架构,再去看 Manus,Claude managed agents 的实现,就很好理解了。


Agent 托管服务迁移


我年初开始做 OpenClaw 托管服务,在一套 k8s 集群部署了 500 个 Pod,每个 Pod 限制 4g 的运行内存。日常开着 18 台 4c16g 的服务器作为节点池,一个月成本将近 5k 刀。


几个月下来,托管服务的 MRR 突破了 8k 刀,除去运营成本,利润非常低。


今天终于把服务迁移到了 FastClaw,通过存算分离的架构,让 Agent 无需常驻,而是在收到请求时动态挂载 sandbox 来提供服务。服务器从 18 台降到了 3 台,运营成本降到了 1/6,下个月有机会赚到钱了。😄


跟 OpenClaw 比,FastClaw 真的是太轻量了。


  1. 代码体积约为 OpenClaw 的 1/40
  2. 运行资源占用约为 OpenClaw 的 1/7
  3. 单二进制分发,无环境依赖
  4. OpenClaw 的 gateway 启动大概需要 15s,FastClaw 秒级启动


FastClaw 本身是为云原生多租户场景而设计的 Agent 运行框架,同样也适用本地运行场景。


继续完善,欢迎体验。❤️


https://fastclaw.ai


文章来自于"艾逗笔",作者 "艾逗笔"。

AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
OWL

【开源免费】OWL是一个完全开源免费的通用智能体项目。它可以远程开Ubuntu容器、自动挂载数据、做规划、执行任务,堪称「云端超级打工人」而且做到了开源界GAIA性能天花板,达到了57.7%,超越Huggingface 提出的Open Deep Research 55.15%的表现。

项目地址:GitHub:https://github.com/camel-ai/owl

2
OpenManus

【开源免费】OpenManus 目前支持在你的电脑上完成很多任务,包括网页浏览,文件操作,写代码等。OpenManus 使用了传统的 ReAct 的模式,这样的优势是基于当前的状态进行决策,上下文和记忆方便管理,无需单独处理。需要注意,Manus 有使用 Plan 进行规划。

项目地址:https://github.com/mannaandpoem/OpenManus


3
智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。

项目地址:https://github.com/Significant-Gravitas/AutoGPT


【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

4
RAG

【开源免费】graphrag是微软推出的RAG项目,与传统的通过 RAG 方法使用向量相似性作为搜索技术不同,GraphRAG是使用知识图谱在推理复杂信息时大幅提高问答性能。

项目地址:https://github.com/microsoft/graphrag

【开源免费】Dify是最早一批实现RAG,Agent,模型管理等一站式AI开发的工具平台,并且项目方一直持续维护。其中在任务编排方面相对领先对手,可以帮助研发实现像字节扣子那样的功能。

项目地址:https://github.com/langgenius/dify


【开源免费】RAGFlow是和Dify类似的开源项目,该项目在大文件解析方面做的更出色,拓展编排方面相对弱一些。

项目地址:https://github.com/infiniflow/ragflow/tree/main


【开源免费】phidata是一个可以实现将数据转化成向量存储,并通过AI实现RAG功能的项目

项目地址:https://github.com/phidatahq/phidata


【开源免费】TaskingAI 是一个提供RAG,Agent,大模型管理等AI项目开发的工具平台,比LangChain更强大的中间件AI平台工具。

项目地址:https://github.com/TaskingAI/TaskingAI

5
prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。

项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md

在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0