UC伯克利联合斯坦福提出「Combee」：蜂群Agent的Prompt Learning正式进入并行时代！

7897点击 2026-05-05 09:48

Agent正在进入并行时代。Claude Code、OpenClaw等具有代表性的系统都在让多个Agent同时工作。Prompt Learning的价值，就是让一组Agent在运行中持续沉淀经验。

区别于Prompt Engineering的地方。不是部署前写好一段提示词，而是让Agent在执行任务后反思轨迹，并把经验更新到Prompt、Playbook、Skills等上下文资产中。模型权重不变，但系统行为会持续进化。

UC伯克利联合斯坦福提出的Combee，正是为此而来。它把Prompt Learning从低并发、顺序式更新，推进到高并发、分布式经验聚合，并已在ACE和GEPA中完成验证。

UC伯克利联合斯坦福提出「Combee」：蜂群Agent的Prompt Learning正式进入并行时代！

我也用GEPA + Combee做了一次ClawTeam协作优化实践，让它从多Agent执行轨迹中优化Leader Agent的协作规则。下面先从Combee揭示的核心问题讲起：为什么Agent并行越高，Prompt Learning反而越容易失效。

项目地址：https://arxiv.org/abs/2604.04247v1

Prompt Learning并行的核心挑战：上下文过载

在讨论Combee之前，您需要先了解尝试扩展提示学习规模时会遇到怎样的阻碍。

针对并行化学习，一种最直观的朴素方法是直接增加批次大小（Batch Size）。在这里，“批次大小”指的是在生成一次全局上下文更新之前，系统并行收集和聚合的智能体轨迹或反思的数量。虽然这种做法在逻辑上非常简单，但在实际运行中却遭遇了严重的问题，研究者将这一现象定义为“上下文过载”（Context Overload）。

UC伯克利联合斯坦福提出「Combee」：蜂群Agent的Prompt Learning正式进入并行时代！

当批次大小增加时，负责聚合信息的LLM（聚合器）必须在同一时间内将极其庞大且来源多样的反思经验提炼成单一的上下文更新。研究者发现，即使所有的反思内容加起来完全没有超出大模型的上下文窗口限制（实验中使用的DeepSeek-V3.1模型具备128K的上下文窗口），模型依然会产生严重的性能退化。这排除了简单的“文本截断”导致信息丢失的可能。实际上，聚合器在面对大量并发反思时，似乎执行了一种“有损压缩”：它会默认只保留那些宽泛的、通用的表面模式，而彻底丢弃了那些具体且高价值的细粒度洞察。而正是这些具体的洞察，才是驱动智能体在下游任务中提升准确率的核心要素。

研究者通过一系列严格的测试，量化并证明了这种由朴素扩展带来的信息损失：

UC伯克利联合斯坦福提出「Combee」：蜂群Agent的Prompt Learning正式进入并行时代！

数值推理任务上的灾难性退化： 在Formula （结构化财务报表数值推理）数据集上，随着批次大小增加，聚合器生成的上下文更新条目数量呈现单调递减趋势。当批次大小为1（顺序执行）时，系统能够生成264条更新；而当批次大小增加到100时，更新条目锐减至21条。与此对应，模型的准确率也从87.0% 暴跌至72.5%。
细粒度实体识别任务的崩溃： 在FiNER（金融实体识别）数据集中，批次大小从1增加到125时，更新条目从246条暴跌至11条，准确率从76.0% 下降至70.6%。
复杂智能体基准的失效： 在AppWorld这一多步骤API调用任务中，从批次1扩展到批次40，系统得分从58.1降至55.7，这一表现几乎回退到了完全不使用提示学习的基线水平（基线得分为53.3）。
高价值经验规则的消亡： 在ACE框架中，每一条被学习到的系统提示词规则都会在推理时接受评估，如果有益则被标记为“helpful”(h)。在Formula测试中，顺序学习（批次1）产生的手册包含19条的高价值规则，最高单条命中16次。但在朴素扩展（批次100）下，没有任何一条规则能够达到的标准（所有规则的总有益命中次数仅为5次）。

这揭示了一个深层的矛盾：盲目增加并行度确实减少了训练时间，但这种朴素的聚合方式摧毁了让提示学习发挥作用的细粒度知识。较小的批次大小只能带来微不足道的加速，而真正能带来加速的大批次却会导致模型质量崩溃。

Combee：Map-Shuffle-Reduce范式

为了解决上述的“质量与延迟”权衡难题，研究者设计了Combee框架。这是一个借鉴了分布式系统中经典Map-Shuffle-Reduce范式的提示学习系统。在Combee的工作流中：多个智能体在Map阶段并行处理不同的上下文分片并产生反思；在Shuffle阶段，这些反思被复制和混洗以防止信息丢失；最后在Reduce阶段，通过层次化的扫描算法将局部更新安全地合并为全局上下文。

具体而言，Combee包含了三个核心的系统组件：

UC伯克利联合斯坦福提出「Combee」：蜂群Agent的Prompt Learning正式进入并行时代！

机制一：并行扫描聚合 (Parallel Scan Aggregation)

这是Combee克服“上下文过载”的核心算法组件。为了避免将所有轨迹反思一次性塞给聚合器导致其信息处理能力崩溃，Combee采用了一种多级并行扫描（Multi-level parallel scan）算法来进行经验聚合。

UC伯克利联合斯坦福提出「Combee」：蜂群Agent的Prompt Learning正式进入并行时代！

层级划分策略： 给定n条并行生成的轨迹，Combee会首先将它们划分为k个子组（Subgroups），每个子组包含条轨迹。
局部到全局的合并： 系统不要求聚合器一口气处理n条反思，而是先让聚合器在每个子组内部，将属于该组的反思提炼成局部的上下文更新。随后，Combee进一步将这k个局部上下文更新合并为本轮迭代的单一全局更新。
数学设定与根号法则： 这种设计在概念上类似于并行计算领域用于执行前缀和操作的算法。默认情况下，Combee将子组数量k设置为。这一设定的精妙之处在于，它保证了聚合树每一层的节点处理的信息数量级是相近的：第一层节点处理条反思，第二层节点处理个局部更新。研究者的实验也证实，这种分组策略能够实现最优的保留质量。

机制二：增强型混洗 (Augmented Shuffling)

在提示学习（如GEPA和ACE）中，智能体的“反思”（Reflections）数据虽然Token数量不多，但其信息密度极高，包含了智能体自我改进不可或缺的纠错逻辑和洞察。为了在大规模并行学习中充分挖掘这些高密度信息而不发生遗漏，Combee引入了增强型混洗机制。

UC伯克利联合斯坦福提出「Combee」：蜂群Agent的Prompt Learning正式进入并行时代！

数据复制与随机分发： 给定一组生成的反思集合，Combee会将集合中的每一条反思复制p次（默认参数设定为）。
模拟“自一致性”： 随后，系统对这个经过增强扩充的集合进行随机混洗（Shuffle），然后再分发给负责执行聚合的各个工作节点。这一设计的底层哲学与大模型推理中的“自一致性”（Self-consistency）原则相呼应：通过赋予每一条关键反思多次参与不同局部聚合组的机会，系统大幅增加了聚合器捕捉和学习到这些关键洞察的概率。这极大地增强了高批次大小下并行学习管道的鲁棒性。

机制三：动态批次大小控制器 (Dynamic Batch Size Controller)

并行扫描和增强混洗确保了学习质量不会因批次的增加而崩溃。因此，如何选择批次大小，本质上变成了一个关于“速度”的优化问题：批次越大，系统在每个训练轮次（Epoch）的延迟越低。但如同分布式训练中“临界批次大小”的概念一样，随着批次持续增加，延迟降低的边际收益会迅速递减。为了在获得实质性加速的同时避免触发潜在的质量降级，Combee配备了一个全自动的动态批次大小控制器。

UC伯克利联合斯坦福提出「Combee」：蜂群Agent的Prompt Learning正式进入并行时代！

系统性能分析 (Profiling)： 在运行初期，控制器会在一组预设的候选批次大小集合下执行试探性迭代。对于每一个候选批次，控制器测量其实际运行延迟，并通过公式估算出整个训练集的预期耗时。
建立幂律延迟模型： 随后，系统通过测得的数据点拟合出一条幂律延迟曲线（Power-law delay curve）：
计算最优点： 系统设定了一个边际延迟降低的固定阈值T（在实验中，T被设定为延迟曲线最陡峭斜率的1.6%）。通过求解导数方程，控制器能够精确计算出停止增加批次大小的临界点：超过这个点后，盲目增加计算资源带来的时间收益将微乎其微。

实验验证：在速度与质量之间打破权衡

研究者在多种具有挑战性的环境中对Combee进行了严格的评估。实验主要采用DeepSeek-V3.1作为基础模型，并将Combee构建在ACE和GEPA两个主流的提示学习框架之上。

智能体基准测试 (Agentic Benchmarks)

在此类测试中，智能体需要在复杂环境中执行多步API调用或编写代码。

UC伯克利联合斯坦福提出「Combee」：蜂群Agent的Prompt Learning正式进入并行时代！

领域特定任务 (Domain-Specific Benchmarks)

测试涵盖了两个金融NLP数据集：FiNER（细粒度实体识别）和Formula（结构化报表数值推理）。由于训练样本量巨大，研究者在此启用了动态批次大小控制器。

UC伯克利联合斯坦福提出「Combee」：蜂群Agent的Prompt Learning正式进入并行时代！

结合GEPA框架：在FiNER上，使用朴素扩展的批次100设置会导致准确率完全低于未经过提示学习的基础模型。相比之下，Combee稳定站在了帕累托前沿，不仅在FiNER上匹配了最佳的固定批次准确率，在Formula上也以不到一半的时间实现了同等精度。
结合ACE框架：Combee取得了在Formula和FiNER上的最高准确率，同时训练速度比同等质量基线快2.4倍以上。
其他缓解策略的失效：研究者还对比了Top-K检索和摘要法（Summarization），结果表明这两种常规策略的生成质量远逊于Combee。

消融实验与模型泛化

UC伯克利联合斯坦福提出「Combee」：蜂群Agent的Prompt Learning正式进入并行时代！

动态控制器的必要性：在使用固定批次大小时，系统可能被迫选择较小的批次以保证质量，导致延迟增加。使用动态控制器能确保系统始终处于效率与质量的最佳平衡点。
增强混洗的必要性：移除增强混洗机制后，实验发现质量会出现剧烈波动，且整体水平显著差于完整版的Combee。
基础模型泛化：研究者将Combee应用于参数量庞大的GPT-OSS 120B模型上。实验证明，批次控制器和并行扫描聚合机制能够无缝跨模型家族迁移，依然呈现出优于固定批次基线的性能表现。

深度剖析：为何朴素并行会丢失关键知识？

为您提供一个直观的视角来理解上下文过载的具体破坏力。研究者在论文的附录E中完整展示了模型生成的操作手册（Playbook）。这些细节直观解释了质量差距的来源。

知识粒度的毁灭：Formula任务对比

在处理涉及复杂计算的Formula数据集时，高质量的提示规则是确保存保下游准确率的关键。

UC伯克利联合斯坦福提出「Combee」：蜂群Agent的Prompt Learning正式进入并行时代！

通过多级并行扫描和增强混洗，Combee避免了底层LLM由于输入反思数量过于庞大而强行触发的“有损压缩”。每一条关于公式运用、特定领域陷阱的经验，都被完整地提炼并保存到了最终的上下文中。

实践：用Combee优化“ClawTeam”协作

为了验证这套框架的真实效能，我在本地环境中部署了集成Combee的GEPA框架，并对其进行了一次最小闭环的探索性实践。

在这次实践中，执行端我使用了ClawTeam配合OpenClaw作为智能体组织框架，底层搭载通过oMLX部署的本地开源模型 Qwen3.6-35B-A3B-UD-MLX-4bit。它们负责具体的干活。优化端采用GEPA搭载Combee作为上层扩展框架，并调用 DeepSeek-V4-Pro 作为优化器与反思模型。

UC伯克利联合斯坦福提出「Combee」：蜂群Agent的Prompt Learning正式进入并行时代！

任务目标与Trace（轨迹）提取

ClawTeam的测试任务目标是：修复一个损坏的AI科技内容流水线Python仓库。

系统分配了三个各司其职的Agent：

tech-lead：技术主管，负责任务分发与代码合并。
python-dev：开发人员，负责在隔离环境中修改生产代码。
qa-dev：测试人员，负责运行测试与补充回归用例。

什么是Trace（执行轨迹）？ 在这个任务中，三个Agent之间的相互沟通信息、分支合并记录、pytest 失败日志，共同构成了一次完整的Trace。这些记录会全部喂给Combee，作为它进行反思和优化的“原材料”。

评判基准

在测试初期，我发现了一个多Agent协作中的典型陷阱：如果只看最终的 pytest 是否通过，系统很容易给出高分。因为 tech-lead 往往会越权，直接自己动手把代码改了。

这显然违背了建立“蜂群”的初衷。因此，Combee的评价函数被我设定了严格的复合打分标准：

最终测试通过比例
整体任务完成度
团队协调状态
协作质量（核心权重）： 必须检测到 python-dev 和 qa-dev 真正被调度执行、分支被切实合并，且 tech-lead 绝对没有越权修改生产代码。

优化过程与最终蜕变

UC伯克利联合斯坦福提出「Combee」：蜂群Agent的Prompt Learning正式进入并行时代！

基线测试（Baseline）： 初始的Leader提示词得分为 0.85。虽然最终代码跑通了，但 tech-lead 越权修改了代码，导致真实的协作质量得分为0。系统处于一种“能跑，但毫无团队协作”的状态。
Combee介入优化： GEPA/Combee读取了这些不合格的协作Trace，并进行了反思。它发现问题出在技术主管的协调策略上。
结果提升： 经过一轮迭代，Combee成功生成了全新的Leader协作守则（如截图所示）。新守则强制确立了严格的流水线纪律：明确规定Leader只能发送错误日志给开发、必须等待分支 READY 后再合并、全程禁止自己写代码。

最终，这个新版本在验证集上拿到了 1.0 的满分。四个维度的指标全部达标。

UC伯克利联合斯坦福提出「Combee」：蜂群Agent的Prompt Learning正式进入并行时代！

小结：受限于本地计算设备的算力瓶颈，我的本次测试仅调度了3个Agent，属于一次验证机制的最小闭环探索。它无法完全复现论文中那种成百上千个Agent同时并发的高压极限实验。但这套闭环依然清晰地证明了：Combee不仅能优化单点能力，更能切实有效地重塑多智能体系统的协作规范。

宏观视角：提示学习与分布式训练的等价映射

在论文的附录中，研究者提出了一个极具启迪性的宏观视角：大规模的并行提示学习系统，可以被深刻地类比为经典机器学习中的“分布式训练”。这一点在GEPA官方博客的末尾也有写到，感兴趣您可以看下：https://gepa-ai.github.io/gepa/blog/2026/04/09/gepa-at-scale-with-combee/

UC伯克利联合斯坦福提出「Combee」：蜂群Agent的Prompt Learning正式进入并行时代！

在传统的分布式模型训练中，计算任务被拆分给多个工作节点。每个节点处理自身的那一小块数据（Data Shard），并独立计算出本地的梯度（Gradients）。随后，参数服务器（Parameter Server）会定期对这些梯度进行同步或异步聚合，从而实现全局模型权重的更新，而不需要任何单个节点遍历整个数据集。

如果您把这个过程套用到Combee构建的范式中，您会发现一种优雅的对称性：

上下文即梯度： 智能体在处理任务后提炼出的局部“上下文”经验（手册、规则、提示词），就等价于分布式训练中的“局部梯度”。它们都是一种学习信号，指导着系统在未来遇到相似输入时应该如何表现。
聚合上下文即梯度聚合： Combee在Reduce阶段跨节点收集、合并这些文本规则的过程，等同于参数服务器进行的梯度聚合操作。
参数冻结下的无限扩展： 最重要的是，这套机制使得系统能够在完全不修改基础大模型内部网络权重参数的情况下，极大地扩展了系统的学习容量与处理吞吐量。

这种类比确立了上下文（Context）作为一种核心学习媒介的地位。许多在分布式计算领域被验证为极其高效的系统级优化原则（如聚合策略、通信效率控制、一致性权衡），现在完全可以被平移并应用于大语言模型提示学习的系统设计中。

结语

处理信息的吞吐量始终是限制系统迭代效率的核心。传统的单线程提示学习虽然能够提升智能体能力，但漫长的训练时间让其难以适应工业级的部署需求。

Combee通过引入并行扫描聚合、增强型混洗机制和动态批次大小控制，直接解决了困扰该领域的“上下文过载”问题。实验数据证实，它可以在忽略成本差异的前提下，实现大幅度的速度提升，同时维持甚至超越原有的学习质量。

可以预见，随着基于大语言模型的多智能体协作日益成熟，提示学习正步入一个全新的规模化时代。Combee作为底层的架构级解决方案，迈出了让高并发、自进化智能体系统走向实用的关键一步。

文章来自于微信公众号 "AI修猫Prompt"，作者 "AI修猫Prompt"

关键词: AI新闻 , 模型训练 , Combee , 蜂群Agent

AITNT资源拓展

根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考

AI代理

【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务，如比较价格、添加购物车、回复各种社交媒体等。
项目地址：https://github.com/browser-use/browser-use

AI工作流

【开源免费】字节工作流产品扣子两大核心业务：Coze Studio（扣子开发平台）和 Coze Loop（扣子罗盘）全面开源，而且采用的是 Apache 2.0 许可证，支持商用！
项目地址：https://github.com/coze-dev/coze-studio

【开源免费】n8n是一个可以自定义工作流的AI项目，它提供了200个工作节点来帮助用户实现工作流的编排。
项目地址：https://github.com/n8n-io/n8n
在线使用：https://n8n.io/（付费）

【开源免费】DB-GPT是一个AI原生数据应用开发框架，它提供开发多模型管理（SMMF）、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL（智能体工作流编排）等多种技术能力，让围绕数据库构建大模型应用更简单、更方便。
项目地址：https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file


【开源免费】VectorVein是一个不需要任何编程基础，任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤，并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。
项目地址：https://github.com/AndersonBY/vector-vein?tab=readme-ov-file
在线使用：https://vectorvein.ai/（付费）

智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的（AI Agents）项目。用户创建的智能体能够自动执行各种任务，从而让AI有步骤的去解决实际问题。
项目地址：https://github.com/Significant-Gravitas/AutoGPT

﻿【开源免费】MetaGPT是一个“软件开发公司”的智能体项目，只需要输入一句话的老板需求，MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色，包括产品经理 / 架构师 / 项目经理 / 工程师，MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址：https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法，编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词，进而高质量的帮助用户通过AI解决问题。
项目地址：https://github.com/langgptai/LangGPT/blob/main/README_zh.md
在线使用：https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0