我们正处在一个AI Agent(智能体)爆发的时代。从简单的ReAct循环到复杂的Multi-Agent Swarm(多智能体蜂群),新的架构层出不穷。但在这些眼花缭乱的名词背后,开发者的工作往往更像是一门“玄学”,我们凭直觉调整提示词,凭经验增加Agent的数量,却很难说清楚为什么某个架构在特定任务上表现更好。

最近,来自Google Cloud AI的研究者Philip Stephens和Emmanuel Salawu发表了一篇极具分量的论文。他们做了一件工程界急需的事情:将这些凭直觉设计的Agent架构,统一到了一个严谨的“概率数学框架”之下。

这篇文章将带您深入剖析这篇论文。看看谷歌是如何用数学语言重新定义ReAct、控制流(Control Flow)和多智能体协作的。
在深入各种花哨的架构之前,研究者首先回归了原点:Agent到底是在做什么?
无论您的Agent是在写代码、做客服,还是在玩游戏,它的终极目标只有一个:在给定初始背景(Context)的情况下,最大化执行正确动作序列的概率。
研究者提出,Agent的运行过程本质上就是一条概率链(Probability Chain)。

这就好比您在走迷宫,每一步的选择都取决于您当前的位置和您之前的记忆。数学上,我们可以这样描述:

这个公式告诉我们:
将Agent视为概率链,意味着我们的设计工作不再是“教模型说话”,而是“操纵概率”。
如果您设计的架构(无论是加更多的Agent还是改Prompt),不能在数学上提高这个概率值,那么这种设计就是无效的。这为我们评估不同架构提供了一把通用的标尺。
目前最流行的Agent模式莫过于ReAct (Reasoning + Acting)。也就是让模型在行动之前先生成一段“Thought”(思考)。但您有没有想过,为什么多生成一段文字(思考),就能提高任务成功率?
研究者给出了数学上的解释。
在ReAct框架中,概率公式发生了变化。我们在状态s和动作a之间,插入了一个中间变量t(Thought)。

新的概率核心变成了:

这意味着:

研究者指出,ReAct的本质就是通过引入t,来提高选择正确a的条件概率。
虽然ReAct很有效,但论文中也毫不客气地指出了它的缺陷。

从数学上看,标准的ReAct循环本质上是一种“随机游走”(Random Walk)。
这就是为什么我们需要更复杂的架构,比如控制流或多智能体。




通俗理解: 如果把Agent比作考生,Prompt Engineering就是给考生发的“试卷说明书”。在简单模式下,整场考试只有一份说明书;在高级模式下,每一道大题都有一份专门定制的说明书。

通俗理解: 这是考生的“草稿纸管理策略”。ReAct是把所有草稿不加筛选地往下写,越写越乱;Context Engineering则是每做完一题,就整理、擦除或总结草稿,确保下一题开始时思路清晰。

通俗理解: 这是考生的“解题大脑”。你可以选择全程用“快思考”(直觉),也可以强制要求在某几步使用“慢思考”(列提纲、反复推敲、自我反思)。Inference Algorithms就是决定在什么时候用哪种脑子的策略。

这篇论文最精彩的部分,在于它提出了“自由度”(Degrees of Freedom)的概念。这张图在网上很火。

研究者认为,无论您在构建什么样的Agent,您手中真正能调节的“旋钮”其实只有5个。不同的架构(ReAct vs Multi-Agent),无非就是对这5个旋钮的不同配置。
让我们逐一拆解这5个优化杠杆:





有了上面这套理论,我们再来看现在的各种Agent架构,视野就完全不同了。研究者在论文中通过对比表格,清晰地展示了各架构的本质区别。


现在流行的LangGraph或各种Workflow工具,在数学上是在做什么?
多智能体不仅仅是把任务拆分,它引入了一个全新的优化维度,协作(Collaboration)。
这是论文最核心的理论贡献之一。研究者问了一个深刻的问题:为什么两个Agent配合往往比一个超级Agent更好?



公式如下:


这听起来很抽象,但请您这样理解: 协作和协商(Negotiation),本质上是在搜索最优的通信上下文。

研究者指出,这种“通过对话来动态调整上下文”的能力,实际上是在运行时(Runtime)动态微调系统的参数,而不需要重新训练模型。这就是多智能体系统强大的数学根源,它增加了一个巨大的、可优化的参数空间。
虽然多智能体协作听起来很美,但研究者非常冷静地泼了一盆冷水:协作是有成本的(Collaboration Costs)。
您增加的每一个Agent,每一次交互,都会带来:
为了解决这个问题,论文提出了一个修正后的目标函数。我们在设计Agent时,不能只看成功率,还要看“性价比”。


这个公式提醒我们:不要为了追求1%的概率提升,而引入过度复杂的协作流程。 一个优秀的Agent架构师,应该在这个公式中找到平衡点,设计出既高效又经济的系统。这也是上周五的文章中介绍的观点,感兴趣您可以看下:

读完这篇论文,最深刻的感受是它为AI Agent领域带来了一种秩序感。每一个决策是拆分Prompt,还是增加Agent交互,都可以映射到概率链上的具体变量。
希望这篇文章能帮助您透过数学的视角,重新审视您手中的Agent代码。下一次当您在优化Agent时,您调整的不再仅仅是文字,而是那条精妙的概率链。
文章来自于“AI修猫Prompt”,作者 “AI修猫Prompt”。
【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务,如比较价格、添加购物车、回复各种社交媒体等。
项目地址:https://github.com/browser-use/browser-use
【开源免费】字节工作流产品扣子两大核心业务:Coze Studio(扣子开发平台)和 Coze Loop(扣子罗盘)全面开源,而且采用的是 Apache 2.0 许可证,支持商用!
项目地址:https://github.com/coze-dev/coze-studio
【开源免费】n8n是一个可以自定义工作流的AI项目,它提供了200个工作节点来帮助用户实现工作流的编排。
项目地址:https://github.com/n8n-io/n8n
在线使用:https://n8n.io/(付费)
【开源免费】DB-GPT是一个AI原生数据应用开发框架,它提供开发多模型管理(SMMF)、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL(智能体工作流编排)等多种技术能力,让围绕数据库构建大模型应用更简单、更方便。
项目地址:https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file
【开源免费】VectorVein是一个不需要任何编程基础,任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤,并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。
项目地址:https://github.com/AndersonBY/vector-vein?tab=readme-ov-file
在线使用:https://vectorvein.ai/(付费)
【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。
项目地址:https://github.com/Significant-Gravitas/AutoGPT
【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md
【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台,可以对大语言模型(LLM)和多模态图文模型(VLM)进行预训练和轻量级微调。XTuner 支持多种微调算法,如 QLoRA、LoRA 和全量参数微调。
项目地址:https://github.com/InternLM/xtuner
【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。
项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md
在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0