谷歌发布智能体Scaling Law：180组实验打破传统炼金术

6623点击 2025-12-12 10:27

智能体（Agent），即基于语言模型且具备推理、规划和行动能力的系统，正在成为现实世界 AI 应用的主导范式。

尽管其已被广泛采用，但决定其性能的原则仍未被充分探索，导致从业者只能依赖启发式经验，而非有原理依托的设计选择。

现在，谷歌的一篇新论文填补了这一空白！

他们通过大量实验找到了智能体的 Scaling Law，只不过他们将其称为 quantitative scaling principles，即定量扩展原则。

谷歌发布智能体Scaling Law：180组实验打破传统炼金术

论文标题：Towards a Science of Scaling Agent Systems
论文地址：https://arxiv.org/abs/2512.08296

具体来说，他们将这种扩展定义为智能体数量、协作结构、模型能力和任务属性之间的相互作用。

他们在四个不同的基准测试中对此进行了评估：Finance-Agent（金融推理）、BrowseComp-Plus（网络导航）、PlanCraft（游戏规划）和 Workbench（工作流执行）。

谷歌发布智能体Scaling Law：180组实验打破传统炼金术

利用五种典型的智能体架构（单智能体系统以及四种多智能体系统：独立型、中心化、去中心化、混合型），并在三个 LLM 家族（OpenAI, Google, Anthropic）中进行实例化，谷歌这个团队对 180 种配置进行了受控评估，标准化了工具、提示结构和 token 预算，以将架构效应从实施混杂因素中隔离出来。

谷歌发布智能体Scaling Law：180组实验打破传统炼金术

他们使用经验性的协作指标（包括效率、开销、错误放大和冗余）推导出了一个预测模型，该模型实现了交叉验证 R²=0.513，通过对任务属性建模而非过度拟合特定数据集，实现了对未见任务领域的预测。

是的，智能体的 Scaling Law 找到了！并且准确度还相当高，谷歌表示：「我们的框架在预测保留任务的最佳架构方面实现了 87% 的准确率。」这样一来，智能体的部署决策将第一次获得强有力的原则支撑。

谷歌发布智能体Scaling Law：180组实验打破传统炼金术

实验与结果：打破「人多力量大」的迷思

为了找到这套定量原则，谷歌团队没有仅仅停留在理论推导，而是进行了一场堪称暴力穷举的实证研究。

他们动用了三大模型家族（Google Gemini、OpenAI GPT、Anthropic Claude），在金融、网购、游戏规划等不同场景下进行了 180 组受控实验。

实验结果不仅令人意外，甚至颠覆了许多开发者的直觉。简单来说，他们发现了一些规律。

任务决定成败：有的场景是神助攻，有的是猪队友

过去人们常说「三个臭皮匠，顶个诸葛亮」，但这篇论文告诉我们：这完全取决于你们在干什么任务。

谷歌发布智能体Scaling Law：180组实验打破传统炼金术

红榜（适合组团）：在金融分析（Finance-Agent）这类任务中，多智能体协作是大杀器。中心化架构（有一个「指挥官」分派任务）能让性能暴涨 80.9%。为什么？因为这类任务可以拆分 —— 你查财报，我算汇率，他做总结，大家并行工作，效率极高。

黑榜（切忌组团）：在游戏规划（PlanCraft）这类任务中，所有多智能体架构都翻车了，性能惨跌 39% 到 70%。原因在于这类任务环环相扣（必须先砍树，才能做木板），强行把流程拆给不同的人，光是沟通成本就把推理能力消耗殆尽了。

三大隐形杀手：什么在阻碍智能体变强？

通过对数据的深度挖掘，谷歌团队量化了阻碍智能体扩展的三大核心因素：

第一，工具越多，协作越难（工具-协作权衡）

如果任务需要用到大量工具（比如 16 个以上的 API），再引入多智能体协作就是一场灾难。实验数据显示，工具密集的任务会因巨大的沟通开销而不仅没变快，反而变慢、变笨。

第二，能力有天花板（能力饱和效应）

这是最反直觉的一点：如果单个智能体已经够聪明了，就别再给它找帮手了。数据表明，当单智能体的基线准确率超过 45% 时，再增加智能体进行协作，收益往往是负的。所谓「帮倒忙」，在 AI 世界里是真实存在的。

第三，没有指挥官，错误会指数级放大

如果你让一群智能体各自为战（独立型架构），错误会被放大 17.2 倍 —— 因为没人检查，一个人的错会传给所有人。但如果引入一个「指挥官」进行中心化管理，错误放大率能被控制在 4.4 倍。这证明了在多智能体系统中，架构设计比单纯堆人数更重要。

模型性格测试：谁是最佳指挥官？

除了任务和架构，论文还发现了一个有趣的现象：不同厂商的模型有不同的协作性格。在选择团队成员时，你不能只看智商（IQ），还要看它们合不合群。

Google Gemini：擅长「层级管理」的执行官。Gemini 模型在中心化架构下表现出了惊人的适应性。在金融任务中，Gemini 的中心化协作带来了 +164.3% 的恐怖提升。数据表明，它最听指挥，执行力最强，且在不同架构下的性价比最为平衡。

OpenAI GPT：擅长「复杂沟通」的交际花。GPT 系列在混合型架构（Hybrid）中表现最佳。虽然混合架构的沟通成本很高，但 GPT 似乎拥有独特的「通信协同效应」（Communication Synergy），能驾驭复杂的交互网络，不仅能听指挥，还能搞定同级之间的横向沟通。

Anthropic Claude：稳健但敏感的保守派。Claude 对协作开销非常敏感，一旦沟通太复杂，成本就会飙升（每提升 1% 性能的成本是 Google 的 2 倍）。因此，它最适合简单直接的中心化架构，表现最稳（方差最小）。更有趣的是，它是唯一一个在「弱指挥官带强兵」（异构混合）模式下还能提升性能的模型，展现出了独特的容错性

谷歌发布智能体Scaling Law：180组实验打破传统炼金术

结果：这就是我们要找的「预测公式」

最终，基于上述发现，谷歌推导出了一个预测模型。这个模型不依赖玄学，而是基于效率、开销、错误放大率等硬指标。

谷歌发布智能体Scaling Law：180组实验打破传统炼金术

它的威力如何？在预测完全没见过的任务配置时，这套理论能以 87% 的准确率告诉你：对于当前的任务和模型，到底该用单打独斗，还是团队协作，亦或是某种特定的组队方式。

这标志着智能体系统设计正式告别了「炼金术」时代，进入了可计算、可预测的「化学」时代。

更多详情请访问原论文。

文章来自于“机器之心”，作者 “Panda”。

关键词: AI新闻 , 谷歌AI , 谷歌智能体 , 模型训练

AITNT资源拓展

根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考

AI代理

【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务，如比较价格、添加购物车、回复各种社交媒体等。
项目地址：https://github.com/browser-use/browser-use

AI工作流

【开源免费】字节工作流产品扣子两大核心业务：Coze Studio（扣子开发平台）和 Coze Loop（扣子罗盘）全面开源，而且采用的是 Apache 2.0 许可证，支持商用！
项目地址：https://github.com/coze-dev/coze-studio

【开源免费】n8n是一个可以自定义工作流的AI项目，它提供了200个工作节点来帮助用户实现工作流的编排。
项目地址：https://github.com/n8n-io/n8n
在线使用：https://n8n.io/（付费）

【开源免费】DB-GPT是一个AI原生数据应用开发框架，它提供开发多模型管理（SMMF）、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL（智能体工作流编排）等多种技术能力，让围绕数据库构建大模型应用更简单、更方便。
项目地址：https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file


【开源免费】VectorVein是一个不需要任何编程基础，任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤，并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。
项目地址：https://github.com/AndersonBY/vector-vein?tab=readme-ov-file
在线使用：https://vectorvein.ai/（付费）

智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的（AI Agents）项目。用户创建的智能体能够自动执行各种任务，从而让AI有步骤的去解决实际问题。
项目地址：https://github.com/Significant-Gravitas/AutoGPT

﻿【开源免费】MetaGPT是一个“软件开发公司”的智能体项目，只需要输入一句话的老板需求，MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色，包括产品经理 / 架构师 / 项目经理 / 工程师，MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址：https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md