Agent微调复活？英伟达开源8B新模型带飞GPT-5：在HLE狂卷37分，还把成本打下来

9998点击 2025-12-08 08:51

当问题又深又复杂时，一味上最强模型既贵又慢。测试时扩展能想得更久，却不一定想得更对。

最近，来自英伟达和香港大学的研究员提出一种新范式：用一个8B小模型当指挥家，把代码解释器、网络搜索、数学模型、甚至更强的大模型当作乐手，按需编排、分工合作，用强化学习把“正确、便宜、合你心意”三件事同时做到。

在人类最后一场考试（Humanity’s Last Exam）上，指挥家 Orchestrator-8B以 37.1% 的成绩超过GPT-5（35.1%），还更省2.5×计算成本；在τ²-Bench与FRAMES上同样全面领先，成本却只有对手的大约三成。

为什么需要Agent微调？

只靠提示词也可以搭建一个多智能体系统，但是论文发现，依赖提示词的系统，存在着两大偏见：

自增强偏见：模型倾向“找自己家族的人帮忙”；例如GPT-5倾向于调用GPT-5-mini，造成性能下降。
他增强偏见：无脑调用“最强模型”，成本爆表。例如Qwen3-8B大量把活交给GPT-5，不管代价如何。

这两种偏见的存在都会让一个大模型“自我调度”往往失灵：因此，论文提出使用强化学习训练指挥家agent，通过多重奖励来提升效果和效率。

ToolOrchestra：统一接口 + 多轮编排 + 强化学习三重奖励

ToolOrchestra的核心是把各种工具（网页/本地检索、代码执行、数学与通用 LLM 等）统一成一个JSON接口，让8B指挥家能在多轮回合里先思考、再调用、再读回馈，直到收敛。训练上，使用GRPO强化学习，ToolOrchestra让模型同时最大化三种奖励：

1 正确性（任务是否解决）；

2 效率（货币/时延罚项）；

3 用户偏好（你更爱本地检索还是云搜索，更看重速度还是成本）。

Agent微调复活？英伟达开源8B新模型带飞GPT-5：在HLE狂卷37分，还把成本打下来

为了配合强化学习训练，论文还打造了一个合成数据集ToolScale：先由 LLM生成领域数据库与API，再自动合成“任务—黄金动作序列”，并通过执行正确性、过程完整性等可验证标准筛选。覆盖金融、医疗、出行、教育等10个领域，为端到端RL提供真实而丰富的环境。

Agent微调复活？英伟达开源8B新模型带飞GPT-5：在HLE狂卷37分，还把成本打下来

实验亮点：更强、更省，还更稳

主赛道：

HLE（人类最后一场考试）：Orchestrator-8B 37.1% ＞ GPT-5（35.1%）。
FRAMES（事实推理）：Orchestrator-8B 76.3 ＞ GPT-5（74.0）。
τ²-Bench（复杂工具调用）：80.2 ＞ GPT-5（77.7）。

同时平均成本仅9.2美分，时延8.2分钟，显著低于GPT-5。

Agent微调复活？英伟达开源8B新模型带飞GPT-5：在HLE狂卷37分，还把成本打下来

成本—效果曲线

在同等预算下，Orchestrator-8B的准确率曲线始终在GPT-5、Claude 等曲线之上；相当准确率下花得更少。

Agent微调复活？英伟达开源8B新模型带飞GPT-5：在HLE狂卷37分，还把成本打下来

不“迷信最强”而是“各尽其用”。指挥家不会一味狂点GPT-5，而是平衡调用：本地/网页检索、代码执行、专长模型（如数学/编程）与通用LLM各司其职，用最省的刀切最对的菜。
泛化到“新乐手”也不慌。即便换成训练时没见过的工具/模型组合，指挥家依旧能从模型描述推断其强弱与擅长领域，维持最优性价比。
听你的：偏好对齐，对“更私的本地检索/更快/更省”等偏好，指挥家比强基座更能遵命行事，把“合你心意”从口号变成指标。

新范式：Orchestration agent微调+多agent多工具调用

这篇论文给解决复杂的任务提供了一个新的范式，从“一个大模型包打天下”，到“小模型+工具+专家模型的复合系统”。从实用角度来看，把昂贵的最好的大模型留给真正难点，其余交给便宜、高效的工具链，稳定、可控、可落地。对于企业客户来说，这套系统在多个场景里都可以直接应用：

场景 1：企业内部问答/报表分析——默认用本地索引+代码沙盒完成 80% 工作，只在遇到歧义/复杂推理时短暂“借力”强模型。
场景 2：研发检索/调研——设定“时间上限/成本上限”与“来源偏好”（本地/公开），让指挥家边走边权衡。
场景 3：Agent工作流——把函数/工具都纳入统一接口，交给指挥家端到端编排，而不是靠写死的if-else。

Orchestrator-8B不是“更大的大模型”，而是更像一位懂乐谱、听细节、会省钱的“工具乐队指挥家”。当智能从单体走向复合系统，我们更需要这样的“协调者”，在正确率、成本、时延与偏好之间，给出最优解。

目前，论文已经开放全部代码、模型与数据，方便学界与产业跟进。

论文: https://arxiv.org/abs/2511.21689

代码: https://github.com/NVlabs/ToolOrchestra/

模型: https://huggingface.co/nvidia/Orchestrator-8B

数据: https://huggingface.co/datasets/nvidia/ToolScale

文章来自于“量子位”，作者 “Orchestrator团队”。

关键词: AI新闻 , 模型训练 , Orchestrator-8B , Orchestrator

AITNT资源拓展

根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考

AI代理

【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务，如比较价格、添加购物车、回复各种社交媒体等。
项目地址：https://github.com/browser-use/browser-use

AI工作流

【开源免费】字节工作流产品扣子两大核心业务：Coze Studio（扣子开发平台）和 Coze Loop（扣子罗盘）全面开源，而且采用的是 Apache 2.0 许可证，支持商用！
项目地址：https://github.com/coze-dev/coze-studio

【开源免费】n8n是一个可以自定义工作流的AI项目，它提供了200个工作节点来帮助用户实现工作流的编排。
项目地址：https://github.com/n8n-io/n8n
在线使用：https://n8n.io/（付费）

【开源免费】DB-GPT是一个AI原生数据应用开发框架，它提供开发多模型管理（SMMF）、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL（智能体工作流编排）等多种技术能力，让围绕数据库构建大模型应用更简单、更方便。
项目地址：https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file


【开源免费】VectorVein是一个不需要任何编程基础，任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤，并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。
项目地址：https://github.com/AndersonBY/vector-vein?tab=readme-ov-file
在线使用：https://vectorvein.ai/（付费）

智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的（AI Agents）项目。用户创建的智能体能够自动执行各种任务，从而让AI有步骤的去解决实际问题。
项目地址：https://github.com/Significant-Gravitas/AutoGPT

﻿【开源免费】MetaGPT是一个“软件开发公司”的智能体项目，只需要输入一句话的老板需求，MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色，包括产品经理 / 架构师 / 项目经理 / 工程师，MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址：https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

微调

【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台，可以对大语言模型（LLM）和多模态图文模型（VLM）进行预训练和轻量级微调。XTuner 支持多种微调算法，如 QLoRA、LoRA 和全量参数微调。
项目地址：https://github.com/InternLM/xtuner

prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法，编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词，进而高质量的帮助用户通过AI解决问题。
项目地址：https://github.com/langgptai/LangGPT/blob/main/README_zh.md
在线使用：https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0