ARPO：智能体强化策略优化，让Agent在关键时刻多探索一步

6943点击 2025-08-10 13:29

在可验证强化学习（RLVR）的推动下，大语言模型在单轮推理任务中已展现出不俗表现。然而在真实推理场景中，LLM 往往需要结合外部工具进行多轮交互，现有 RL 算法在平衡模型的长程推理与多轮工具交互能力方面仍存在不足。

为此，我们提出了全新的 Agentic Reinforced Policy Optimization（ARPO）方法，专为多轮交互型 LLM 智能体设计。

ARPO 首次发现模型在调用外部工具后会推理不确定性（高熵）显著增加的现象，并基于此引入了熵驱动的自适应 rollout 策略，增强对高熵工具调用步骤的探索。同时，通过引入优势归因估计，模型能够更有效地理解工具交互中各步骤的价值差异。在 13 个计算推理、知识推理和深度搜索等高难基准上，ARPO 在仅使用一半工具调用预算的情况下，仍显著优于现有样本级 RL 方法，为多轮推理智能体的高效训练提供了可扩展的新方案。

论文标题：Agentic Reinforced Policy Optimization

论文链接：https://arxiv.org/abs/2507.19849

代码仓库：https://github.com/dongguanting/ARPO

开源数据 & 模型：https://huggingface.co/collections/dongguanting/arpo-688229ff8a6143fe5b4ad8ae

目前不仅在 X 上收获了超高的关注度，同时荣登 Huggingface Paper 日榜，周榜第一名🏆！

ARPO：智能体强化策略优化，让Agent在关键时刻多探索一步

研究动机：

抓住工具调用后的高熵时刻

近年来，可验证奖励的大规模强化学习在单轮推理任务中充分释放了前沿大语言模型的潜力，表现亮眼。然而，在开放式推理场景下，LLM 不仅需要具备长程规划与自适应决策能力，还需与外部工具进行动态的多轮交互。这催生了 Agentic RL 这一新范式，将训练从静态求解转向动态的智能体 - 环境推理。现有 Agentic RL 方法多采用样本级算法（如 GRPO、DAPO），在固定特殊 token 下独立采样完整的工具调用轨迹，并基于最终输出奖励模型。但这种方式常因奖励稀疏、工具过用等问题导致多轮交互价值被低估，忽视了工具调用过程中每一步的细粒度行为探索。

通过对 LLM 在深度搜索任务中的 token 熵分布进行分析，研究发现模型在每次工具调用后的初始生成阶段熵值显著升高，说明外部工具反馈会引入高不确定性，而这正是现有方法未充分利用的探索契机。

ARPO：智能体强化策略优化，让Agent在关键时刻多探索一步

图 1：左图展示大模型在调用工具后的高熵现象，右图对比 ARPO 与基线性能

ARPO 框架：训练模型自主实现推理时的多工具调用

针对上述发现，我们提出 Agentic Reinforced Policy Optimization（ARPO），核心思想是在高熵工具调用步骤中，自适应地分支采样，探索更多多样化的推理路径。具体来说，我们的贡献如下：

我们量化了 LLM 在 Agentic 推理过程中的 token 熵变化，揭示了样本级 RL 算法在对齐 LLM 智能体方面的固有限制。

我们提出了 ARPO 算法，引入基于熵的自适应 rollout 机制，在保持全局采样的同时，在高熵工具调用步骤中鼓励分支采样。此外，ARPO 结合优势归因估计，帮助 LLM 更好地内化步骤级工具使用行为中的优势差异。

除了启发式动机，我们还从理论上论证了在 LLM 智能体训练中引入 ARPO 算法的合理性。

在 13 个高难基准上的实验表明，ARPO 在仅使用一半工具调用训练预算的情况下，性能稳定优于主流 RL 算法，为探索 Agentic RL 提供了可行性参考与实践启示。

工具调用的熵变现象：高熵时刻与探索困境

ARPO：智能体强化策略优化，让Agent在关键时刻多探索一步

图 2：跨数据集分析基于 LLM 的工具使用智能体的 token 熵变化与 token 频率分布

通过分析大型模型在结合工具执行复杂搜索与推理任务时的 token 熵值，我们发现以下几点：

1. 在每次工具调用后的前 10–50 个 token 内，熵显著上升。

2. 在推理的初始阶段，熵往往会增加，但仍低于大模型接收到工具调用反馈后的水平。

3. 搜索引擎的反馈引入的熵波动比代码编译器的执行反馈更大。

这些现象可以归因于外部反馈与模型内部推理之间的 token 分布转移，这甚至导致引入的推理不确定性超过原始输入的问题。此外，搜索引擎通常提供丰富的文本内容，而代码编译器输出则由确定性的数字组成，这导致前者的熵波动更大。

工具设计：多样化工具支撑 Agentic 推理

本研究聚焦于优化基于 LLM 的工具使用智能体的训练算法。在梳理现有 Agentic RL 研究后，我们选取三类具有代表性的工具，用于实证评估 ARPO 的有效性：

搜索引擎：通过执行网络搜索查询检索相关信息，支持本地及在线模式。

网页浏览智能体：访问并解析搜索引擎返回的网页链接，提取并总结关键信息以响应查询。

代码解释器：自动执行 LLM 生成的代码，若执行成功则返回结果，否则返回编译错误信息。

这些工具覆盖信息检索、内容解析与程序执行等多类功能，为多轮交互与复杂推理场景提供了强有力的支撑。

ARPO 算法：利用熵信号指导 LLM 逐步优化工具调用

基于熵的自适应 rollout 机制

ARPO 的核心思想在于结合全局采样与熵驱动的局部采样，在模型工具调用后不确定性升高的阶段加大探索力度，从而提升推理效果。其基于熵的自适应 rollout 机制包含四个关键步骤：

ARPO：智能体强化策略优化，让Agent在关键时刻多探索一步

图 3：ARPO 的基于熵驱动的自适应 rollout 机制，结合全局探索与局部高熵节点分支

ARPO：智能体强化策略优化，让Agent在关键时刻多探索一步

3. 基于熵的自适应分支

ARPO：智能体强化策略优化，让Agent在关键时刻多探索一步

优势归因估计

ARPO 的熵驱动自适应 rollout 会产生包含共享推理片段和分支路径的轨迹，这启发我们优化策略更新方式，更好地利用步骤级工具调用信息。

两种优势估计方式

1. 硬优势估计（Hard）

明确区分共享和分支 token，对共享部分计算平均优势，对分支部分单独计算：

对分支 token 的优势估计：

ARPO：智能体强化策略优化，让Agent在关键时刻多探索一步

对共享 token 的优势估计：

ARPO：智能体强化策略优化，让Agent在关键时刻多探索一步

2. 软优势估计（Soft）

ARPO：智能体强化策略优化，让Agent在关键时刻多探索一步

分层奖励设计

ARPO 的奖励函数综合考虑答案正确性、工具调用格式及多工具协作。如果模型在推理中使用了搜索（<search>）和代码（<python>）等多种工具，并保证答案正确且格式合规，会获得额外奖励，公式如下：

ARPO：智能体强化策略优化，让Agent在关键时刻多探索一步

其中：

ARPO：智能体强化策略优化，让Agent在关键时刻多探索一步

通过软优势估计与分层奖励机制，ARPO 在训练中能更平稳、更高效地优化多轮工具使用策略。

实验结果：10 + 综合推理任务评测

为了充分评估 ARPO 的泛化性和高效性，我们考虑以下三种测试集：

・ 计算型推理任务：评估模型的计算推理能力，包括 AIME24，AIME25，MATH500，GSM8K，MATH。

・ 知识密集型推理任务：评估模型结合外部知识推理的能力，包括 WebWalker，HotpotQA，2WIKI，MisiQue，Bamboogle。

・ 深度搜索任务：评估模型的深度搜索能力，包括 HLE，GAIA，SimpleQA，XBench。

ARPO：智能体强化策略优化，让Agent在关键时刻多探索一步

从实验结果可以发现：

ARPO 整体表现优于主流方法：ARPO 在大部分任务上准确率高于 GRPO、DAPO 等样本级 RL 方法，在工具调用密集任务（如 GAIA、HLE）中提升幅度更明显。

多任务保持稳定性能：ARPO 在计算、知识与搜索任务中均保持较好的表现，没有明显性能短板，验证其跨任务的适配能力。

实验：采样分析与工具调用效率评估

多轮采样能力提升模型表现

由于 Deepsearch 任务具有动态、多轮交互的特点，单纯使用 Pass@1 指标难以全面反映模型的工具调用潜力。我们进一步分析了 Pass@3 和 Pass@5 指标，发现无论是 8B 还是 14B 规模模型，在经过 ARPO 对齐训练后，均表现出持续提升和良好的规模效应。其中，14B 模型在 Pass@5 指标上表现尤为出色：

GAIA 达到 61.2%

HLE 达到 24.0%

XBench-DR 达到 59%

工具调用效率显著提升

在 Agentic RL 训练中，工具调用次数直接影响成本。我们以 Qwen2.5-7B 模型为例，将 ARPO 与 GRPO 方法进行对比：

ARPO 在整体准确率上优于 GRPO

同时仅使用了约一半的工具调用次数

ARPO：智能体强化策略优化，让Agent在关键时刻多探索一步

这得益于 ARPO 独特的基于熵的自适应采样机制，仅在高熵工具调用步骤进行分支采样，极大地扩展了工具行为的探索空间，同时降低了不必要的调用。

总结与未来展望

ARPO 算法有效提升了多轮工具推理代理的性能，解决了现有样本级 RL 方法在多轮交互中探索不足、泛化能力欠缺的问题。通过熵驱动自适应采样和优势归因机制，ARPO 能够在工具调用频繁、推理路径复杂的任务中实现更高效、更稳定的输出。未来，为持续提升 Agentic RL 模型的能力，仍有多个方向值得探索：

多模态 Agentic RL：ARPO 目前主要针对文本推理任务，在处理图像、视频等多模态信息方面仍有局限。未来可扩展至多模态任务中，探索模型在多模态场景下的工具调用与策略优化。

工具生态扩展：ARPO 已经验证了在多工具协作任务上的潜能。未来可引入更多类型的外部工具（如代码调试器、数据分析工具、实时 API 调用等），并通过工具使用策略优化进一步提升复杂任务表现。

大规模与实时部署：ARPO 展示了较高的训练效率和推理泛化性，未来可探索在更大规模模型和实时动态环境中的部署与适配，降低成本同时提升实用价值。

文章来自于微信公众号“机器之心”。

关键词: AI , 模型训练 , ARPO , 人工智能

AITNT资源拓展

根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考

AI代理

【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务，如比较价格、添加购物车、回复各种社交媒体等。
项目地址：https://github.com/browser-use/browser-use

智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的（AI Agents）项目。用户创建的智能体能够自动执行各种任务，从而让AI有步骤的去解决实际问题。
项目地址：https://github.com/Significant-Gravitas/AutoGPT

﻿【开源免费】MetaGPT是一个“软件开发公司”的智能体项目，只需要输入一句话的老板需求，MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色，包括产品经理 / 架构师 / 项目经理 / 工程师，MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址：https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

RAG

【开源免费】graphrag是微软推出的RAG项目，与传统的通过 RAG 方法使用向量相似性作为搜索技术不同，GraphRAG是使用知识图谱在推理复杂信息时大幅提高问答性能。
项目地址：https://github.com/microsoft/graphrag

【开源免费】Dify是最早一批实现RAG，Agent，模型管理等一站式AI开发的工具平台，并且项目方一直持续维护。其中在任务编排方面相对领先对手，可以帮助研发实现像字节扣子那样的功能。
项目地址：https://github.com/langgenius/dify

【开源免费】RAGFlow是和Dify类似的开源项目，该项目在大文件解析方面做的更出色，拓展编排方面相对弱一些。
项目地址：https://github.com/infiniflow/ragflow/tree/main

【开源免费】phidata是一个可以实现将数据转化成向量存储，并通过AI实现RAG功能的项目
项目地址：https://github.com/phidatahq/phidata

【开源免费】TaskingAI 是一个提供RAG，Agent，大模型管理等AI项目开发的工具平台，比LangChain更强大的中间件AI平台工具。
项目地址：https://github.com/TaskingAI/TaskingAI

AI搜索

【开源免费】MindSearch是一个模仿人类思考方式的AI搜索引擎框架，其性能可与 Perplexity和ChatGPT-Web相媲美。
项目地址：https://github.com/InternLM/MindSearch
在线使用：https://mindsearch.openxlab.org.cn/

【开源免费】Morphic是一个由AI驱动的搜索引擎。该项目开源免费，搜索结果包含文本，图片，视频等各种AI搜索所需要的必备功能。相对于其他开源AI搜索项目，测试搜索结果最好。
项目地址：https://github.com/miurla/morphic/tree/main
在线使用：https://www.morphic.sh/