在可验证强化学习(RLVR)的推动下,大语言模型在单轮推理任务中已展现出不俗表现。然而在真实推理场景中,LLM 往往需要结合外部工具进行多轮交互,现有 RL 算法在平衡模型的长程推理与多轮工具交互能力方面仍存在不足。
为此,我们提出了全新的 Agentic Reinforced Policy Optimization(ARPO)方法,专为多轮交互型 LLM 智能体设计。
ARPO 首次发现模型在调用外部工具后会推理不确定性(高熵)显著增加的现象,并基于此引入了熵驱动的自适应 rollout 策略,增强对高熵工具调用步骤的探索。同时,通过引入优势归因估计,模型能够更有效地理解工具交互中各步骤的价值差异。在 13 个计算推理、知识推理和深度搜索等高难基准上,ARPO 在仅使用一半工具调用预算的情况下,仍显著优于现有样本级 RL 方法,为多轮推理智能体的高效训练提供了可扩展的新方案。
目前不仅在 X 上收获了超高的关注度,同时荣登 Huggingface Paper 日榜,周榜第一名🏆!
近年来,可验证奖励的大规模强化学习在单轮推理任务中充分释放了前沿大语言模型的潜力,表现亮眼。然而,在开放式推理场景下,LLM 不仅需要具备长程规划与自适应决策能力,还需与外部工具进行动态的多轮交互。这催生了 Agentic RL 这一新范式,将训练从静态求解转向动态的智能体 - 环境推理。现有 Agentic RL 方法多采用样本级算法(如 GRPO、DAPO),在固定特殊 token 下独立采样完整的工具调用轨迹,并基于最终输出奖励模型。但这种方式常因奖励稀疏、工具过用等问题导致多轮交互价值被低估,忽视了工具调用过程中每一步的细粒度行为探索。
通过对 LLM 在深度搜索任务中的 token 熵分布进行分析,研究发现模型在每次工具调用后的初始生成阶段熵值显著升高,说明外部工具反馈会引入高不确定性,而这正是现有方法未充分利用的探索契机。
图 1:左图展示大模型在调用工具后的高熵现象,右图对比 ARPO 与基线性能
针对上述发现,我们提出 Agentic Reinforced Policy Optimization(ARPO),核心思想是在高熵工具调用步骤中,自适应地分支采样,探索更多多样化的推理路径。具体来说,我们的贡献如下:
图 2:跨数据集分析基于 LLM 的工具使用智能体的 token 熵变化与 token 频率分布
通过分析大型模型在结合工具执行复杂搜索与推理任务时的 token 熵值,我们发现以下几点:
1. 在每次工具调用后的前 10–50 个 token 内,熵显著上升。
2. 在推理的初始阶段,熵往往会增加,但仍低于大模型接收到工具调用反馈后的水平。
3. 搜索引擎的反馈引入的熵波动比代码编译器的执行反馈更大。
这些现象可以归因于外部反馈与模型内部推理之间的 token 分布转移,这甚至导致引入的推理不确定性超过原始输入的问题。此外,搜索引擎通常提供丰富的文本内容,而代码编译器输出则由确定性的数字组成,这导致前者的熵波动更大。
本研究聚焦于优化基于 LLM 的工具使用智能体的训练算法。在梳理现有 Agentic RL 研究后,我们选取三类具有代表性的工具,用于实证评估 ARPO 的有效性:
这些工具覆盖信息检索、内容解析与程序执行等多类功能,为多轮交互与复杂推理场景提供了强有力的支撑。
基于熵的自适应 rollout 机制
ARPO 的核心思想在于结合全局采样与熵驱动的局部采样,在模型工具调用后不确定性升高的阶段加大探索力度,从而提升推理效果。其基于熵的自适应 rollout 机制包含四个关键步骤:
图 3:ARPO 的基于熵驱动的自适应 rollout 机制,结合全局探索与局部高熵节点分支
3. 基于熵的自适应分支
优势归因估计
ARPO 的熵驱动自适应 rollout 会产生包含共享推理片段和分支路径的轨迹,这启发我们优化策略更新方式,更好地利用步骤级工具调用信息。
两种优势估计方式
1. 硬优势估计(Hard)
明确区分共享和分支 token,对共享部分计算平均优势,对分支部分单独计算:
对分支 token 的优势估计:
对共享 token 的优势估计:
2. 软优势估计(Soft)
分层奖励设计
ARPO 的奖励函数综合考虑答案正确性、工具调用格式及多工具协作。 如果模型在推理中使用了搜索(<search>)和代码(<python>)等多种工具,并保证答案正确且格式合规,会获得额外奖励,公式如下:
其中:
通过软优势估计与分层奖励机制,ARPO 在训练中能更平稳、更高效地优化多轮工具使用策略。
为了充分评估 ARPO 的泛化性和高效性,我们考虑以下三种测试集:
・ 计算型推理任务:评估模型的计算推理能力,包括 AIME24,AIME25,MATH500,GSM8K,MATH。
・ 知识密集型推理任务:评估模型结合外部知识推理的能力,包括 WebWalker,HotpotQA,2WIKI,MisiQue,Bamboogle。
・ 深度搜索任务:评估模型的深度搜索能力,包括 HLE,GAIA,SimpleQA,XBench。
从实验结果可以发现:
多轮采样能力提升模型表现
由于 Deepsearch 任务具有动态、多轮交互的特点,单纯使用 Pass@1 指标难以全面反映模型的工具调用潜力。我们进一步分析了 Pass@3 和 Pass@5 指标,发现无论是 8B 还是 14B 规模模型,在经过 ARPO 对齐训练后,均表现出持续提升和良好的规模效应。其中,14B 模型在 Pass@5 指标上表现尤为出色:
工具调用效率显著提升
在 Agentic RL 训练中,工具调用次数直接影响成本。我们以 Qwen2.5-7B 模型为例,将 ARPO 与 GRPO 方法进行对比:
这得益于 ARPO 独特的基于熵的自适应采样机制,仅在高熵工具调用步骤进行分支采样,极大地扩展了工具行为的探索空间,同时降低了不必要的调用。
ARPO 算法有效提升了多轮工具推理代理的性能,解决了现有样本级 RL 方法在多轮交互中探索不足、泛化能力欠缺的问题。通过熵驱动自适应采样和优势归因机制,ARPO 能够在工具调用频繁、推理路径复杂的任务中实现更高效、更稳定的输出。未来,为持续提升 Agentic RL 模型的能力,仍有多个方向值得探索:
文章来自于微信公众号“机器之心”。
【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务,如比较价格、添加购物车、回复各种社交媒体等。
项目地址:https://github.com/browser-use/browser-use
【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。
项目地址:https://github.com/Significant-Gravitas/AutoGPT
【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md
【开源免费】graphrag是微软推出的RAG项目,与传统的通过 RAG 方法使用向量相似性作为搜索技术不同,GraphRAG是使用知识图谱在推理复杂信息时大幅提高问答性能。
项目地址:https://github.com/microsoft/graphrag
【开源免费】Dify是最早一批实现RAG,Agent,模型管理等一站式AI开发的工具平台,并且项目方一直持续维护。其中在任务编排方面相对领先对手,可以帮助研发实现像字节扣子那样的功能。
项目地址:https://github.com/langgenius/dify
【开源免费】RAGFlow是和Dify类似的开源项目,该项目在大文件解析方面做的更出色,拓展编排方面相对弱一些。
项目地址:https://github.com/infiniflow/ragflow/tree/main
【开源免费】phidata是一个可以实现将数据转化成向量存储,并通过AI实现RAG功能的项目
项目地址:https://github.com/phidatahq/phidata
【开源免费】TaskingAI 是一个提供RAG,Agent,大模型管理等AI项目开发的工具平台,比LangChain更强大的中间件AI平台工具。
项目地址:https://github.com/TaskingAI/TaskingAI
【开源免费】MindSearch是一个模仿人类思考方式的AI搜索引擎框架,其性能可与 Perplexity和ChatGPT-Web相媲美。
项目地址:https://github.com/InternLM/MindSearch
在线使用:https://mindsearch.openxlab.org.cn/
【开源免费】Morphic是一个由AI驱动的搜索引擎。该项目开源免费,搜索结果包含文本,图片,视频等各种AI搜索所需要的必备功能。相对于其他开源AI搜索项目,测试搜索结果最好。
项目地址:https://github.com/miurla/morphic/tree/main
在线使用:https://www.morphic.sh/