让搜索Agent不「傻等」：人大团队依托扩散模型实现「一心二用」，边等搜索结果边思考，加速15%性能不减

7202点击 2026-03-02 10:00

传统的搜索Agent有个问题：想完了才去搜，搜的时候干等着，等完了再接着想。

就像你去餐厅点菜，非要把菜单研究透了才叫服务员，服务员去下单的时候你又呆坐着发愣，菜上了你才开始想下一道点什么。

正常人不是这样吃饭的。你会一边看菜单一边叫服务员，服务员去下单的时候你继续研究下一道菜点什么。

中国人民大学团队在论文DLLM-Searcher中，第一次让扩散大语言模型（dLLM）学会了这种“一心二用”的本事。

先说清楚问题出在哪

让搜索Agent不「傻等」：人大团队依托扩散模型实现「一心二用」，边等搜索结果边思考，加速15%性能不减

目前主流的搜索Agent，不管是Search-R1还是R1Searcher，用的都是ReAct框架。这个框架的执行流程是严格串行的：

想→调工具→等结果→再想→再调工具→再等……

每一轮里，“想”和“调工具”是模型一个token一个token从左到右吐出来的，等搜索引擎返回结果的时候模型完全闲着。多轮下来，延迟叠延迟，用户体验直接拉胯。

团队算了笔账：在多跳问答任务里，这种串行等待吃掉了大量的端到端时间。

那能不能让模型在等搜索结果的时候，继续想下一步？

自回归模型做不到。因为它的注意力是因果的，必须“先想清楚才能说出来”，你让它先输出工具调用再输出思考，性能会大幅下降：实验里Qwen3系列模型换了顺序后准确率明显掉点。

但扩散语言模型天生就能做到。

扩散模型凭什么能“一心二用”？

扩散大语言模型（dLLM）和传统自回归模型最大的区别在于：它不是从左到右一个个吐token的，而是所有位置同时“去噪”，逐步从一团马赛克里浮现出完整文本。

这意味着两件事：

第一，生成顺序是自由的。模型可以先把最重要的部分解码出来，其他部分慢慢补。

第二，模型“还没说出来”的时候就已经“想到了”。因为块内是双向注意力，即使思考部分还是一堆[MASK]，工具调用部分在解码时依然能利用到潜在的推理信息。

用论文里引用的一句话说：扩散模型在解码之前就已经知道答案了。但理论归理论。实际一试，现有的dLLM直接拿来当搜索Agent，全崩了。

原始dLLM有多拉胯？

团队拿当前最强的块扩散语言模型SDAR，直接套ReAct框架跑HotpotQA的500条测试题。

结果是：成功率0%。500题全在第一轮就因为格式错误挂掉了。

具体的崩法也很有“创意”——31.2%的情况下模型直接输出结束符，什么都不说；28.4%的情况想了半天但忘了调工具；17.8%的情况连标签都写不完整；还有7%写出了不合法的工具调用格式。

一句话总结：dLLM虽然有并行生成的潜力，但它既不会推理，也不会调工具。

让搜索Agent不「傻等」：人大团队依托扩散模型实现「一心二用」，边等搜索结果边思考，加速15%性能不减

两阶段训练：先教规矩，再教本事

为了把dLLM从“啥也不会”调教成合格的搜索Agent，团队设计了一套两阶段后训练流程。

第一阶段：Agentic SFT（监督微调）。让强模型（豆包Seed-1.8）先跑一遍搜索任务生成标准轨迹，筛掉答错的、格式不对的、推理不完整的，剩下3977条高质量轨迹喂给dLLM。

但这里有个技术难点：搜索轨迹里既有模型自己生成的“思考”和“工具调用”，也有搜索引擎返回的“工具响应”。这里只需要模型学前者，不需要它去记忆后者。

而且dLLM块内是双向注意力，如果不做处理，模型在训练时会偷看到同一个块里还没生成的搜索结果——这就像考试的时候答案就摊在旁边，训练时看得到，推理时看不到，直接导致训练和推理的不匹配。

团队为此专门设计了Agentic Noising：只对“思考”和“工具调用”部分加噪，搜索结果部分要么保留原样（当它在思考之前出现时，作为上下文），要么直接全部遮掉（当它和生成部分在同一个块里时，防止信息泄露）。配套的Agentic ELBO损失函数也只在需要学习的位置上计算，搜索结果位置完全不参与梯度回传。

第二阶段：Agentic VRPO（方差缩减的偏好优化）。用第一阶段训好的模型自己跑两遍，挑出“一对答对一对答错”的轨迹对，通过偏好学习进一步拉开正确和错误推理路径的差距。筛出2237组有效训练对，效果在所有数据集上都再涨了3个百分点以上。

P-ReAct：让工具调用插队

训练解决了“会不会”的问题，但“快不快”还需要一招。

这就是论文提出的P-ReAct（Parallel-Reasoning and Acting）：一个不需要额外训练的推理加速方案。

核心思路极其简洁：

第一步，预填充边界标记。在每轮生成开始时，不是给模型一整块[MASK]，而是提前在后半部分放好和两个锚点。这等于告诉模型：“这两个标记之间，是你要填工具调用的地方。”

第二步，给工具调用区域的置信度加偏置。扩散模型每一步会给所有位置的候选token打一个置信分，然后优先解码置信分最高的位置。P-ReAct在工具调用区域的置信分上统一加一个正偏置（α=0.5），人为拉高这些位置的优先级。

效果是：模型几乎100%会先把工具调用解码完毕，立刻发送给搜索引擎；然后在等搜索结果返回的这段时间里，继续填充思考部分。

让搜索Agent不「傻等」：人大团队依托扩散模型实现「一心二用」，边等搜索结果边思考，加速15%性能不减

论文里展示了一个真实案例的解码顺序：在第32步时，工具调用区域已经全部解码完成，而思考区域还全是[MASK]。直到最后阶段思考部分才被补全。模型真的实现了“先动手、后想明白”。

效果怎么样？

在HotpotQA、2WikiMultiHopQA、Bamboogle、Musique四个多跳问答基准上：

DLLM-Searcher的平均准确率达到57.0（ACC_R）/ 56.6（ACC_L），全面超越所有传统RAG方法，与自回归搜索Agent R1Searcher打成平手甚至小幅领先。

而且这个成绩是在P-ReAct加速模式下跑出来的。P-ReAct带来了14.77%到22.08%的端到端推理加速，性能几乎没有损失。

作为对比，让自回归模型（Qwen3系列）也尝试“先输出工具调用再输出思考”，结果准确率显著下降。这说明“先行动后思考”这件事，是扩散模型独有的结构性优势，自回归模型学不来。

更值得注意的是，DLLM-Searcher只用了不到8000条训练数据，就在域外数据集Bamboogle上也取得了68.8的高分，泛化能力相当强。

这意味着什么？

一直以来，扩散语言模型被认为是自回归模型的“潜力股替代品”，但在推理和Agent场景下一直表现拉胯。DLLM-Searcher第一次证明：经过针对性训练，dLLM不仅能追上自回归模型的推理能力，还能利用自身的并行生成优势做到自回归模型做不到的事，实现了真正的在等待时保持思考。

这给搜索Agent的效率优化打开了一条全新的路。

论文引用了Ray Kurzweil的一句话：“我们实际上在意识到自己做出决定之前就已经开始行动了。”扩散模型的解码机制，还真有点这个意思。

论文标题：
DLLM-Searcher: Adapting Diffusion Large Language Models for Search Agents
第一作者：
赵嘉浩、徐少轩（中国人民大学），孙忠祥（中国人民大学，项目负责人）
通讯作者：
徐君（中国人民大学）
arxiv：
https://arxiv.org/abs/2602.07035
github：
https://github.com/bubble65/DLLM-Searcher
项目主页：
https://bubble65.github.io/dllm-searcher-pub/

文章来自于微信公众号 "量子位"，作者 "量子位"

关键词: 模型训练 , Agent , AI搜索 , 人工智能 , DLLM-Searcher

AITNT资源拓展

根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考

智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的（AI Agents）项目。用户创建的智能体能够自动执行各种任务，从而让AI有步骤的去解决实际问题。
项目地址：https://github.com/Significant-Gravitas/AutoGPT

﻿【开源免费】MetaGPT是一个“软件开发公司”的智能体项目，只需要输入一句话的老板需求，MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色，包括产品经理 / 架构师 / 项目经理 / 工程师，MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址：https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

RAG

【开源免费】graphrag是微软推出的RAG项目，与传统的通过 RAG 方法使用向量相似性作为搜索技术不同，GraphRAG是使用知识图谱在推理复杂信息时大幅提高问答性能。
项目地址：https://github.com/microsoft/graphrag

【开源免费】Dify是最早一批实现RAG，Agent，模型管理等一站式AI开发的工具平台，并且项目方一直持续维护。其中在任务编排方面相对领先对手，可以帮助研发实现像字节扣子那样的功能。
项目地址：https://github.com/langgenius/dify

【开源免费】RAGFlow是和Dify类似的开源项目，该项目在大文件解析方面做的更出色，拓展编排方面相对弱一些。
项目地址：https://github.com/infiniflow/ragflow/tree/main

【开源免费】phidata是一个可以实现将数据转化成向量存储，并通过AI实现RAG功能的项目
项目地址：https://github.com/phidatahq/phidata

【开源免费】TaskingAI 是一个提供RAG，Agent，大模型管理等AI项目开发的工具平台，比LangChain更强大的中间件AI平台工具。
项目地址：https://github.com/TaskingAI/TaskingAI

AI搜索

【开源免费】MindSearch是一个模仿人类思考方式的AI搜索引擎框架，其性能可与 Perplexity和ChatGPT-Web相媲美。
项目地址：https://github.com/InternLM/MindSearch
在线使用：https://mindsearch.openxlab.org.cn/

【开源免费】Morphic是一个由AI驱动的搜索引擎。该项目开源免费，搜索结果包含文本，图片，视频等各种AI搜索所需要的必备功能。相对于其他开源AI搜索项目，测试搜索结果最好。
项目地址：https://github.com/miurla/morphic/tree/main
在线使用：https://www.morphic.sh/

微调

【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台，可以对大语言模型（LLM）和多模态图文模型（VLM）进行预训练和轻量级微调。XTuner 支持多种微调算法，如 QLoRA、LoRA 和全量参数微调。
项目地址：https://github.com/InternLM/xtuner