自主深度研究DR代理究竟走向何方？四步操作「流程」让你不迷糊 |华为最新

8733点击 2025-08-23 12:02

华为诺亚方舟实验室最近联合香港大学发了一篇针对"Deep Research Agents"（深度研究代理）的系统性综述，在我的印象中，这是他们第二次发布关于Deep Research的综述论文。上一篇里提供了一个结构导向 (Structure-Oriented) 的视角，核心是“分类”。而今天的这篇论文提供了一个过程导向 (Process-Oriented) 的视角，核心是“流程” 如果您想了解整个领域的格局，知道各个公司推出的产品属于哪个流派，各自有什么优缺点，那么上一篇文章《华为、牛津联手发布万字报告，揭秘OpenAI、谷歌都在秘密布局的“DR代理”》提供了一个全面分析综述和“市场分析报告”。如果您想自己动手构建一个深度研究代理，那么今天的文章会为您提供一个清晰的“操作手册”或“蓝图”。它告诉您需要实现哪几个功能模块。

第一步，谋定而后动：一切始于“规划 (Planning)”

自主深度研究DR代理究竟走向何方？四步操作「流程」让你不迷糊 |华为最新

这个“规划”阶段就好像AI在真正动手前，给自己画了一张详细的作战地图，它不再是接到一个指令就莽撞地冲出去，而是先冷静地分析这个宏大的研究目标该如何拆解。您也可以看下之前的文章《全面思考，从目标到起点规划，提升LLM规划能力4%至24% |普林斯顿最新》

目标：此阶段旨在将用户提出的一个宽泛、高层次的研究问题，分解成一系列结构化的、可执行的子目标或子任务。它需要生成一个明确的路线图来指导后续的信息检索和内容综合。

挑战：主要挑战在于如何将模糊或开放性的问题分解成结构化计划，并确保计划的灵活性和可解释性，避免后续执行时出现偏差或错误。

方法分类：

基于结构化世界知识的规划：利用AI已有的先验知识（比如知识图谱）或通过“模拟推演”来预测不同行动路径的可行性，从而制定更稳健的计划。

作为可学习过程的规划：将规划本身视为一个学习任务，让代理通过与环境的互动、反馈（比如强化学习）或大规模训练来持续优化其自身的决策过程。

例子：比如，要研究“新能源汽车电池的技术趋势”，它会先规划出“1. 调研当前主流电池类型”、“2. 探索各类电池的技术瓶颈”、“3. 搜集前沿的电池技术论文”等一系列子任务，这整个过程确保了后续所有行动都有的放矢。

第二步，精准发问的艺术：“问题构建 (Question Developing)”

自主深度研究DR代理究竟走向何方？四步操作「流程」让你不迷糊 |华为最新

规划好了地图，下一步就是该怎么问路，这就是“问题构建”阶段的核心，它要求AI具备将一个抽象的子目标转化为一连串精准、高效的搜索查询的能力。

目标：针对规划阶段产生的每个子目标，生成一个或多个具体的、有针对性的检索查询（Search Queries），以获取最相关的信息。

挑战：生成的查询需要在“精确性”和“覆盖面”之间取得平衡，并且能够根据任务进展和已收集信息进行动态调整，避免提出重复或无意义的问题。

方法分类：

奖励优化方法 (Reward-Optimized)：主要使用强化学习（RL），让AI像打游戏一样，通过与搜索环境互动并根据结果（如答案准确性）获得奖励，来学习什么样的提问方式“得分”最高。

监督驱动方法 (Supervision-Driven)：依赖于人工编写的示例或规则进行监督微调，或通过多Agent协作等架构设计来提升查询质量，避免了强化学习的复杂性。

例子：针对“调研当前主流电池类型”这个子任务，它可能会生成“三元锂电池 vs 磷酸铁锂电池优缺点”、“固态电池最新研究进展”、“钠离子电池商业化前景”等多个具体查询。

第三步，上天入地搜集情报：“网页探索 (Web Exploration)”

自主深度研究DR代理究竟走向何方？四步操作「流程」让你不迷糊 |华为最新

现在有了高质量的问题，就该去广阔的互联网上寻找答案了，这便是“网页探索”阶段，也是整个流程中信息采集的关键一环。

目标：根据生成的查询，高效地从网络上检索最相关、最可信的信息，并过滤掉噪声和冗余内容。

挑战：如何在浩瀚的、信息质量参差不齐的互联网中精确定位稀疏分布的有效信息。

方法分类：

Web代理驱动 (Web agent-based)：打造一个“自主浏览器代理”，这个AI能像人一样真实地点击网页链接、浏览内容、甚至填写表单，它特别适合去挖掘那些隐藏在复杂交互界面后的深层信息。

API驱动 (API-based)：直接调用成熟搜索引擎的API（如Google, Bing），这种方式就像是给AI开了绿色通道，能快速拿到经过初步整理和排序的高质量信息，虽然牺牲了一些灵活性，但胜在高效可靠。

第四步，从碎片到洞见：“报告生成 (Report Generation)”

自主深度研究DR代理究竟走向何方？四步操作「流程」让你不迷糊 |华为最新

当AI收集了足够多的情报碎片后，它需要完成最关键的一步“报告生成”，将这些零散的信息整合成一份结构清晰、逻辑严谨、事实准确的研究报告。

目标：将前面阶段收集到的碎片化信息，整合成一篇结构连贯、逻辑清晰、内容详实的最终报告，而不仅仅是简单的问答。

挑战：这里的核心挑战有两个，一是“结构控制”，如何确保报告不是一堆信息的胡乱堆砌；二是“事实完整性”，如何确保报告中的每一句话都忠于原始信源。

方法分类：

结构控制 (Structure Control)：通过基于规划的生成（先生成大纲再填充内容）、约束引导的生成（在生成时遵循特定格式要求）等方法来保证报告的条理性和一致性。

事实完整性 (Factual Integrity)：通过忠实建模（确保生成内容严格基于证据）、冲突推理（处理不同来源信息间的矛盾）和事实性评估（设计指标来衡量生成内容与信源的一- 致性）来减少幻觉。

工作流架构：一个全能天才还是一个专家梦之队？

在具体的系统设计上，研究者们也面临一个经典的选择：我们是该打造一个“单代理”系统，还是一个“多代理”系统？

单代理系统 (Single-Agent Systems)

核心定义：由一个单独的、统一的大语言模型（LLM）代理来负责从头到尾的整个研究过程，它就像一个“全能研究员”。

工作模式：这种系统的工作流是“一体化（monolithic）”的，代理会顺序地执行任务，所有的推理、决策和状态管理都在这一个模型内部完成。

论文提及案例：研究者提到 DeepResearcher、WebThinker 和 Search-R1 等都是这类系统的典型例子。

多代理系统 (Multi-Agent Systems)

核心定义：将复杂的深度研究流程分解成多个独立的阶段，并为每个阶段指派一个专门的代理来负责，这就像一个各司其职的“研究团队”。

工作模式：这种系统是“模块化（modular）”的，不同的代理扮演不同的角色，例如：

规划者代理 (Planner agents)：负责任务分解和制定研究计划。

查询者代理 (Query agents)：专注于生成高质量的搜索查询。

检索者代理 (Retriever agents)：负责与外部工具交互，收集证据。

写作者代理 (Writer agents)：负责将信息整合成结构化的报告。

论文提及案例：研究者提到 AgentRxiv、AI Scientist 和 OpenResearcher 等系统采用了这种协作模式。

关键过程：如何训练和评估这些聪明的代理？

您可能会问，这么复杂的系统该如何优化和评估呢？论文同样对此进行了梳理，这对于我们工程师来说至关重要。

参数优化 (Parameter Optimization)：

对比学习 (Contrastive Learning)：通过向模型展示成功和失败的案例（比如好的工具使用方式和坏的使用方式），让模型学会明辨是非。

强化学习 (Reinforcement Learning)：为代理设定一个长远目标（比如最终报告的质量），并给予奖励，让它在不断的试错中学习如何更好地规划和决策。

课程学习 (Curriculum Training)：像人类学习一样，先让代理掌握一些基础技能，然后再逐步挑战更复杂的完整研究任务，稳扎稳打。

基准测试与评估 (Benchmark and Evaluation)

自主深度研究DR代理究竟走向何方？四步操作「流程」让你不迷糊 |华为最新

评估什么：为了客观评价深度研究代理的能力，研究者们设计了专门的基准测试集。

两类基准：面向搜索的基准：如 MIND2WEB 2，主要评估代理在信息检索和网页浏览任务中的表现。

面向研究的基准：如 DEEPRESEARCH BENCH，则更为全面，它会评估从规划到最终报告生成的整个流程，包括报告的知识准确率、引用召回率等。

下一步去哪？我们面临的真实挑战与未来

深度研究代理的探索之路才刚刚开始，它还远非完美，研究者们指出了几个亟待解决的硬骨头。首先，现实世界的研究远不止网页搜索，AI需要学会使用更多的工具，比如查询数据库、调用API、甚至分析代码；其次，事实性依然是悬在头顶的达摩克利斯之剑，如何在一个充满矛盾和虚假信息的网络环境中保证100%的准确性，是一个巨大的挑战。未来的方向也同样令人兴奋，比如让AI能够理解图表、PDF等多模态信息，或者为每一位用户打造一个懂得其偏好和习惯的个性化研究助理，这些都将是您我这样的工程师大展拳脚的领域。

文章来自于微信公众号“AI修猫Prompt”。

AI 模型训练 DR代理人工智能

AITNT资源拓展

根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考

AI工作流

【开源免费】字节工作流产品扣子两大核心业务：Coze Studio（扣子开发平台）和 Coze Loop（扣子罗盘）全面开源，而且采用的是 Apache 2.0 许可证，支持商用！
项目地址：https://github.com/coze-dev/coze-studio

【开源免费】n8n是一个可以自定义工作流的AI项目，它提供了200个工作节点来帮助用户实现工作流的编排。
项目地址：https://github.com/n8n-io/n8n
在线使用：https://n8n.io/（付费）

【开源免费】DB-GPT是一个AI原生数据应用开发框架，它提供开发多模型管理（SMMF）、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL（智能体工作流编排）等多种技术能力，让围绕数据库构建大模型应用更简单、更方便。
项目地址：https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file


【开源免费】VectorVein是一个不需要任何编程基础，任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤，并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。
项目地址：https://github.com/AndersonBY/vector-vein?tab=readme-ov-file
在线使用：https://vectorvein.ai/（付费）

AI数据分析

【开源免费】DeepBI是一款AI原生的数据分析平台。DeepBI充分利用大语言模型的能力来探索、查询、可视化和共享来自任何数据源的数据。用户可以使用DeepBI洞察数据并做出数据驱动的决策。
项目地址：https://github.com/DeepInsight-AI/DeepBI?tab=readme-ov-file
本地安装：https://www.deepbi.com/
【开源免费】airda(Air Data Agent)是面向数据分析的AI智能体，能够理解数据开发和数据分析需求、根据用户需要让数据可视化。
项目地址：https://github.com/hitsz-ids/airda

智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的（AI Agents）项目。用户创建的智能体能够自动执行各种任务，从而让AI有步骤的去解决实际问题。
项目地址：https://github.com/Significant-Gravitas/AutoGPT

﻿【开源免费】MetaGPT是一个“软件开发公司”的智能体项目，只需要输入一句话的老板需求，MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色，包括产品经理 / 架构师 / 项目经理 / 工程师，MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址：https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

RAG

【开源免费】graphrag是微软推出的RAG项目，与传统的通过 RAG 方法使用向量相似性作为搜索技术不同，GraphRAG是使用知识图谱在推理复杂信息时大幅提高问答性能。
项目地址：https://github.com/microsoft/graphrag

【开源免费】Dify是最早一批实现RAG，Agent，模型管理等一站式AI开发的工具平台，并且项目方一直持续维护。其中在任务编排方面相对领先对手，可以帮助研发实现像字节扣子那样的功能。
项目地址：https://github.com/langgenius/dify

【开源免费】RAGFlow是和Dify类似的开源项目，该项目在大文件解析方面做的更出色，拓展编排方面相对弱一些。
项目地址：https://github.com/infiniflow/ragflow/tree/main

【开源免费】phidata是一个可以实现将数据转化成向量存储，并通过AI实现RAG功能的项目
项目地址：https://github.com/phidatahq/phidata

【开源免费】TaskingAI 是一个提供RAG，Agent，大模型管理等AI项目开发的工具平台，比LangChain更强大的中间件AI平台工具。
项目地址：https://github.com/TaskingAI/TaskingAI

AI搜索

【开源免费】MindSearch是一个模仿人类思考方式的AI搜索引擎框架，其性能可与 Perplexity和ChatGPT-Web相媲美。
项目地址：https://github.com/InternLM/MindSearch
在线使用：https://mindsearch.openxlab.org.cn/

【开源免费】Morphic是一个由AI驱动的搜索引擎。该项目开源免费，搜索结果包含文本，图片，视频等各种AI搜索所需要的必备功能。相对于其他开源AI搜索项目，测试搜索结果最好。
项目地址：https://github.com/miurla/morphic/tree/main
在线使用：https://www.morphic.sh/

微调

【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台，可以对大语言模型（LLM）和多模态图文模型（VLM）进行预训练和轻量级微调。XTuner 支持多种微调算法，如 QLoRA、LoRA 和全量参数微调。
项目地址：https://github.com/InternLM/xtuner

prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法，编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词，进而高质量的帮助用户通过AI解决问题。
项目地址：https://github.com/langgptai/LangGPT/blob/main/README_zh.md
在线使用：https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0