华为诺亚方舟实验室最近联合香港大学发了一篇针对"Deep Research Agents"(深度研究代理)的系统性综述,在我的印象中,这是他们第二次发布关于Deep Research的综述论文。上一篇里提供了一个结构导向 (Structure-Oriented) 的视角,核心是“分类”。而今天的这篇论文提供了一个过程导向 (Process-Oriented) 的视角,核心是“流程” 如果您想了解整个领域的格局,知道各个公司推出的产品属于哪个流派,各自有什么优缺点,那么上一篇文章《华为、牛津联手发布万字报告,揭秘OpenAI、谷歌都在秘密布局的“DR代理”》提供了一个全面分析综述和“市场分析报告”。 如果您想自己动手构建一个深度研究代理,那么今天的文章会为您提供一个清晰的“操作手册”或“蓝图”。它告诉您需要实现哪几个功能模块。
这个“规划”阶段就好像AI在真正动手前,给自己画了一张详细的作战地图,它不再是接到一个指令就莽撞地冲出去,而是先冷静地分析这个宏大的研究目标该如何拆解。您也可以看下之前的文章《全面思考,从目标到起点规划,提升LLM规划能力4%至24% |普林斯顿最新》
规划好了地图,下一步就是该怎么问路,这就是“问题构建”阶段的核心,它要求AI具备将一个抽象的子目标转化为一连串精准、高效的搜索查询的能力。
现在有了高质量的问题,就该去广阔的互联网上寻找答案了,这便是“网页探索”阶段,也是整个流程中信息采集的关键一环。
当AI收集了足够多的情报碎片后,它需要完成最关键的一步“报告生成”,将这些零散的信息整合成一份结构清晰、逻辑严谨、事实准确的研究报告。
在具体的系统设计上,研究者们也面临一个经典的选择:我们是该打造一个“单代理”系统,还是一个“多代理”系统?
单代理系统 (Single-Agent Systems)
多代理系统 (Multi-Agent Systems)
您可能会问,这么复杂的系统该如何优化和评估呢?论文同样对此进行了梳理,这对于我们工程师来说至关重要。
参数优化 (Parameter Optimization):
基准测试与评估 (Benchmark and Evaluation)
深度研究代理的探索之路才刚刚开始,它还远非完美,研究者们指出了几个亟待解决的硬骨头。首先,现实世界的研究远不止网页搜索,AI需要学会使用更多的工具,比如查询数据库、调用API、甚至分析代码;其次,事实性依然是悬在头顶的达摩克利斯之剑,如何在一个充满矛盾和虚假信息的网络环境中保证100%的准确性,是一个巨大的挑战。未来的方向也同样令人兴奋,比如让AI能够理解图表、PDF等多模态信息,或者为每一位用户打造一个懂得其偏好和习惯的个性化研究助理,这些都将是您我这样的工程师大展拳脚的领域。
文章来自于微信公众号“AI修猫Prompt”。
【开源免费】字节工作流产品扣子两大核心业务:Coze Studio(扣子开发平台)和 Coze Loop(扣子罗盘)全面开源,而且采用的是 Apache 2.0 许可证,支持商用!
项目地址:https://github.com/coze-dev/coze-studio
【开源免费】n8n是一个可以自定义工作流的AI项目,它提供了200个工作节点来帮助用户实现工作流的编排。
项目地址:https://github.com/n8n-io/n8n
在线使用:https://n8n.io/(付费)
【开源免费】DB-GPT是一个AI原生数据应用开发框架,它提供开发多模型管理(SMMF)、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL(智能体工作流编排)等多种技术能力,让围绕数据库构建大模型应用更简单、更方便。
项目地址:https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file
【开源免费】VectorVein是一个不需要任何编程基础,任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤,并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。
项目地址:https://github.com/AndersonBY/vector-vein?tab=readme-ov-file
在线使用:https://vectorvein.ai/(付费)
【开源免费】DeepBI是一款AI原生的数据分析平台。DeepBI充分利用大语言模型的能力来探索、查询、可视化和共享来自任何数据源的数据。用户可以使用DeepBI洞察数据并做出数据驱动的决策。
项目地址:https://github.com/DeepInsight-AI/DeepBI?tab=readme-ov-file
本地安装:https://www.deepbi.com/
【开源免费】airda(Air Data Agent)是面向数据分析的AI智能体,能够理解数据开发和数据分析需求、根据用户需要让数据可视化。
项目地址:https://github.com/hitsz-ids/airda
【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。
项目地址:https://github.com/Significant-Gravitas/AutoGPT
【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md
【开源免费】graphrag是微软推出的RAG项目,与传统的通过 RAG 方法使用向量相似性作为搜索技术不同,GraphRAG是使用知识图谱在推理复杂信息时大幅提高问答性能。
项目地址:https://github.com/microsoft/graphrag
【开源免费】Dify是最早一批实现RAG,Agent,模型管理等一站式AI开发的工具平台,并且项目方一直持续维护。其中在任务编排方面相对领先对手,可以帮助研发实现像字节扣子那样的功能。
项目地址:https://github.com/langgenius/dify
【开源免费】RAGFlow是和Dify类似的开源项目,该项目在大文件解析方面做的更出色,拓展编排方面相对弱一些。
项目地址:https://github.com/infiniflow/ragflow/tree/main
【开源免费】phidata是一个可以实现将数据转化成向量存储,并通过AI实现RAG功能的项目
项目地址:https://github.com/phidatahq/phidata
【开源免费】TaskingAI 是一个提供RAG,Agent,大模型管理等AI项目开发的工具平台,比LangChain更强大的中间件AI平台工具。
项目地址:https://github.com/TaskingAI/TaskingAI
【开源免费】MindSearch是一个模仿人类思考方式的AI搜索引擎框架,其性能可与 Perplexity和ChatGPT-Web相媲美。
项目地址:https://github.com/InternLM/MindSearch
在线使用:https://mindsearch.openxlab.org.cn/
【开源免费】Morphic是一个由AI驱动的搜索引擎。该项目开源免费,搜索结果包含文本,图片,视频等各种AI搜索所需要的必备功能。相对于其他开源AI搜索项目,测试搜索结果最好。
项目地址:https://github.com/miurla/morphic/tree/main
在线使用:https://www.morphic.sh/
【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台,可以对大语言模型(LLM)和多模态图文模型(VLM)进行预训练和轻量级微调。XTuner 支持多种微调算法,如 QLoRA、LoRA 和全量参数微调。
项目地址:https://github.com/InternLM/xtuner
【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。
项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md
在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0