2025 年,让 Agent 实际投产、落地应用的最大障碍已经不再是成本问题了,而是「质量」。如何让 Agent 输出可靠、准确的内容,仍然是最难的部分。
近期,LangChain 通过对工程师、产品经理、企业高管等 1300 名行业人士进行调查,深度调研了 AI Agent 目前最真实的应用情况。
进入 2026 年,企业对于 Agent 的讨论焦点,已经从「要不要做」全面转向了「如何规模化、可靠且高效地用好」。
6 个关键结论:
调研数据显示,超过一半(57.3%)的受访者已经将 Agent 投入实际生产,另有 30.4% 的人正在开发且有明确的上线计划。
这一数字比去年的 51% 有了明显增长,行业正在从「概念验证」快速迈向「价值实现」阶段。
规模越大,行动越快
一个有趣的现象是,万人以上的大型企业中,已经有 67% 将 Agent 投入生产,24% 正在积极开发并计划部署;而在百人以下的小公司,这个比例是 50% 和 36%。这说明,大型企业凭借平台、安全和基础设施上等方面的资源优势,能更快地将 Agent 从试验品变成稳定可靠的生产力工具。

客户服务(26.5%)成为最普遍的 Agent 用例,研究与数据分析(24.4%)紧随其后。两者合计占据了所有应用场景的一半以上。

值得注意的是,今年的应用场景分布更广,说明 Agent 的应用正在从几个早期领域向更多元化的方向渗透。
规模化应用中的场景差异
在万人以上的大企业中,提升内部生产力(26.8%)反超客户服务,成为第一大应用场景。这或许说明,大企业倾向于先在内部用 AI 提升团队运营效率,然后再将其推广到外部客户。
和去年一样,质量仍然是阻碍 Agent 大规模应用的最大障碍,三分之一的受访者将质量视为主要瓶颈。这里的质量问题,指的是 Agent 的准确性、相关性、输出结果的一致性,以及在维持适切语调、遵循品牌或政策规范方面的能力。

延迟(20%)则成为第二大挑战。当 Agent 被用于客服或代码生成这类实时交互场景时,响应速度直接决定了用户体验的好坏。这也反映出团队必须在「效果」和「速度」之间做出权衡,功能更强、步骤更多的 Agent 虽然能产出更高质量的结果,但响应速度往往也更慢。
一个积极的变化是,随着模型价格下降和技术优化,成本已不再是大家最头疼的问题。团队的关注点正从单纯的开销转向如何让 Agent 运行得更好、更快。
不同规模企业的痛点问题不一样
对于员工数超过 2000 人的企业来说,质量问题仍然是首要障碍。但对安全问题(24.9%)的关注度超过了延迟问题,成为仅次于质量的第二大挑战。

对于员工数超过 1 万的企业,在开放式回答中,许多大企业提到「幻觉」和生成内容的一致性是保证质量的最大挑战,同时在上下文工程及大规模管理上下文方面方面也是困难重重。
能够追踪 Agent 多步推理链和工具调用的能力,已成为一项基本要求。89% 的企业已为其 Agent 实施了某种形式的可观察性,其中 62% 拥有详细的追踪能力,允许他们审查单个步骤和工具调用。

在已有 Agent 投入生产的受访者中,这一比例甚至更高:94% 部署了可观察性,其中 71.5% 具备了完整的追踪能力。这揭示了 Agent 工程的一条基本准则:如果无法洞察 Agent 的推理与行动过程,团队将无法可靠地排查故障、优化性能,也无法与内外部的利益相关者建立信任。

追踪 Agent 多步推理链和工具调用的能力,已经成为了一项行业标配。高达 89% 的团队部署了可观察性系统,其中 62% 能够进行细粒度的追踪,审查每一步的细节。
对于已经投入生产的 Agent 项目,这个比例高达 94%,其中 71.5% 具备了完整的追踪能力。这背后是 Agent 工程领域的一个基本共识:如果无法洞察 Agent 的思考推理与行动过程,团队将无法可靠地排查故障、优化性能,也无法与内外部的利益相关者建立信任。
虽然可观察性已经普及,但 Agent 评估仍是相对较新的领域。
超过半数(52.4%)的企业表示,会通过测试集进行离线评估,这说明许多团队已认识到在部署前发现性能衰退和验证 Agent 行为的重要性。
在线评估(37.3%)的采用率较低,但随着团队开始监控 Agent 在真实世界中的表现,这个比例正在增长。

当 Agent 进入生产环境后,评估变得更为重要。「不进行任何评估」的团队比例从 29.5% 大幅下降至 22.8%。进行在线评估的比例则上升至 44.8%,因为团队需要通过观察真实的生产数据来实时发现问题。

但大多数团队仍然是从离线评估入手,因为门槛更低、设置更明确。
在评估方法上,行业呈现出了混合模式。近四分之一的团队会同时采用离线和在线两种评估方式。

大家普遍依赖人机结合的方法:一方面,采用将大语言模型用作评判者(LLM-as-judge)(53.3%)的方式来扩大评估的覆盖面,同时通过人工审查来保证评估深度;另一方面,通过人工审查(59.8%)来保证评估的深度,尤其是在处理精细或高风险场景时。
相比之下,像 ROUGE 和 BLEU 这样的传统机器学习指标采用率较低,因为它们不适合评估开放式、存在多个合规答案的 Agent 交互场景。

虽然 OpenAI 模型在采用率上占主导地位,但几乎没有团队会把鸡蛋放在一个篮子里。
超过三分之二的企业正在使用 OpenAI 的 GPT 模型,超过四分之三的团队在生产或开发中会使用多种模型。大家越来越倾向于根据任务的复杂度、成本和延迟,灵活地将任务分配给不同的模型,而不是绑定在某一个平台上。

尽管商业 API 提供了便利,但在内部署模型对许多组织而言仍是一项重要策略。超过三分之一的组织仍在投资部署开源模型,主要是出于成本优化、数据主权或行业监管合规的考虑。
与此同时,微调(Fine-tuning)仍然没有成为主流选择。 57% 的组织没有进行微调,而是更依赖于提示工程和 RAG(检索增强生成)技术。主要是因为微调需要在数据收集、标注、训练基础设施和持续维护上进行大量投入,目前仍是少数高价值或专业化场景的选择。

在日常工作中,最常用哪些 Agent?在开放式问答中,我们发现了几个清晰的模式:
编程 Agent 主导日常工作流。
到目前为止,绝大多数被提及的都是编程类工具,如 Claude Code,Cursor,GitHub Copilot,Amazon Q、Windsurf 和 Antigravity 等工具。这些工具被广泛用于代码生成、调试和测试。
研究类 Agent 是第二大常用类别
第二常见的模式是由 ChatGPT、Claude、Gemini、Perplexity 及类似工具驱动的研究与深度研究 Agent。这些 Agent 被用于探索新领域、总结长篇文档以及整合跨源信息,常常在同一工作流程中与编程 Agent 协同使用。
基于 LangChain 和 LangGraph 构建的自定义 Agent 也广受欢迎。
许多团队正在利用这些框架构建内部专用的 Agent,用于 QA 测试、知识库搜索、SQL/文本转 SQL、需求规划、客户支持和工作流自动化等场景。

值得注意的是,仍有相当一部分受访者表示,除了聊天或编程助手,他们还没用过其他类型的 Agent。这说明,虽然 Agent 概念很火,但「一切皆可 Agent」的愿景仍处于非常早期的阶段。
注:报告研究方法
本报告的数据来源于 LangChain 在 2025 年 11 月 18 日至 12 月 2 日期间进行的一项公开调查,共收到 1340 份有效回复。
行业分布 Top 5:科技(占受访者的 63%)、金融服务(占受访者的 10%)、医疗健康(占受访者的 6%)、教育(占受访者的 4%)、消费品(占受访者的 3%)、制造业(占受访者的 3%)。
公司规模分布:少于 100 人(占受访者的 49%)、100-500 人(占受访者的 18%)、500-2000 人(占受访者的 15%)、2000-10,000 人(占受访者的 9%)、超过 10,000 人(占受访者的 9%)。
文章来自于“Founder Park”,作者 “Founder Park”。
【开源免费】字节工作流产品扣子两大核心业务:Coze Studio(扣子开发平台)和 Coze Loop(扣子罗盘)全面开源,而且采用的是 Apache 2.0 许可证,支持商用!
项目地址:https://github.com/coze-dev/coze-studio
【开源免费】n8n是一个可以自定义工作流的AI项目,它提供了200个工作节点来帮助用户实现工作流的编排。
项目地址:https://github.com/n8n-io/n8n
在线使用:https://n8n.io/(付费)
【开源免费】DB-GPT是一个AI原生数据应用开发框架,它提供开发多模型管理(SMMF)、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL(智能体工作流编排)等多种技术能力,让围绕数据库构建大模型应用更简单、更方便。
项目地址:https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file
【开源免费】VectorVein是一个不需要任何编程基础,任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤,并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。
项目地址:https://github.com/AndersonBY/vector-vein?tab=readme-ov-file
在线使用:https://vectorvein.ai/(付费)
【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。
项目地址:https://github.com/Significant-Gravitas/AutoGPT
【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md
【开源免费】FASTGPT是基于LLM的知识库开源项目,提供开箱即用的数据处理、模型调用等能力。整体功能和“Dify”“RAGFlow”项目类似。很多接入微信,飞书的AI项目都基于该项目二次开发。
项目地址:https://github.com/labring/FastGPT
【开源免费】graphrag是微软推出的RAG项目,与传统的通过 RAG 方法使用向量相似性作为搜索技术不同,GraphRAG是使用知识图谱在推理复杂信息时大幅提高问答性能。
项目地址:https://github.com/microsoft/graphrag
【开源免费】Dify是最早一批实现RAG,Agent,模型管理等一站式AI开发的工具平台,并且项目方一直持续维护。其中在任务编排方面相对领先对手,可以帮助研发实现像字节扣子那样的功能。
项目地址:https://github.com/langgenius/dify
【开源免费】RAGFlow是和Dify类似的开源项目,该项目在大文件解析方面做的更出色,拓展编排方面相对弱一些。
项目地址:https://github.com/infiniflow/ragflow/tree/main
【开源免费】phidata是一个可以实现将数据转化成向量存储,并通过AI实现RAG功能的项目
项目地址:https://github.com/phidatahq/phidata
【开源免费】TaskingAI 是一个提供RAG,Agent,大模型管理等AI项目开发的工具平台,比LangChain更强大的中间件AI平台工具。
项目地址:https://github.com/TaskingAI/TaskingAI
【开源免费】MindSearch是一个模仿人类思考方式的AI搜索引擎框架,其性能可与 Perplexity和ChatGPT-Web相媲美。
项目地址:https://github.com/InternLM/MindSearch
在线使用:https://mindsearch.openxlab.org.cn/
【开源免费】Morphic是一个由AI驱动的搜索引擎。该项目开源免费,搜索结果包含文本,图片,视频等各种AI搜索所需要的必备功能。相对于其他开源AI搜索项目,测试搜索结果最好。
项目地址:https://github.com/miurla/morphic/tree/main
在线使用:https://www.morphic.sh/
【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台,可以对大语言模型(LLM)和多模态图文模型(VLM)进行预训练和轻量级微调。XTuner 支持多种微调算法,如 QLoRA、LoRA 和全量参数微调。
项目地址:https://github.com/InternLM/xtuner