LangChain Agent 年度报告：输出质量仍是 Agent 最大障碍，客服、研究是最快落地场景

11279点击 2025-12-23 10:31

2025 年，让 Agent 实际投产、落地应用的最大障碍已经不再是成本问题了，而是「质量」。如何让 Agent 输出可靠、准确的内容，仍然是最难的部分。

近期，LangChain 通过对工程师、产品经理、企业高管等 1300 名行业人士进行调查，深度调研了 AI Agent 目前最真实的应用情况。

进入 2026 年，企业对于 Agent 的讨论焦点，已经从「要不要做」全面转向了「如何规模化、可靠且高效地用好」。

6 个关键结论：

Agent 实际落地应用趋势明显。57% 的受访者已将 Agent 投入到生产环境中，且规模越大的企业，落地速度越快；

客户服务、研究与数据分析是目前 Agent 最火热的两大应用方向，两者合计占据了所有应用场景的一半以上。说明，在重复性高、知识密集或直接面向客户的工作中，Agent 能最大化地创造价值；

确保 Agent 输出的结果稳定可靠，依然是商业化落地中最棘手的难题。相比之下，成本已不再是大家最头疼的问题，行业的关注点正从「省钱」转向「如何让产品做得又快又好」；

Agent 的「可观测性」已经成为行业标配。大多数团队，都会对 Agent 进行全面追踪，记录内部运行状态和行为模式；

关于 Agent Evals 的实践还不够成熟。约半数团队会进行离线评估，只有约三分之一的团队会在真实的生产数据上进行在线评估。

Coding Agent 是大家在日常工作中使用最频繁的。此外，仍有相当一部分受访者表示，除了聊天或编程助手，还没用过其他类型的 Agent。

01 规模越大的企业，

落地 Agent 速度越快

调研数据显示，超过一半（57.3%）的受访者已经将 Agent 投入实际生产，另有 30.4% 的人正在开发且有明确的上线计划。

这一数字比去年的 51% 有了明显增长，行业正在从「概念验证」快速迈向「价值实现」阶段。

规模越大，行动越快

一个有趣的现象是，万人以上的大型企业中，已经有 67% 将 Agent 投入生产，24% 正在积极开发并计划部署；而在百人以下的小公司，这个比例是 50% 和 36%。这说明，大型企业凭借平台、安全和基础设施上等方面的资源优势，能更快地将 Agent 从试验品变成稳定可靠的生产力工具。

LangChain Agent 年度报告：输出质量仍是 Agent 最大障碍，客服、研究是最快落地场景

02 落地最快的场景：

客户服务、研究与数据分析

客户服务（26.5%）成为最普遍的 Agent 用例，研究与数据分析（24.4%）紧随其后。两者合计占据了所有应用场景的一半以上。

LangChain Agent 年度报告：输出质量仍是 Agent 最大障碍，客服、研究是最快落地场景

客户服务用例的亮眼数据，说明企业正在大胆地将 Agent 直接推向一线，面向真实客户，不仅仅是限于内部使用。

同时，Agent 在企业内部也创造了显著价值，例如，有 18% 的受访者将其用于内部工作流程自动化，来提升员工效率。

研究与数据分析用例的普及，再次证明了 Agent 在海量信息整合、跨源推理和加速知识型工作方面的核心优势。

值得注意的是，今年的应用场景分布更广，说明 Agent 的应用正在从几个早期领域向更多元化的方向渗透。

规模化应用中的场景差异

在万人以上的大企业中，提升内部生产力（26.8%）反超客户服务，成为第一大应用场景。这或许说明，大企业倾向于先在内部用 AI 提升团队运营效率，然后再将其推广到外部客户。

03 输出质量仍是 Agent 落地的最大障碍

和去年一样，质量仍然是阻碍 Agent 大规模应用的最大障碍，三分之一的受访者将质量视为主要瓶颈。这里的质量问题，指的是 Agent 的准确性、相关性、输出结果的一致性，以及在维持适切语调、遵循品牌或政策规范方面的能力。

LangChain Agent 年度报告：输出质量仍是 Agent 最大障碍，客服、研究是最快落地场景

延迟（20%）则成为第二大挑战。当 Agent 被用于客服或代码生成这类实时交互场景时，响应速度直接决定了用户体验的好坏。这也反映出团队必须在「效果」和「速度」之间做出权衡，功能更强、步骤更多的 Agent 虽然能产出更高质量的结果，但响应速度往往也更慢。

一个积极的变化是，随着模型价格下降和技术优化，成本已不再是大家最头疼的问题。团队的关注点正从单纯的开销转向如何让 Agent 运行得更好、更快。

不同规模企业的痛点问题不一样

对于员工数超过 2000 人的企业来说，质量问题仍然是首要障碍。但对安全问题（24.9%）的关注度超过了延迟问题，成为仅次于质量的第二大挑战。

LangChain Agent 年度报告：输出质量仍是 Agent 最大障碍，客服、研究是最快落地场景

对于员工数超过 1 万的企业，在开放式回答中，许多大企业提到「幻觉」和生成内容的一致性是保证质量的最大挑战，同时在上下文工程及大规模管理上下文方面方面也是困难重重。

04 Agent 执行流程的可观测性成为行业标配

能够追踪 Agent 多步推理链和工具调用的能力，已成为一项基本要求。89% 的企业已为其 Agent 实施了某种形式的可观察性，其中 62% 拥有详细的追踪能力，允许他们审查单个步骤和工具调用。

LangChain Agent 年度报告：输出质量仍是 Agent 最大障碍，客服、研究是最快落地场景

在已有 Agent 投入生产的受访者中，这一比例甚至更高：94% 部署了可观察性，其中 71.5% 具备了完整的追踪能力。这揭示了 Agent 工程的一条基本准则：如果无法洞察 Agent 的推理与行动过程，团队将无法可靠地排查故障、优化性能，也无法与内外部的利益相关者建立信任。

LangChain Agent 年度报告：输出质量仍是 Agent 最大障碍，客服、研究是最快落地场景

追踪 Agent 多步推理链和工具调用的能力，已经成为了一项行业标配。高达 89% 的团队部署了可观察性系统，其中 62% 能够进行细粒度的追踪，审查每一步的细节。

对于已经投入生产的 Agent 项目，这个比例高达 94%，其中 71.5% 具备了完整的追踪能力。这背后是 Agent 工程领域的一个基本共识：如果无法洞察 Agent 的思考推理与行动过程，团队将无法可靠地排查故障、优化性能，也无法与内外部的利益相关者建立信任。

05 Agent 评估越来越得到重视

虽然可观察性已经普及，但 Agent 评估仍是相对较新的领域。

超过半数（52.4%）的企业表示，会通过测试集进行离线评估，这说明许多团队已认识到在部署前发现性能衰退和验证 Agent 行为的重要性。

在线评估（37.3%）的采用率较低，但随着团队开始监控 Agent 在真实世界中的表现，这个比例正在增长。

LangChain Agent 年度报告：输出质量仍是 Agent 最大障碍，客服、研究是最快落地场景

当 Agent 进入生产环境后，评估变得更为重要。「不进行任何评估」的团队比例从 29.5% 大幅下降至 22.8%。进行在线评估的比例则上升至 44.8%，因为团队需要通过观察真实的生产数据来实时发现问题。

LangChain Agent 年度报告：输出质量仍是 Agent 最大障碍，客服、研究是最快落地场景

但大多数团队仍然是从离线评估入手，因为门槛更低、设置更明确。

在评估方法上，行业呈现出了混合模式。近四分之一的团队会同时采用离线和在线两种评估方式。

LangChain Agent 年度报告：输出质量仍是 Agent 最大障碍，客服、研究是最快落地场景

大家普遍依赖人机结合的方法：一方面，采用将大语言模型用作评判者（LLM-as-judge）（53.3%）的方式来扩大评估的覆盖面，同时通过人工审查来保证评估深度；另一方面，通过人工审查（59.8%）来保证评估的深度，尤其是在处理精细或高风险场景时。

相比之下，像 ROUGE 和 BLEU 这样的传统机器学习指标采用率较低，因为它们不适合评估开放式、存在多个合规答案的 Agent 交互场景。

LangChain Agent 年度报告：输出质量仍是 Agent 最大障碍，客服、研究是最快落地场景

06 GPT 占主导，

但混合使用多种模型是常态

虽然 OpenAI 模型在采用率上占主导地位，但几乎没有团队会把鸡蛋放在一个篮子里。

超过三分之二的企业正在使用 OpenAI 的 GPT 模型，超过四分之三的团队在生产或开发中会使用多种模型。大家越来越倾向于根据任务的复杂度、成本和延迟，灵活地将任务分配给不同的模型，而不是绑定在某一个平台上。

LangChain Agent 年度报告：输出质量仍是 Agent 最大障碍，客服、研究是最快落地场景

尽管商业 API 提供了便利，但在内部署模型对许多组织而言仍是一项重要策略。超过三分之一的组织仍在投资部署开源模型，主要是出于成本优化、数据主权或行业监管合规的考虑。

与此同时，微调（Fine-tuning）仍然没有成为主流选择。 57% 的组织没有进行微调，而是更依赖于提示工程和 RAG（检索增强生成）技术。主要是因为微调需要在数据收集、标注、训练基础设施和持续维护上进行大量投入，目前仍是少数高价值或专业化场景的选择。

LangChain Agent 年度报告：输出质量仍是 Agent 最大障碍，客服、研究是最快落地场景

07 日常工作中，

还是编程类 Agent 被用得最多

在日常工作中，最常用哪些 Agent？在开放式问答中，我们发现了几个清晰的模式：

编程 Agent 主导日常工作流。

到目前为止，绝大多数被提及的都是编程类工具，如 Claude Code，Cursor，GitHub Copilot，Amazon Q、Windsurf 和 Antigravity 等工具。这些工具被广泛用于代码生成、调试和测试。

研究类 Agent 是第二大常用类别

第二常见的模式是由 ChatGPT、Claude、Gemini、Perplexity 及类似工具驱动的研究与深度研究 Agent。这些 Agent 被用于探索新领域、总结长篇文档以及整合跨源信息，常常在同一工作流程中与编程 Agent 协同使用。

基于 LangChain 和 LangGraph 构建的自定义 Agent 也广受欢迎。

许多团队正在利用这些框架构建内部专用的 Agent，用于 QA 测试、知识库搜索、SQL/文本转 SQL、需求规划、客户支持和工作流自动化等场景。

LangChain Agent 年度报告：输出质量仍是 Agent 最大障碍，客服、研究是最快落地场景

值得注意的是，仍有相当一部分受访者表示，除了聊天或编程助手，他们还没用过其他类型的 Agent。这说明，虽然 Agent 概念很火，但「一切皆可 Agent」的愿景仍处于非常早期的阶段。

注：报告研究方法

本报告的数据来源于 LangChain 在 2025 年 11 月 18 日至 12 月 2 日期间进行的一项公开调查，共收到 1340 份有效回复。

行业分布 Top 5：科技（占受访者的 63%）、金融服务（占受访者的 10%）、医疗健康（占受访者的 6%）、教育（占受访者的 4%）、消费品（占受访者的 3%）、制造业（占受访者的 3%）。

公司规模分布：少于 100 人（占受访者的 49%）、100-500 人（占受访者的 18%）、500-2000 人（占受访者的 15%）、2000-10,000 人（占受访者的 9%）、超过 10,000 人（占受访者的 9%）。

文章来自于“Founder Park”，作者 “Founder Park”。

关键词: AI新闻 , LangChain , Agent年度报告 , Agent研报

AITNT资源拓展

根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考

AI工作流

【开源免费】字节工作流产品扣子两大核心业务：Coze Studio（扣子开发平台）和 Coze Loop（扣子罗盘）全面开源，而且采用的是 Apache 2.0 许可证，支持商用！
项目地址：https://github.com/coze-dev/coze-studio

【开源免费】n8n是一个可以自定义工作流的AI项目，它提供了200个工作节点来帮助用户实现工作流的编排。
项目地址：https://github.com/n8n-io/n8n
在线使用：https://n8n.io/（付费）

【开源免费】DB-GPT是一个AI原生数据应用开发框架，它提供开发多模型管理（SMMF）、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL（智能体工作流编排）等多种技术能力，让围绕数据库构建大模型应用更简单、更方便。
项目地址：https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file


【开源免费】VectorVein是一个不需要任何编程基础，任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤，并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。
项目地址：https://github.com/AndersonBY/vector-vein?tab=readme-ov-file
在线使用：https://vectorvein.ai/（付费）

智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的（AI Agents）项目。用户创建的智能体能够自动执行各种任务，从而让AI有步骤的去解决实际问题。
项目地址：https://github.com/Significant-Gravitas/AutoGPT

﻿【开源免费】MetaGPT是一个“软件开发公司”的智能体项目，只需要输入一句话的老板需求，MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色，包括产品经理 / 架构师 / 项目经理 / 工程师，MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址：https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

知识库

【开源免费】FASTGPT是基于LLM的知识库开源项目，提供开箱即用的数据处理、模型调用等能力。整体功能和“Dify”“RAGFlow”项目类似。很多接入微信，飞书的AI项目都基于该项目二次开发。
项目地址：https://github.com/labring/FastGPT

RAG

【开源免费】graphrag是微软推出的RAG项目，与传统的通过 RAG 方法使用向量相似性作为搜索技术不同，GraphRAG是使用知识图谱在推理复杂信息时大幅提高问答性能。
项目地址：https://github.com/microsoft/graphrag

【开源免费】Dify是最早一批实现RAG，Agent，模型管理等一站式AI开发的工具平台，并且项目方一直持续维护。其中在任务编排方面相对领先对手，可以帮助研发实现像字节扣子那样的功能。
项目地址：https://github.com/langgenius/dify

【开源免费】RAGFlow是和Dify类似的开源项目，该项目在大文件解析方面做的更出色，拓展编排方面相对弱一些。
项目地址：https://github.com/infiniflow/ragflow/tree/main

【开源免费】phidata是一个可以实现将数据转化成向量存储，并通过AI实现RAG功能的项目
项目地址：https://github.com/phidatahq/phidata

【开源免费】TaskingAI 是一个提供RAG，Agent，大模型管理等AI项目开发的工具平台，比LangChain更强大的中间件AI平台工具。
项目地址：https://github.com/TaskingAI/TaskingAI

AI搜索

【开源免费】MindSearch是一个模仿人类思考方式的AI搜索引擎框架，其性能可与 Perplexity和ChatGPT-Web相媲美。
项目地址：https://github.com/InternLM/MindSearch
在线使用：https://mindsearch.openxlab.org.cn/

【开源免费】Morphic是一个由AI驱动的搜索引擎。该项目开源免费，搜索结果包含文本，图片，视频等各种AI搜索所需要的必备功能。相对于其他开源AI搜索项目，测试搜索结果最好。
项目地址：https://github.com/miurla/morphic/tree/main
在线使用：https://www.morphic.sh/

微调

【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台，可以对大语言模型（LLM）和多模态图文模型（VLM）进行预训练和轻量级微调。XTuner 支持多种微调算法，如 QLoRA、LoRA 和全量参数微调。
项目地址：https://github.com/InternLM/xtuner