警惕 AI 知识库炫技：看着美，用着累

7178点击 2025-06-10 11:47

警惕 AI 知识库炫技：看着美，用着累

AI 知识库会成为企业数字化的一个必需品。

知识库成为大模型落地的热门场景，现实中却走入了 “技术炫酷却用不起来” 的窘境。

AI 能改变传统知识管理的困境吗？

在「DeepTalk」的第二个系列话题栏目「AI 的争议」对话中，崔牛会创始人 & CEO 崔强与蓝凌副总裁刘向华，围绕 “AI≈知识库？为什么叫好不叫座？” 这一主题进行了深入讨论。

刘向华认为，当下中国的企业知识管理将因 AI 技术的发展而重新回热。在 AI 时代，构建 “AI 友好型” 知识库将有助于企业实现数据资产价值的最大化。

但也不要为了追求 AI 技术去搞技术，什么技术好用就用什么，不应执着于用大模型解决一切问题。

警惕 AI 知识库炫技：看着美，用着累

以下是经牛透社编辑整理的对话内容：（有删减）

Tips：观看对话原视频，可通过【牛透社视频号-直播回放-5月28日】获取

01 幻想与现实

崔强：今晚我们讨论的话题是 “AI≈知识库？为什么叫好不叫座？”。第一个话题是 AI 知识库的幻想与现实。为什么大家觉得 AI 知识库应该是杀手级的应用呢？

刘向华：我觉得还是要把 AI 的概念缩小一下，这波 AI 的主题是大模型，大模型是适合用来处理文本型数据的，以前我们称非结构化数据，比如文档、音视频等。

大模型最适合处理的数据类型正好在传统知识库领域，所以知识库就变成第一个热门场景了。ChatGPT 出来时，我们已经非常清醒地知道国内的企业知识管理也将重新回热。

崔强：大模型来了之后，现在的企业知识库应用是一个什么状态？

刘向华：蓝凌主要还是面向大中型企业，中小企业的知识库我们涉猎得不是特别多（这方面的市场空间也相对小一点）。

从大中型企业知识库的建设角度来说，这波 AI 来了以后，绝大部分企业都会与大模型结合，主要场景有智能搜索、智能问答等。问答场景比搜索场景更加具体或碎片化，比如关于制度、客服、工单的问答等。

崔强：现在我们可以看到一些 AI 知识库的案例，真正落地的效果怎么样？企业级知识库和个人知识库之间，除了权限之外还有什么明显的差异？

刘向华：个人知识库跟企业级知识库差别非常大。首先企业级知识库存在权限管理的问题，但更大、更深的区别在于知识体系的设计，这个其实是个知识体系治理的问题。

一个公司的知识库应该分多少类？这些知识库有哪些是可以共用的？最重要的知识是哪些？每一类知识库的索引标签是什么……

而且从老板和 CIO 的全局视角看，不可能任由每个员工公有云、私有云到处搭自己的知识库，因为除了知识重复、标准知识的版本管理之外，还可能有一些涉密知识等。

另外，企业知识库还面临内容一致性的问题，在企业中，不同版本的制度、SOP 等文档可能既需要同时留存，还要让 AI 能够识别最新的版本避免误导，这些问题在个人知识库里几乎是不考虑的。

崔强：如果站在企业级知识库的角度，怎么看飞书刚推出的知识问答，能打几分？

刘向华：还是偏向于个人或者小团队级别，缺少很多东西。企业级知识库作为 ToB 产品，除了用户态的易用性之外，还要保障管理态（符合组织管理要求），以及生长态（可开发可扩展）。

整体上看它的用户态是 OK，但管理态和生长态较弱，希望它能够再成长。做 ToB 需要很多 Know-how。

崔强：大模型来了之后，蓝凌的知识库产品有了哪些变化？

刘向华：我们在做一个对 AI 更友好的知识库。AI 没出来之前，我们大部分知识库系统都是给人用，可能注重的是刚才说的用户态、管理态、生长态，归根到底是给人用。

有了 AI 以后，要考虑知识库如何给 AI 用。

我们在实施 AI 项目时要考虑数据质量（如何获得更高质量的知识），让 AI 更好地理解，同时降低大模型幻觉，保证严谨性。此外，还要考虑很多技术和工具，比如知识体系梳理，知识图谱建模、自动入图、多库多文档的切片策略等。

崔强：传统知识管理最大的问题是什么？是用户不愿意用，还是用不起来？AI 来了会改变这一点吗？

刘向华：肯定会。传统知识管理，项目的成功实施都需要做管理和运营的配套，主要是因为传统知识管理系统的易用性并不是那么好。

最近五年来，许多 ToB 软件开始学习 ToC 软件的用户交互，在易用性上提高了很多，但仍会出现员工不愿共享知识的问题。

如何让员工主动自愿贡献知识，公司要有制度或激励措施，比如一些积分设计或流程约束等。

比如蓝凌每实施一个项目，都会要求项目经理写复盘报告，要做 “知识收割”。但 “知识收割” 是要花时间和整理的，如果没有公司的制度要求和配套管理就很难做，这也意味着系统推广门槛的提升。

此外，还有文化。很多知识管理做得比较好的公司，它们的企业文化也是相对比较活跃的，员工愿意主动贡献和分享知识。

有了 AI 之后，可以帮员工提高效率，写汇报材料更简单，这也会激发员工有更多动机参与知识库建设。

02 大模型幻觉

崔强：你怎么看待大模型和知识严谨性的冲突？

刘向华：我把 AI 在企业内的应用拆分成两类：一类是与文字理解和生成相关的，这一类追求 100% 准确度是很难的，接近 OK 就可以了，所谓文无第一嘛；第二类是与现在的智能体强相关的。

智能体背后是大模型赋能的工作流，没有大模型之前，它是基于规则流转，而规则是符号或者确定性的东西，所以，流程自动化可以追求 100% 的准确。加了大模型以后有可能做 100% 的准确，这要看规则和大模型能力的互相渗透了。

目前很多智能体开发平台、编排平台，仍在走自动化的方向，追求 100% 的准确，是因为企业级应用如果做不到足够严谨，就可能出事故。

崔强：如何看待大模型 “投毒” 的问题？在企业级知识库中，如何判断 AI 的输出是可靠的？

刘向华：大模型和人类都是有幻觉的。首先，不能完全杜绝大模型幻觉，要清晰每个技术的边界。其次，才是追求如何减少幻觉。此外，还要注意数据（知识）质量，这包含了刚才所说的内容一致性、知识体系搭建等问题。

原则上，如果你要找的东西就在一篇文档内，而且知识库里只有一篇文章，大概率不会有太大幻觉。要找的东西越少，或者给它的语料越小，大模型的回答就越准确。如果企业的知识库中有几十万、上百万文档，在治理上就要下很大功夫。

所以，第一是数据治理问题；第二是大部分企业级知识库都采用 RAG 去匹配大模型，因为无法把企业的知识库通过预训练的方式给到大模型，RAG 的本质是做切片和向量化，向量化策略也可以影响到模型输出的幻觉。

如果只做向量检索，当涉及多个文档时就会造成上下文丢失，蓝凌的解决方案是混合检索，把知识图谱、数据库检索等多种检索手段合在一起，以此来减少幻觉生成。

所以，克服大模型幻觉的方法，一是要把知识治理做得更好。二是通过一些辅助算法，不能单靠大模型或者 RAG 算法。

崔强：专家体系的价值还有多少？AI 未来能不能变成专家，自主地输出知识，能否信任它？

刘向华：最终一定会，但无法预测需要多长时间。目前专家仍是不可或缺的，特别是在知识经验萃取角度。

随着 AI 越来越聪明，它在不断消化专家的思维模式时，可能在文件处理、文档理解等某些方面替代或超越专家，但专家在某个领域的业务 Know-how 仍是无法被 AI 替代的。

此外，在很多大企业，尤其是一些知识密集型企业，要考虑知识体系的顶层设计和规划，这方面还不可能全部依赖 AI，还要靠专家。

崔强：对结果准确度要求不是那么高的领域，比如营销、客服等场景，AI 可能发展得比较快。在知识库领域，哪些场景是可以模糊的，哪些场景是必须要求精准的？

刘向华：偏 Copilot（辅助类）的，比如辅助生成、辅助搜索、辅助问答等，不需要 100% 准确，或者不需要太精准，文无第一；偏自动化执行的，是必须精准的，武无第二。

大模型带来两类主要能力，一类是语言理解能力，一类是思考或执行能力（分配工作的能力）。语言理解和生成这部分能力是免不了有幻觉的，不应苛求绝对精确。工作流程自动化，执行类的能力是可以要求比较精准的，主要方法是植入规则，或者知识图谱等。

所以，辅助类的能力可以不苛求准确，但自动化的部分一定要严谨、准确。

崔强：现在看原来一部分 RPA 厂商就转得比较快，转到了数字员工，RPA+Agent 可能会更靠谱一些。你怎么判断这两者的结合？

刘向华：实际上，传统 RPA 厂商是被 AI 变革或者被颠覆的那一波。

以前的 RPA 技术，更多是通过编程方式去模拟手工电脑上的操作。现在凡是模拟人的视觉和点击操作的这部分能力，恰恰是大模型所擅长的。

所以 RPA 厂商是一定要自我革命的，不是拿大模型去补充它，而是要尽快换代。

03 AI 知识库的新变化

崔强：原来做系统是给人用，现在做系统是给 AI 用，也就是要让 AI 能看得懂。在 AI 时代，知识库产品的形态会发生什么变化吗？

刘向华：大模型时代的组织级知识库，或者知识体系，有两个比较大的变化：一是用户的使用态或者交互方式的变化，即不一定到知识库检索或查询，可能是通过问答或个人助理的方式完成交互。

从组织态上，会存在体系梳理和整体质量优化的变化。这里我拆了两块东西，第一块要有知识库体系规划的设计，可以借助大模型辅助做更好的体系设计；第二块要解决知识碎片化的问题。一旦知识库做好以后，我们可以把知识库当作一种服务嵌入每个作业场景。

从使用态来讲，以前的知识库是只给人用，现在的知识库是给算法用。算法根据用户当前所在的场景和用户意图能够主动推送相关知识，这是 AI 知识库的一个发展方向。

知识库还要提供 API 给 AI 用。不只是存储，还要输出服务。

崔强：Agent 有点像当年的 SaaS。刚开始大家都是在单点突破形成一个小闭环。未来这些单点是不是又要整合在一起变成一个相对 “All in one” 的东西？

刘向华：这波 AI 跟以往 PC 互联网、移动互联网相比至少要高出一个量级，它是工业革命级别的，这是不同的地方。

相同的地方是当 AI 或者移动端出来时，所有的产品形态或者商业模式都是不清晰的，所以就百花齐放、百家争鸣了。

越是单点场景，场景越细碎，AI 的结果就越精准。所以，现阶段一定是碎片化的场景，用碎片化的技术，再加上一些碎片化的数据（知识点、知识库）支撑，形成产品场景的闭环。

这一点很像 2014 年前后我们做 SaaS ，当时主流大都是单点 SaaS 追求小而美，当技术发展到相对成熟的时间段，大家又开始考虑整体效率的问题，解决局部最优但全局无法最优的问题。

此外，很多企业都在追求超级入口，所以我认为，三五年后，大一统仍将是一个趋势。

崔强：企业级会有入口吗？企业级入口大概是什么样子？原来说协同是入口，在 AI 时代这点会变化吗？

刘向华：从乙方来看，大部分厂商都想追求入口；从甲方看，企业也希望有一个统一入口。

AI 时代这两块的入口可能是一致的，每个人只要有一个随身超级助理，既负责记录用户行为，又负责传递公司知识，但现在还没有到成熟的程度，也许要等三五年之后。

崔强：现在 Agent 产品和原有的产品，在使用体验和交互逻辑上几乎完全不同。你们在实践中的感受是怎么样的，用户的使用习惯会产生哪些改变？

刘向华：现在很多企业用户还不是特别习惯用语言对话的交互方式。我们碰到的大部分客户还是习惯 GUI（图形用户界面）的交互方式，但也不排斥多一个 AI 助手的帮助。

崔强：是一个加分项？

刘向华：是的。我们不能忘记语言交互的呈现丰富度是远远弱于图形交互的。所以，不要为了追求技术去搞技术。

崔强：通用大模型的投入很高。在一些小的领域里边，可能需要一些专业化的小模型。如何看待这两者的关系，在实际应用中两者如何配合或者互补？

刘向华：我们现在的判断是互补关系。以蓝凌的蓝博士 AI 中台为例，我们集成了若干个通用大模型，因为不同的通用大模型所擅长的领域也不同。此外，还会有许多小模型（更准确的称呼是小型工具，如 OCR 识别等），它们可以做一部分自动识别、自动化操作等偏智能的工作。

未来它们一定是大模型的补充，帮助大模型完成一个自动化的作业流程。什么东西好用就用什么，不应该试图用大模型来解决一切问题。

崔强：企业有那么多知识，有没有机会形成企业的私有知识大模型？

刘向华：目前，由于预训练成本很高，可能只有少数企业具备这样的可能性。从科学角度说，如果一个大模型内放了全世界的知识，再把一个企业内的知识 “掺和” 进去，就像一滴水放进大海，是没有什么意义的，不可能指望一滴水能改变大海的咸度。

所以用企业知识去训练大模型，可能本身就是一个伪命题，没有搞清楚大模型的原理，更可行的方式是去做通用大模型的辅助小模型，或者小的数据集、知识集，帮助大模型来降低幻觉。

崔强：多模态、情景感知、角色扮演等新特征在知识管理中会出现吗？

刘向华：这是个好问题，一定会出现。AI 如果最终能产生 10 倍价值，一定是干了某些替代人的事情。

如果 AI 能替代人做事情，那一定具备了情景感知的能力，只要感知得到，自动化就很容易做，新的环境感知设备或者技术一定能够催生很多大模型应用。

角色扮演是纯虚拟的形式，其实更容易做。

崔强：未来 3~5 年，整个知识管理或者 AI 知识库会发展到一个什么阶段？

刘向华：我个人是偏乐观的，它会变成企业数字化的一个必需品。以前，如果没有知识库，企业有网盘也可以，但现在不行了，必须对 AI 友好。

大部分企业的数据资产，只有 20% 左右是存在数据库里的，剩下 80% 是以会议纪要、设计稿等以文件形式存放的，它们都是极好的 AI 养料。

对于大部分企业来说，我认为建设一个对 AI 友好的知识库，是一个十分划得来而且必需的事情，有利于最大化地挖掘企业数据资产，AI 知识库的未来是比较乐观的。

文章来自于“牛透社”，作者“燕子”。

警惕 AI 知识库炫技：看着美，用着累

关键词: AI , 知识库 , 人工智能 , 大模型

AITNT资源拓展

根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考

AI代理

【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务，如比较价格、添加购物车、回复各种社交媒体等。
项目地址：https://github.com/browser-use/browser-use

AI工作流

【开源免费】字节工作流产品扣子两大核心业务：Coze Studio（扣子开发平台）和 Coze Loop（扣子罗盘）全面开源，而且采用的是 Apache 2.0 许可证，支持商用！
项目地址：https://github.com/coze-dev/coze-studio

【开源免费】n8n是一个可以自定义工作流的AI项目，它提供了200个工作节点来帮助用户实现工作流的编排。
项目地址：https://github.com/n8n-io/n8n
在线使用：https://n8n.io/（付费）

【开源免费】DB-GPT是一个AI原生数据应用开发框架，它提供开发多模型管理（SMMF）、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL（智能体工作流编排）等多种技术能力，让围绕数据库构建大模型应用更简单、更方便。
项目地址：https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file


【开源免费】VectorVein是一个不需要任何编程基础，任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤，并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。
项目地址：https://github.com/AndersonBY/vector-vein?tab=readme-ov-file
在线使用：https://vectorvein.ai/（付费）

智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的（AI Agents）项目。用户创建的智能体能够自动执行各种任务，从而让AI有步骤的去解决实际问题。
项目地址：https://github.com/Significant-Gravitas/AutoGPT

﻿【开源免费】MetaGPT是一个“软件开发公司”的智能体项目，只需要输入一句话的老板需求，MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色，包括产品经理 / 架构师 / 项目经理 / 工程师，MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址：https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

知识库

【开源免费】FASTGPT是基于LLM的知识库开源项目，提供开箱即用的数据处理、模型调用等能力。整体功能和“Dify”“RAGFlow”项目类似。很多接入微信，飞书的AI项目都基于该项目二次开发。
项目地址：https://github.com/labring/FastGPT

RAG

【开源免费】graphrag是微软推出的RAG项目，与传统的通过 RAG 方法使用向量相似性作为搜索技术不同，GraphRAG是使用知识图谱在推理复杂信息时大幅提高问答性能。
项目地址：https://github.com/microsoft/graphrag

【开源免费】Dify是最早一批实现RAG，Agent，模型管理等一站式AI开发的工具平台，并且项目方一直持续维护。其中在任务编排方面相对领先对手，可以帮助研发实现像字节扣子那样的功能。
项目地址：https://github.com/langgenius/dify

【开源免费】RAGFlow是和Dify类似的开源项目，该项目在大文件解析方面做的更出色，拓展编排方面相对弱一些。
项目地址：https://github.com/infiniflow/ragflow/tree/main

【开源免费】phidata是一个可以实现将数据转化成向量存储，并通过AI实现RAG功能的项目
项目地址：https://github.com/phidatahq/phidata

【开源免费】TaskingAI 是一个提供RAG，Agent，大模型管理等AI项目开发的工具平台，比LangChain更强大的中间件AI平台工具。
项目地址：https://github.com/TaskingAI/TaskingAI

无人直播

【开源免费】VideoChat是一个开源数字人实时对话，该项目支持支持语音输入和实时对话，数字人形象可自定义等功能，首次对话延迟低至3s。
项目地址：https://github.com/Henry-23/VideoChat
在线体验：https://www.modelscope.cn/studios/AI-ModelScope/video_chat

【开源免费】Streamer-Sales 销冠是一个AI直播卖货大模型。该模型具备AI生成直播文案，生成数字人形象进行直播，并通过RAG技术对现有数据进行寻找后实时回答用户问题等AI直播卖货的所有功能。
项目地址：https://github.com/PeterH0323/Streamer-Sales