警惕 AI 知识库炫技:看着美,用着累

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
AITNT-国内领先的一站式人工智能新闻资讯网站 搜索
警惕 AI 知识库炫技:看着美,用着累
5216点击    2025-06-10 11:47

警惕 AI 知识库炫技:看着美,用着累


AI 知识库会成为企业数字化的一个必需品。


知识库成为大模型落地的热门场景,现实中却走入了 “技术炫酷却用不起来” 的窘境。


AI 能改变传统知识管理的困境吗?


在「DeepTalk」的第二个系列话题栏目「AI 的争议」对话中,崔牛会创始人 & CEO 崔强蓝凌副总裁刘向华,围绕 “AI≈知识库?为什么叫好不叫座?” 这一主题进行了深入讨论。


刘向华认为,当下中国的企业知识管理将因 AI 技术的发展而重新回热。在 AI 时代,构建 “AI 友好型” 知识库将有助于企业实现数据资产价值的最大化。


但也不要为了追求 AI 技术去搞技术,什么技术好用就用什么,不应执着于用大模型解决一切问题。


警惕 AI 知识库炫技:看着美,用着累


以下是经牛透社编辑整理的对话内容:(有删减)


Tips:观看对话原视频,可通过【牛透社视频号-直播回放-5月28日】获取


01

幻想与现实


崔强:今晚我们讨论的话题是 “AI≈知识库?为什么叫好不叫座?”。第一个话题是 AI 知识库的幻想与现实。为什么大家觉得 AI 知识库应该是杀手级的应用呢?


刘向华:我觉得还是要把 AI 的概念缩小一下,这波 AI 的主题是大模型,大模型是适合用来处理文本型数据的,以前我们称非结构化数据,比如文档、音视频等。


大模型最适合处理的数据类型正好在传统知识库领域,所以知识库就变成第一个热门场景了。ChatGPT 出来时,我们已经非常清醒地知道国内的企业知识管理也将重新回热


崔强:大模型来了之后,现在的企业知识库应用是一个什么状态?


刘向华:蓝凌主要还是面向大中型企业,中小企业的知识库我们涉猎得不是特别多(这方面的市场空间也相对小一点)。


从大中型企业知识库的建设角度来说,这波 AI 来了以后,绝大部分企业都会与大模型结合,主要场景有智能搜索智能问答等。问答场景比搜索场景更加具体或碎片化,比如关于制度、客服、工单的问答等。


崔强:现在我们可以看到一些 AI 知识库的案例,真正落地的效果怎么样?企业级知识库和个人知识库之间,除了权限之外还有什么明显的差异?


刘向华:个人知识库跟企业级知识库差别非常大。首先企业级知识库存在权限管理的问题,但更大、更深的区别在于知识体系的设计,这个其实是个知识体系治理的问题


一个公司的知识库应该分多少类?这些知识库有哪些是可以共用的?最重要的知识是哪些?每一类知识库的索引标签是什么……


而且从老板和 CIO 的全局视角看,不可能任由每个员工公有云、私有云到处搭自己的知识库,因为除了知识重复、标准知识的版本管理之外,还可能有一些涉密知识等。


另外,企业知识库还面临内容一致性的问题,在企业中,不同版本的制度、SOP 等文档可能既需要同时留存,还要让 AI 能够识别最新的版本避免误导,这些问题在个人知识库里几乎是不考虑的。


崔强:如果站在企业级知识库的角度,怎么看飞书刚推出的知识问答,能打几分?


刘向华:还是偏向于个人或者小团队级别,缺少很多东西。企业级知识库作为 ToB 产品,除了用户态的易用性之外,还要保障管理态(符合组织管理要求),以及生长态(可开发可扩展)。


整体上看它的用户态是 OK,但管理态和生长态较弱,希望它能够再成长。做 ToB 需要很多 Know-how。


崔强:大模型来了之后,蓝凌的知识库产品有了哪些变化?


刘向华:我们在做一个对 AI 更友好的知识库。AI 没出来之前,我们大部分知识库系统都是给人用,可能注重的是刚才说的用户态、管理态、生长态,归根到底是给人用。


有了 AI 以后,要考虑知识库如何给 AI 用


我们在实施 AI 项目时要考虑数据质量(如何获得更高质量的知识),让 AI 更好地理解,同时降低大模型幻觉,保证严谨性。此外,还要考虑很多技术和工具,比如知识体系梳理,知识图谱建模、自动入图、多库多文档的切片策略等。


崔强:传统知识管理最大的问题是什么?是用户不愿意用,还是用不起来?AI 来了会改变这一点吗?


刘向华:肯定会。传统知识管理,项目的成功实施都需要做管理和运营的配套,主要是因为传统知识管理系统的易用性并不是那么好


最近五年来,许多 ToB 软件开始学习 ToC 软件的用户交互,在易用性上提高了很多,但仍会出现员工不愿共享知识的问题。


如何让员工主动自愿贡献知识,公司要有制度或激励措施,比如一些积分设计或流程约束等。


比如蓝凌每实施一个项目,都会要求项目经理写复盘报告,要做 “知识收割”。但 “知识收割” 是要花时间和整理的,如果没有公司的制度要求和配套管理就很难做,这也意味着系统推广门槛的提升。


此外,还有文化。很多知识管理做得比较好的公司,它们的企业文化也是相对比较活跃的,员工愿意主动贡献和分享知识。


有了 AI 之后,可以帮员工提高效率,写汇报材料更简单,这也会激发员工有更多动机参与知识库建设。


02

大模型幻觉


崔强:你怎么看待大模型和知识严谨性的冲突?


刘向华:我把 AI 在企业内的应用拆分成两类:一类是与文字理解和生成相关的,这一类追求 100% 准确度是很难的,接近 OK 就可以了,所谓文无第一嘛;第二类是与现在的智能体强相关的


智能体背后是大模型赋能的工作流,没有大模型之前,它是基于规则流转,而规则是符号或者确定性的东西,所以,流程自动化可以追求 100% 的准确。加了大模型以后有可能做 100% 的准确,这要看规则和大模型能力的互相渗透了。


目前很多智能体开发平台、编排平台,仍在走自动化的方向,追求 100% 的准确,是因为企业级应用如果做不到足够严谨,就可能出事故。


崔强:如何看待大模型 “投毒” 的问题?在企业级知识库中,如何判断 AI 的输出是可靠的?


刘向华:大模型和人类都是有幻觉的。首先,不能完全杜绝大模型幻觉,要清晰每个技术的边界。其次,才是追求如何减少幻觉。此外,还要注意数据(知识)质量,这包含了刚才所说的内容一致性、知识体系搭建等问题。


原则上,如果你要找的东西就在一篇文档内,而且知识库里只有一篇文章,大概率不会有太大幻觉。要找的东西越少,或者给它的语料越小,大模型的回答就越准确。如果企业的知识库中有几十万、上百万文档,在治理上就要下很大功夫。


所以,第一是数据治理问题;第二是大部分企业级知识库都采用 RAG 去匹配大模型,因为无法把企业的知识库通过预训练的方式给到大模型,RAG 的本质是做切片和向量化,向量化策略也可以影响到模型输出的幻觉。


如果只做向量检索,当涉及多个文档时就会造成上下文丢失,蓝凌的解决方案是混合检索,把知识图谱、数据库检索等多种检索手段合在一起,以此来减少幻觉生成。


所以,克服大模型幻觉的方法,一是要把知识治理做得更好。二是通过一些辅助算法,不能单靠大模型或者 RAG 算法。


崔强:专家体系的价值还有多少?AI 未来能不能变成专家,自主地输出知识,能否信任它?


刘向华:最终一定会,但无法预测需要多长时间。目前专家仍是不可或缺的,特别是在知识经验萃取角度。


随着 AI 越来越聪明,它在不断消化专家的思维模式时,可能在文件处理、文档理解等某些方面替代或超越专家,但专家在某个领域的业务 Know-how 仍是无法被 AI 替代的。


此外,在很多大企业,尤其是一些知识密集型企业,要考虑知识体系的顶层设计和规划,这方面还不可能全部依赖 AI,还要靠专家。


崔强:对结果准确度要求不是那么高的领域,比如营销、客服等场景,AI 可能发展得比较快。在知识库领域,哪些场景是可以模糊的,哪些场景是必须要求精准的?


刘向华:Copilot(辅助类)的,比如辅助生成、辅助搜索、辅助问答等,不需要 100% 准确,或者不需要太精准,文无第一;偏自动化执行的,是必须精准的,武无第二。


大模型带来两类主要能力,一类是语言理解能力,一类是思考或执行能力(分配工作的能力)。语言理解和生成这部分能力是免不了有幻觉的,不应苛求绝对精确。工作流程自动化,执行类的能力是可以要求比较精准的,主要方法是植入规则,或者知识图谱等。


所以,辅助类的能力可以不苛求准确,但自动化的部分一定要严谨、准确。


崔强:现在看原来一部分 RPA 厂商就转得比较快,转到了数字员工,RPA+Agent 可能会更靠谱一些。你怎么判断这两者的结合?


刘向华:实际上,传统 RPA 厂商是被 AI 变革或者被颠覆的那一波


以前的 RPA 技术,更多是通过编程方式去模拟手工电脑上的操作。现在凡是模拟人的视觉和点击操作的这部分能力,恰恰是大模型所擅长的。


所以 RPA 厂商是一定要自我革命的,不是拿大模型去补充它,而是要尽快换代。


03

AI 知识库的新变化


崔强:原来做系统是给人用,现在做系统是给 AI 用,也就是要让 AI 能看得懂。在 AI 时代,知识库产品的形态会发生什么变化吗?


刘向华:大模型时代的组织级知识库,或者知识体系,有两个比较大的变化:一是用户的使用态或者交互方式的变化,即不一定到知识库检索或查询,可能是通过问答或个人助理的方式完成交互。


从组织态上,会存在体系梳理和整体质量优化的变化。这里我拆了两块东西,第一块要有知识库体系规划的设计,可以借助大模型辅助做更好的体系设计;第二块要解决知识碎片化的问题。一旦知识库做好以后,我们可以把知识库当作一种服务嵌入每个作业场景。


从使用态来讲,以前的知识库是只给人用,现在的知识库是给算法用。算法根据用户当前所在的场景和用户意图能够主动推送相关知识,这是 AI 知识库的一个发展方向。


知识库还要提供 API 给 AI 用。不只是存储,还要输出服务。


崔强:Agent 有点像当年的 SaaS。刚开始大家都是在单点突破形成一个小闭环。未来这些单点是不是又要整合在一起变成一个相对 “All in one” 的东西?


刘向华:这波 AI 跟以往 PC 互联网、移动互联网相比至少要高出一个量级,它是工业革命级别的,这是不同的地方。


相同的地方是当 AI 或者移动端出来时,所有的产品形态或者商业模式都是不清晰的,所以就百花齐放、百家争鸣了。


越是单点场景,场景越细碎,AI 的结果就越精准。所以,现阶段一定是碎片化的场景,用碎片化的技术,再加上一些碎片化的数据(知识点、知识库)支撑,形成产品场景的闭环。


这一点很像 2014 年前后我们做 SaaS ,当时主流大都是单点 SaaS 追求小而美,当技术发展到相对成熟的时间段,大家又开始考虑整体效率的问题,解决局部最优但全局无法最优的问题。


此外,很多企业都在追求超级入口,所以我认为,三五年后,大一统仍将是一个趋势


崔强:企业级会有入口吗?企业级入口大概是什么样子?原来说协同是入口,在 AI 时代这点会变化吗?


刘向华:从乙方来看,大部分厂商都想追求入口;从甲方看,企业也希望有一个统一入口。


AI 时代这两块的入口可能是一致的,每个人只要有一个随身超级助理,既负责记录用户行为,又负责传递公司知识,但现在还没有到成熟的程度,也许要等三五年之后。


崔强:现在 Agent 产品和原有的产品,在使用体验和交互逻辑上几乎完全不同。你们在实践中的感受是怎么样的,用户的使用习惯会产生哪些改变?


刘向华:现在很多企业用户还不是特别习惯用语言对话的交互方式。我们碰到的大部分客户还是习惯 GUI(图形用户界面)的交互方式,但也不排斥多一个 AI 助手的帮助。


崔强:是一个加分项?


刘向华:是的。我们不能忘记语言交互的呈现丰富度是远远弱于图形交互的。所以,不要为了追求技术去搞技术


崔强:通用大模型的投入很高。在一些小的领域里边,可能需要一些专业化的小模型。如何看待这两者的关系,在实际应用中两者如何配合或者互补?


刘向华:我们现在的判断是互补关系。以蓝凌的蓝博士 AI 中台为例,我们集成了若干个通用大模型,因为不同的通用大模型所擅长的领域也不同。此外,还会有许多小模型(更准确的称呼是小型工具,如 OCR 识别等),它们可以做一部分自动识别、自动化操作等偏智能的工作。


未来它们一定是大模型的补充,帮助大模型完成一个自动化的作业流程。什么东西好用就用什么,不应该试图用大模型来解决一切问题


崔强:企业有那么多知识,有没有机会形成企业的私有知识大模型?


刘向华:目前,由于预训练成本很高,可能只有少数企业具备这样的可能性。从科学角度说,如果一个大模型内放了全世界的知识,再把一个企业内的知识 “掺和” 进去,就像一滴水放进大海,是没有什么意义的,不可能指望一滴水能改变大海的咸度。


所以用企业知识去训练大模型,可能本身就是一个伪命题,没有搞清楚大模型的原理,更可行的方式是去做通用大模型的辅助小模型,或者小的数据集、知识集,帮助大模型来降低幻觉。


崔强:多模态、情景感知、角色扮演等新特征在知识管理中会出现吗?


刘向华:这是个好问题,一定会出现。AI 如果最终能产生 10 倍价值,一定是干了某些替代人的事情


如果 AI 能替代人做事情,那一定具备了情景感知的能力,只要感知得到,自动化就很容易做,新的环境感知设备或者技术一定能够催生很多大模型应用。


角色扮演是纯虚拟的形式,其实更容易做。


崔强:未来 3~5 年,整个知识管理或者 AI 知识库会发展到一个什么阶段?


刘向华:我个人是偏乐观的,它会变成企业数字化的一个必需品。以前,如果没有知识库,企业有网盘也可以,但现在不行了,必须对 AI 友好。


大部分企业的数据资产,只有 20% 左右是存在数据库里的,剩下 80% 是以会议纪要、设计稿等以文件形式存放的,它们都是极好的 AI 养料。


对于大部分企业来说,我认为建设一个对 AI 友好的知识库,是一个十分划得来而且必需的事情,有利于最大化地挖掘企业数据资产,AI 知识库的未来是比较乐观的。


文章来自于“牛透社”,作者“燕子”。


警惕 AI 知识库炫技:看着美,用着累

关键词: AI , 知识库 , 人工智能 , 大模型
AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
AI代理

【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务,如比较价格、添加购物车、回复各种社交媒体等。

项目地址:https://github.com/browser-use/browser-use


2
AI工作流

【开源免费】n8n是一个可以自定义工作流的AI项目,它提供了200个工作节点来帮助用户实现工作流的编排。

项目地址:https://github.com/n8n-io/n8n

在线使用:https://n8n.io/(付费)


【开源免费】DB-GPT是一个AI原生数据应用开发框架,它提供开发多模型管理(SMMF)、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL(智能体工作流编排)等多种技术能力,让围绕数据库构建大模型应用更简单、更方便。

项目地址:https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file



【开源免费】VectorVein是一个不需要任何编程基础,任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤,并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。

项目地址:https://github.com/AndersonBY/vector-vein?tab=readme-ov-file

在线使用:https://vectorvein.ai/(付费)

3
智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。

项目地址:https://github.com/Significant-Gravitas/AutoGPT


【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

4
知识库

【开源免费】FASTGPT是基于LLM的知识库开源项目,提供开箱即用的数据处理、模型调用等能力。整体功能和“Dify”“RAGFlow”项目类似。很多接入微信,飞书的AI项目都基于该项目二次开发。

项目地址:https://github.com/labring/FastGPT

5
RAG

【开源免费】graphrag是微软推出的RAG项目,与传统的通过 RAG 方法使用向量相似性作为搜索技术不同,GraphRAG是使用知识图谱在推理复杂信息时大幅提高问答性能。

项目地址:https://github.com/microsoft/graphrag

【开源免费】Dify是最早一批实现RAG,Agent,模型管理等一站式AI开发的工具平台,并且项目方一直持续维护。其中在任务编排方面相对领先对手,可以帮助研发实现像字节扣子那样的功能。

项目地址:https://github.com/langgenius/dify


【开源免费】RAGFlow是和Dify类似的开源项目,该项目在大文件解析方面做的更出色,拓展编排方面相对弱一些。

项目地址:https://github.com/infiniflow/ragflow/tree/main


【开源免费】phidata是一个可以实现将数据转化成向量存储,并通过AI实现RAG功能的项目

项目地址:https://github.com/phidatahq/phidata


【开源免费】TaskingAI 是一个提供RAG,Agent,大模型管理等AI项目开发的工具平台,比LangChain更强大的中间件AI平台工具。

项目地址:https://github.com/TaskingAI/TaskingAI

6
无人直播

【开源免费】VideoChat是一个开源数字人实时对话,该项目支持支持语音输入和实时对话,数字人形象可自定义等功能,首次对话延迟低至3s。

项目地址:https://github.com/Henry-23/VideoChat

在线体验:https://www.modelscope.cn/studios/AI-ModelScope/video_chat


【开源免费】Streamer-Sales 销冠是一个AI直播卖货大模型。该模型具备AI生成直播文案,生成数字人形象进行直播,并通过RAG技术对现有数据进行寻找后实时回答用户问题等AI直播卖货的所有功能。

项目地址:https://github.com/PeterH0323/Streamer-Sales