告诉你,Glean脱颖而出的秘密
搜索,几乎是AI应用最成熟的场景,不仅跑出了Perplexity AI这种初创独角兽,还吸引了模型巨头OpenAI的投入。当所有目光放到AI搜索在C端的应用,却忽略了在企业搜索的赛道上,有一家公司正在大放异彩,那就是Glean。
今年2月,Glean刚刚完成了一轮2亿美元的融资,估值已经提升到22亿美元。而Perplexity AI直到今年4月估值才刚刚突破10亿美元。也就是说,Glean不仅比Perplexity AI更早迈入独角兽行列,估值还比它高一倍。
Glean的成功之处在于,通过对企业数据的学习,为每一个客户公司训练定制化的AI模型,构建有关公司人员、内容和互动的知识图谱,不仅打破了不同SaaS应用、不同结构数据之间的壁垒,也规避了通用模型信息准确性、安全性差的缺点。
目前,Glean产品和服务已经受到了索尼电子和Databricks等大客户的青睐。据CNBC报道,Glean去年的年化收入为3900万美元,较上一年几乎翻了两番。
为什么Glean能够脱颖而出?在Glean成功的背后,又对我们理解AI应用落地带来什么启示?
从功能上看,Glean产品主要功能包括:搜索、知识管理、工作主页。
搜索是Glean最核心的功能。在相当长时间里,搜索都是基于关键词进行。2019年,随着Transformer技术的兴起,2019年Glean创新地推出了生成嵌入并构建语义搜索。
假设用户在Glean 中输入“向我展示 X 的产品手册”,该技术将显示X的用户指南、X的团队手册、X的产品手册以及基于语义搜索匹配的任何其他内容,而不仅仅是关键字匹配。
2023年4月,Glean利用LLM推出生成式AI的搜索功能,包括AI答案、专家搜索和相关内容推荐。在这些功能中,用户除了能获得一个答案外,还能获得更多基于问题的延伸信息,比如与搜索结果相关的员工,以及AI提供的相关补充内容。
与传统搜索相比,Glean搜索的优势在于,个性化和跨应用。
Glean结合客户公司的语言和背景等为每一个客户自动训练定制化的AI模型,并构建有关公司人员、内容和互动的知识图谱。例如,对于同一个查询,工程师可能会看到与销售主管截然不同的结果。Glean还会利用用户的活动(如点击搜索结果)来提升搜索的相关性。
同时,API也支持跨应用程序搜索,因此用户可以通过Glean搜索公司所有应用程序的内容。
面对数据源的多样性,Glean通过使用人工智能系统来预测每个查询的相关内容重要性,并根据客户数据训练专门的系统来识别公司特定的术语、概念、实体和缩写。用户可以在Glean的平台上搜索到Slack对话信息、Google文档内容和Confluence中的信息等。
除此之外,Glean还提供知识管理、工作空间等功能。
其中,知识管理就是用户可以分享和整合相关的文档或链接,例如 HR 团队可以将入职相关的文档和链接整合到一个专门的集合中,便于新员工入职时能够更快地了解和适应公司。
工作空间则是根据用户的不同习惯,在主页呈现个性化的功能模块,包括公司公告、员工目录、日历等等。
目前,Glean商业模式为纯 toB 的模式,未向个人用户开放,定价方式有两种,一是per-seat的定价模型,每个sea每月100美金以内;二是针对企业级解决方案的个性化定价模型。过去一年,Glean的收入从1000万美元增长到了3900万美元。
我们都知道,通用大模型往往很难直接在企业场景落地,原因无非两点: 准确性和安全性。而Glean恰恰就是从这两点出发的。
作为一款搜索产品,Glean的语言模型完全建立在公司独特的知识库上,涵盖组织中的所有内容(跨文档、跨应用)、人员架构和交互信息,对内容、语言、人员和关系有着很深的理解,同时采用检索增强生成(RAG),确保Glean可以检索最相关的信息,并使用最新的知识进行回答。
也就是说,Glean相当于一个最了解公司情况同时又了解每位同事的关注点和偏好的助手,搜索的回答是以可信知识模型为基础,让所有信息都可追溯,信息的准确性大大加强。
在信息安全性方面,Glean采用了准确的数据访问权限与数据加密。比如,Glean遵守公司数据源中设置的权限规则,会进行用户访问审查以执行最小特权原则。这意味着,无论是 Slack、Teams、Jira、ServiceNow 等,因此员工只能根据他们被授权访问的数据来获取答案。
同时,Glean也对所有的数据都进行了安全加密,当用户在底层应用程序中删除文档时,该文档也会从 Glean 系统中同步删除。
除了规避大模型的弊端,Glean也基于现有流程和功能进行了优化和升级。
一方面,Glean充分发挥大模型的通用能力,提供了搜索总结、结果溯源、深度探索、多轮对话等新功能,创造了更多的应用场景。
另一方面,Glean也对注重流程的简化,降低使用门槛。用Glean 创始人Arvind的话说,“Glean 的初步设置时间不超过两小时,并且不需要任何工程技能或手动微调即可部署。无论是通过网络应用、新标签页、侧边栏搜索、原生搜索还是Slack命令,Glean都提供了无缝的工作流程集成。”
目前,Glean与100+主流SaaS软件相连接,不需要客户在工程方面进行任何操作,而其他产品要么集成的SaaS的数量太少,要么只提供搜索工具,客户需要自己手动与SaaS应用相连接。
当一家企业冷启动Glean,只需要 1-3 天,不需要任何的工程或技术人员,而使用其他企业搜索产品则需要大约 3 周的时间,还需要企业内部工程团队。
总的来说,Glean的成功背后,不仅仅是大模型技术应用这么简单,其不仅针对企业场景特点对模型进行了差异化调整,又在产品易用性方面做出了简化设计,降低了用户使用的门槛。
当所有人都在探索AI落地的当下,Glean的成功能够带给我们很多启示。
第一,Glean没有像很多AI应用注重于个人生产力的提升,而是选择优化了原有的部分工作流程,进而提升了整个系统的效率。
事实上,企业搜索并不是一个新的应用场景,并且传统搜索方式存在明显的痛点。在规模较大的企业中,信息检索正在变成一项越来越繁琐的工作。
根据ReportLinker的预测,全球企业搜索市场预计到2028年将达到69亿美元,且随着远程办公趋势的增长,企业对高效搜索和知识管理的需求日益增加。
一方面,员工使用的应用程序不断增长。Gartner的调查报告显示,员工需要使用的应用程序数量从5年前的6个增长到11个,翻了一倍。
另一方面,不同应用程序里的数据并不相通。一组数据显示,海外企业平均拥有超过 1000+ 应用,其中只有29%的应用程序积极相互通信并共享数据。
而Glean的价值在于,在所有SaaS产品之上构建通用平台,用户不需要再逐一打开应用,而是在Glean上就可以查到企业数据。
第二,Glean通过大模型技术,提升了原本服务的价值,把搜索从简单的信息输出转变为提供工作建议。
具体来说,在掌握企业内部知识的同时又了解每位员工偏好的情况下,Glean不仅可以根据用户提供的信息生成工作文本,还可以根据外部数据源检索相关的知识或资源,并根据用户反馈进行修改或优化,并提供工作效率和质量的指标和建议,从而提供工作洞察。
考虑到模型本身存在数据飞轮,用户使用Glean的时间越长,Glean积累的个性化的用户数据就越多,搜索结果越个性化、越懂用户、越准确。
都说现在的AI应用是拿着锤子找钉子。毫无疑问,专注于企业搜索Glean找到了自己的钉子,并狠狠砸了上去。我们相信,未来将会有越来越多的大模型企业,找到属于自己的钉子。
本文来自微信公众号“乌鸦智能说”,作者:智能乌鸦
【开源免费】n8n是一个可以自定义工作流的AI项目,它提供了200个工作节点来帮助用户实现工作流的编排。
项目地址:https://github.com/n8n-io/n8n
在线使用:https://n8n.io/(付费)
【开源免费】DB-GPT是一个AI原生数据应用开发框架,它提供开发多模型管理(SMMF)、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL(智能体工作流编排)等多种技术能力,让围绕数据库构建大模型应用更简单、更方便。
项目地址:https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file
【开源免费】VectorVein是一个不需要任何编程基础,任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤,并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。
项目地址:https://github.com/AndersonBY/vector-vein?tab=readme-ov-file
在线使用:https://vectorvein.ai/(付费)
【开源免费】FASTGPT是基于LLM的知识库开源项目,提供开箱即用的数据处理、模型调用等能力。整体功能和“Dify”“RAGFlow”项目类似。很多接入微信,飞书的AI项目都基于该项目二次开发。
项目地址:https://github.com/labring/FastGPT
【开源免费】graphrag是微软推出的RAG项目,与传统的通过 RAG 方法使用向量相似性作为搜索技术不同,GraphRAG是使用知识图谱在推理复杂信息时大幅提高问答性能。
项目地址:https://github.com/microsoft/graphrag
【开源免费】Dify是最早一批实现RAG,Agent,模型管理等一站式AI开发的工具平台,并且项目方一直持续维护。其中在任务编排方面相对领先对手,可以帮助研发实现像字节扣子那样的功能。
项目地址:https://github.com/langgenius/dify
【开源免费】RAGFlow是和Dify类似的开源项目,该项目在大文件解析方面做的更出色,拓展编排方面相对弱一些。
项目地址:https://github.com/infiniflow/ragflow/tree/main
【开源免费】phidata是一个可以实现将数据转化成向量存储,并通过AI实现RAG功能的项目
项目地址:https://github.com/phidatahq/phidata
【开源免费】TaskingAI 是一个提供RAG,Agent,大模型管理等AI项目开发的工具平台,比LangChain更强大的中间件AI平台工具。
项目地址:https://github.com/TaskingAI/TaskingAI
【开源免费】MindSearch是一个模仿人类思考方式的AI搜索引擎框架,其性能可与 Perplexity和ChatGPT-Web相媲美。
项目地址:https://github.com/InternLM/MindSearch
在线使用:https://mindsearch.openxlab.org.cn/
【开源免费】Morphic是一个由AI驱动的搜索引擎。该项目开源免费,搜索结果包含文本,图片,视频等各种AI搜索所需要的必备功能。相对于其他开源AI搜索项目,测试搜索结果最好。
项目地址:https://github.com/miurla/morphic/tree/main
在线使用:https://www.morphic.sh/
【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台,可以对大语言模型(LLM)和多模态图文模型(VLM)进行预训练和轻量级微调。XTuner 支持多种微调算法,如 QLoRA、LoRA 和全量参数微调。
项目地址:https://github.com/InternLM/xtuner