大模型引发的AI大战持续了两年多之后,现在所有创业团队和投资人都在问的一个问题是——适用于大模型真正的场景有哪些?或者,更重要的是,到底怎么才能获得货真价实的客户和营收?
当普通消费者依然为对话式聊天助手而感到兴奋时,AI公司们早已经在寻找AI的落地场景。例如,企业SaaS,这个千亿美元级别赛道上挤满了OpenAI、Anthropic、微软等AI新贵和科技巨头。
就在这样拥挤的赛道中,一家名为Glean的公司,凭借企业内部AI搜索产品拿下了索尼电子、Databricks等行业巨头。
最近,这家刚刚成立5年的公司,在D轮融资中拿到了Kleiner Perkins和光速创投的2亿美元巨款,公司估值暴涨至22亿美元(约160亿人民币),成为企业AI赛道当之无愧的领头羊。
Glean是怎么做到的?它的企业AI搜索产品,又有什么不同凡响之处?
集中式AI搜索平台
Glean可以看作一个AI企业搜索和知识管理的平台,主要功能包括:AI搜索、知识管理、工作主页。
AI搜索是Glean最核心的功能,与传统搜索相比,它的优势在于跨应用和个性化。
Glean打造了一个深度集成的工作空间,为企业员工提供统一的界面,访问企业所有的应用程序和服务,快速搜索定位和整合零散的信息,如会议记录、支持票据、项目档案等,极大提高了查找信息的速度。
例如,用户可以在Glean的平台上搜索到Slack对话信息、Google文档内容和Confluence中的信息等。
不仅如此,用户还可以在Glean上执行与之连接的SaaS应用的轻量级功能,例如在Glean上直接启动会议、创建Jira文档等等。
在企业内部集成数据的基础上,Glean不仅整合了可实现“语义理解”的矢量搜索和关键词搜索技术,还利用LLM推出了生成式AI的搜索功能,并推出了AI助手。
Glean的AI助手主要有三个功能:
1. AI答案
Glean的AI可以根据每位用户的具体需求、偏好和访问权限,提供定制化的搜索结果。例如不同职位、不同地理位置的员工搜索自己的OKR指标时,Glean会给到每个人不同的结果。Glean还会利用员工的活动(如点击搜索结果)来提升搜索的相关性。
2. 专家检测
当检索不到信息时,Glean还能将员工与能够帮助回答问题或完成任务的人联系起来。
员工可以通过点击“people”选项,寻找到与搜索结果相关的内部“主题专家”。例如,当用户想要搜索“员工数据保留政策”的时候,该用户可以用“people”选项查找到工程安全部的相关负责人。
3. 上下文推荐
用户选中文档的某个内容后,输入快捷键Cmd-J/Ctrl-J就可以查看这一内容相关的补充内容和上下文。
例如,当用户在查看“供应商安全调查问卷”文档时,就可以输入快捷键查看“销售安全文档”、“常见安全问题汇总”等链接。
此外,Glean的AI助手还具有写作和编码助手的功能。例如,服务团队可以使用Glean生成支持票据回复。同样,它还能加快软件开发任务的速度,如查找编程最佳实践和最近的代码变更信息。
正如Glean创始人Arvind Jain所说,“Glean是一个面向公司所有数据的AI平台。你可以把它想象成你公司内部的谷歌或ChatGPT,它可以基于公司内部信息回答员工提出的任何问题,并引用源代码。”
除了搜索功能,Glean还提供“知识管理”和“工作主页”的功能。
“知识管理”指的是用户可以分享和整合相关的文档或链接,使用全新简短形式的URL进行界面跳转等,以便更轻松地导航到常用资源。
而且,任何员工或者团队都可以为应用程序中的文档添加自定义的描述,便于他人快速了解文档并与他人共享。例如,HR团队可以将员工入职相关的文档和链接整合到一个专门的集合中,便于新员工更快地了解公司。
“工作主页”则是根据用户的不同习惯,在主页呈现个性化的功能模块,包括公司公告、员工目录、日历等,用户还可以将重要项目固定到搜索结果的顶部。
可见,Glean可以在一个集中的AI平台上连接、保护、索引和理解客户的企业数据,这不仅极大地提升了信息检索的效率,还使得企业内部的信息和知识更加易于管理和利用。
对此,Glean创始人Arvind Jain表示,“通过这些功能强大的更新,Glean将企业搜索提升到了一个新的高度。我们正在提供一种辅助系统,使企业用户不仅能与公司知识保持联系,还能相互联系,从而在日益复杂的数字工作环境中推动前进。”
让企业放心用AI
Cisco(思科)最近的一项调查发现,超过四分之一的企业因隐私和数据安全风险而禁止使用GenAI。在民意调查中,企业表示他们担心GenAI工具会泄露他们的IP或可能向公众或竞争对手披露其他敏感信息。
对此,Glean公司首席执行官Arvind Jain表示,“企业领导者已经看到了ChatGPT在消费领域的威力,并渴望利用其潜力来显著提高工作场所的生产力和绩效。但企业数据非常复杂,需要克服的障碍很多,包括通用大模型存在的幻觉和数据泄漏的风险。如果部署不当,就有可能犯下代价高昂的错误。它需要建立在正确的搜索基础上,才能真正发挥价值。”
他还补充道,“Glean是唯一一家解决了如何将企业知识与LLM的推理能力结合起来,在工作中提供准确、安全的对话式AI体验的公司。”
那么,Glean是如何做到“准确”、“安全”的?
答案是帮企业用自己的数据训练企业专属的生成式AI模型。
而这一模型的基础就是Glean历时4年研发的“可信知识模型”。该模型不仅了解搜索内容,还了解上下文、人与人之间的关系、公司内部语言以及隐私和安全参数等,因此可以满足与企业需求相匹配的准确性、安全性和参考能力。
“可信知识模型”围绕三大支柱展开:
“可信知识模型”围绕三大支柱展开||图片来源:Glean官网
1. 公司知识和上下文:
Glean通过100多个连接器,连接到客户公司的所有应用程序,抓取数据源,再通过把所有元数据编制索引,通过全面梳理并深度理解,企业的内部语言、内部关系、内容活动等,为每个客户建立了一个独特的企业“知识图谱”作为“搜索索引”,从而确保搜索答案的个性化和相关性。
“知识图谱”不仅权衡了每条信息之间的直接联系,还权衡了无数其他信号和关系,比如能够识别细微差别,这使搜索引擎的知识更加完整,使生成式AI不断学习和改进,提高搜索相关性。
2. 权限和数据管理:
Glean的数据安全措施符合最高行业标准,客户个人信息的维护和保护符合欧盟《通用数据保护条例》(GDPR)的规定。
Glean采用了准确的数据访问权限与数据加密。比如,Glean遵守公司数据源中设置的权限规则,会进行用户访问审查以执行最小特权原则。这意味着,无论是Slack、Teams、Jira、ServiceNow等,员工都只能根据他们被授权访问的数据来获取答案。
同时,Glean通过对所有数据均使用AES 256进行静态加密,所有数据在传输过程中均使用TLS 1.2+加密等控制措施,来限制数据外泄风险。当用户在底层应用程序中删除文档时,该文档也会从Glean系统中同步删除。
此外,Glean还提供可扩展的基础设施和审核工具,以确保敏感数据按预期使用。
3. 完全可参考性:
Glean可以显示每条信息的来源以及每个响应是如何生成的。用户可以清楚地知道每条信息的来源,以及谁对此负责。
因此,当公司员工进行基于自然语言的查询时,Glean的AI助手会通过利用生成式机器学习模型,对其进行理解和分析,再使用公司专属的AI搜索引擎以及检索增强生成(RAG:Retrieval-augmented Generation)技术来检索最相关、最新的信息,最后将这些信息数据输入大型语言模型(LLM),根据公司的内部“知识图谱”,基于员工访问权限,为其提供“准确”、“安全”的搜索结果。
尽管,Glean正在混合使用大型语言模型输出搜索答案,包括OpenAI的GPT-4和谷歌的转换器模型BERT等,但Glean官方表示,“鉴于企业的生成式AI模型是定制的,因此企业的任何数据都不会被用于训练这些公开的模型,并使外部组织受益,甚至事实上根本不会被保留。”
可见,Glean相当于一个既了解公司情况又了解每位员工偏好的助手,搜索的回答是以“可信知识模型”为基础,让所有信息都安全私密、准确可追溯。
不仅“准确”、“安全”,Glean的部署使用也十分“方便”。
Glean提供Glean Apps和Glean API,企业用自然语言就能在任何需要的地方创建自定义AI应用程序,或者创建定制的AI助手、协同机器人、聊天机器人和代理,并将其集成到他们的工作流程中,数天内即可投入运行。
对此,Glean创始人Arvind表示,“Glean的初步设置时间不超过两小时,并且不需要任何工程技能或手动微调即可部署。无论是通过网络应用、新标签页、侧边栏搜索、原生搜索还是Slack命令,Glean都提供了无缝的工作流程集成。”
“我们相信,扩大人工智能生成体验以促进信息访问和发现,是为企业环境释放全部潜力的第一步。Glean站在领域内训练模型和微调LLM的前沿,为这一进步提供动力。”
拥挤的企业AI赛道
Glean由云数据管理公司Rubrik的联合创始人Arvind Jain发起,其灵感来自于Jain的观察:Rubrik的员工经常难以找到工作所需的信息,其他公司的员工也因同样的问题而苦恼。
2019年,Jain与谷歌、微软和Meta的前员工一起组建了一个小型创始团队,在硅谷中心帕洛阿尔托,建立了面向企业客户的AI搜索应用Glean。
随着生成式AI的发展,Glean成长转型为业界领先的GenAI解决方案提供商,致力于“为人们提供改变世界所需的知识”。
事实上,企业搜索在市场上并不是一个完全创新的概念,Glean有不少竞争对手,主要包括一些提供类似服务的大公司和其他初创公司,像是Microsoft SharePoint Syntex、Amazon Kendra、Google Cloud Search、Coveo、Elastic、Lucidworks等。
但是,Glean首次成功创建了全面解决方案,通过其独特的AI模型和个性化服务,在简化部署和操作流程方面领先于这些竞争对手。
Glean商业模式为纯ToB的模式,并向企业客户提供了两种不同的计费方式。
一种是基于每月每位用户(per-seat)的收费模式,每位用户的费用大约不超过100美元。另一种则是基于年度合同的定制化企业解决方案,这种合同的总金额一般介于5万到10万美元之间。值得一提的是,对于选择后者的客户,Glean通常会提供一定的折扣,使得整体方案更具成本效益,因此也更受到客户的青睐。
此外,Glean与Google Cloud Platform(GCP)建立了合作关系。在企业客户向Glean支付的费用中,有一部分是用于支付给GCP的费用。这笔费用相对固定,不会因为用户数量的增加而有显著变化,类似于一种基础成本,每月大约在1000到2000美金之间。
目前,Glean已经拥有70多家客户,从初创企业到财富500强企业,遍及科技、媒体、教育和医疗保健等多个行业。
Glean也自然成了资本的宠儿,投资方包括Kleiner Perkins、红杉资本、Lightspeed、Latitude Capital等,到目前为止,Glean成功进行了4轮融资,共融资8.5亿美元,估值高达22亿美元。
关于Glean的未来,Glean Technologies创始人Arvind Jain表示,“如今,AI的作用就是帮助你获取所需的信息。但很快,它的功能会更加强大,会转变为与你合作的AI。你会看到各种各样的聊天机器人和系统,我们将生活在一个人工智能为我们工作的世界里。”
只用5年时间就做成了一家估值超过20亿美元的公司,Glean无疑是成功的。但不得不说,2019年时生成式AI尚未像当下这么火热。事实上,不止硅谷,在全球范围内都已经出现非常有实力的竞争者,这其中既有OpenAI这样的消费、B端两手抓的公司;也有微软这样的商业软件巨头,更别说身后一堆AI初创公司。
作为领头羊,Glean如何保持自己的优势、扩大在企业市场的影响力,是个让人万分期待的问题。
文章来源于“极客公园”,作者“美漪”
【开源免费】n8n是一个可以自定义工作流的AI项目,它提供了200个工作节点来帮助用户实现工作流的编排。
项目地址:https://github.com/n8n-io/n8n
在线使用:https://n8n.io/(付费)
【开源免费】DB-GPT是一个AI原生数据应用开发框架,它提供开发多模型管理(SMMF)、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL(智能体工作流编排)等多种技术能力,让围绕数据库构建大模型应用更简单、更方便。
项目地址:https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file
【开源免费】VectorVein是一个不需要任何编程基础,任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤,并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。
项目地址:https://github.com/AndersonBY/vector-vein?tab=readme-ov-file
在线使用:https://vectorvein.ai/(付费)
【开源免费】graphrag是微软推出的RAG项目,与传统的通过 RAG 方法使用向量相似性作为搜索技术不同,GraphRAG是使用知识图谱在推理复杂信息时大幅提高问答性能。
项目地址:https://github.com/microsoft/graphrag
【开源免费】Dify是最早一批实现RAG,Agent,模型管理等一站式AI开发的工具平台,并且项目方一直持续维护。其中在任务编排方面相对领先对手,可以帮助研发实现像字节扣子那样的功能。
项目地址:https://github.com/langgenius/dify
【开源免费】RAGFlow是和Dify类似的开源项目,该项目在大文件解析方面做的更出色,拓展编排方面相对弱一些。
项目地址:https://github.com/infiniflow/ragflow/tree/main
【开源免费】phidata是一个可以实现将数据转化成向量存储,并通过AI实现RAG功能的项目
项目地址:https://github.com/phidatahq/phidata
【开源免费】TaskingAI 是一个提供RAG,Agent,大模型管理等AI项目开发的工具平台,比LangChain更强大的中间件AI平台工具。
项目地址:https://github.com/TaskingAI/TaskingAI
【开源免费】MindSearch是一个模仿人类思考方式的AI搜索引擎框架,其性能可与 Perplexity和ChatGPT-Web相媲美。
项目地址:https://github.com/InternLM/MindSearch
在线使用:https://mindsearch.openxlab.org.cn/
【开源免费】Morphic是一个由AI驱动的搜索引擎。该项目开源免费,搜索结果包含文本,图片,视频等各种AI搜索所需要的必备功能。相对于其他开源AI搜索项目,测试搜索结果最好。
项目地址:https://github.com/miurla/morphic/tree/main
在线使用:https://www.morphic.sh/
【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台,可以对大语言模型(LLM)和多模态图文模型(VLM)进行预训练和轻量级微调。XTuner 支持多种微调算法,如 QLoRA、LoRA 和全量参数微调。
项目地址:https://github.com/InternLM/xtuner