ChatGPT 人工智能 GPT4 伦理 生成式 医疗 监管 安全 机器学习 深度学习 神经网络 计算机视觉 强化学习 模型 算法 应用 开发 研究 工具 平台 框架 数据集 训练 部署 安全 合规 培训 投资 LLM,llm AI,ai,Ai 大模型 大语言模型 制图 生图 绘图 文生图 文生视频 生成式AI AGI 世界模型 sora chatGPT,chatgpt,ChatGpt claude openai Llama deepseek midjourney 红熊猫模型 Red panda,panda Stable Diffusion,StableDiffusion,stable DALL- E 3 DALL E DALL Flux,flux 扩散模型 混元大模型 文心一言 通义千问 可灵 Pika PixelDance 豆包 月之暗面 零一万物 阶跃星辰 搜索增强 MiniMax Talkie Agent prompt fastai LangChain TTS 微调 提示词 知识库 智能体
# 热门搜索 #
搜索
Glean:企业AI搜索,估值46亿美元,ARR一年翻4倍
1985点击    2024-11-13 13:53


在 9 月份完成了 2.6 亿美元的 E 轮融资后,主打企业内部 AI 搜索的 Glean 估值达到 46 亿美元。


2019 年创立,从企业内部搜索开始做起,5 年内完成五轮融资,在 ChatGPT 推出之后,Glean 以基于 RAG 技术的企业 AI 搜索为核心,陆续推出 Glean Assistant(Copilot)、Glean Apps(应用平台)和 Glean Actions(Agent)等产品。过去一年,Glean 的 ARR 几乎翻了 4 倍,达到 5500 万美元。


值得注意的是,它的 DAU/MAU 比例约为 40%,远高于传统企业 SaaS 的 10-20%。核心产品 Glean Assistant 的用户每天平均查询 14 次,而谷歌的用户日均查询次数为 3-4 次。Databricks、Duolingo、Grammarly 和 Sony Electronics 都是它的客户。


可以说,Glean 把企业内部 AI 搜索这事儿做成了。


最近,红杉资本和 Glean 创始人 Arvind Jain 进行了深度访谈,Arvind Jain 是 Google 早期员工,Google 搜索算法的核心构建者。在这次访谈中,他们探讨了为什么企业搜索比互联网搜索更难,如何突破这个难点;AI 如何在企业内部落地,以及如何用 RAG 实现和 Google 搜索类似的搜索排名效果;这为 ToB 方面的 AI 落地实践提供了参考。


一些有意思的点:


  • 构建有效的 AI 应用需要先有强大的数据基础设施,包括与企业系统的深入集成、健全的安全和权限框架,以及能够理解人与内容、上下文之间关系的复杂知识图谱。如果没有这个基础,无论模型多么复杂,AI 应用都无法提供真正价值。
  • 与消费者应用相比,企业搜索和 AI 应用落地的难点在于企业数据是私有的,基于权限的,并且具有深刻的上下文依赖性。所以突破难点,不仅在于理解内容,还要理解组织结构、用户角色和访问权限。
  • 企业 AI 迭代的方式是从员工的实际工作行为中学习——他们接触了哪些文档,如何在沟通工具中互动,以及哪些信息对他们有价值。追踪这些隐性信号可以创造一个良性循环,使 AI 能够逐步提供真正相关且有用的内容。
  • 你必须找到一个你打算解决的业务问题,并希望借助 AI 技术,你能以更好的方式解决这个问题。我不认为创建 AI 公司和其他公司本质上有太大的不同。
  • 对于企业 AI 创业者,不应从 AI 出发创业,而应从用户出发,例如先通过关键功能(如企业搜索)为用户提供清晰的价值,再扩展到更多的 AI 功能。这种方式可以建立与企业的信任,并为高级功能提供所需的数据基础。


01 

企业搜索要理解

员工和知识库之间的关系


红杉资本:Arvind,能否先介绍下 Glean 的业务及其目标?


Arvind Jain:打个比方,Glean 是公司内部的 Google 或 ChatGPT。公司员工可以向它提问,Glean 会使用公司的内部知识,回答所有的问题。此外,企业可以使用 Glean 的 RAG 平台快速构建 AI 应用程序。


红杉资本:你提到 Glean 是企业中的 Google,其实每位CIO(首席信息官)都想解决这个重要问题,但努力了二十年始终未果。你曾是 Google 的知名搜索工程师,但即使 Google 也未能攻克这一领域。能否解释一下,为什么这个问题这么难以解决?你又是如何解决的?


Arvind Jain:搜索很难,某种程度上它就像是魔法。用户的期望总是很高,他们认为自己提出任何问题,系统就应该返回正确的答案。所以,这在企业环境中尤其困难,难度主要在于获取信息,企业内部的信息分散在众多不同的系统中,更难的是理解哪些信息是有用的、哪些已经过时。


我认为过去这个问题没有被很好解决,原因是问题太复杂,它需要大量的研发和投资。这在很多方面对初创企业并不友好。此外,在 SaaS 出现之前,几乎不可能构建这样的产品;因为要让企业信息变得可以被搜索,需要将数据引入搜索系统,需要连接企业的所有数据,这可能花费一年时间与企业合作。


红杉资本:我们主要想聊 Glean 的AI方面,但我知道你们的技术架构有很多层次。例如基础设施、连接器、引擎、知识图谱等。能否谈谈,在实现 AI 运作之前,Glean 为此构建了哪些基础设施?


Arvind Jain:搜索首先依赖于数据和知识,然后让这些信息变得可搜索。Glean 技术堆栈的第一部分是与最常见的企业系统建立的深入集成,比如 Salesforce、Confluence、Jira、Google Drive、SharePoint、ServiceNow 等,企业数据通常存储在这些系统中,我们要将它们全部汇集到一个地方。


然后,需要考虑企业数据,这也是企业搜索和 Google 搜索之间最主要的区别之一。大多数企业信息是私有的,当用户在 Google Drive 创建了一份文档,这个文档可能仅对用户个人可见,或者与少数其他人共享。因此,很难构建一个将公司所有知识一股脑地开放给所有人的搜索引擎,这个系统必须理解每个内容的权限。当用户进行搜索时,系统需要理解用户身份,并只返回他们有权限访问的信息。这就是治理层,这一层负责理解跨越上百个不同系统的权限规则,非常复杂。


第三部分,搜索不仅是将一大堆文档放入索引,当有人提出问题时,除了通过关键词或语义匹配来找到合适的内容,系统还需要理解提问者是谁,这也是过去大多数产品失败的地方。比如,新员工可能会询问「入职指南」,但究竟该返回哪一份入职指南?这取决于员工是在市场部还是工程部。


因此,理解员工、知识以及它们之间的关系,是企业内部搜索或问答服务成功的关键。这正是我们所做的,我们构建了一个深度知识图谱,分析所有员工,理解他们在公司中扮演的角色;分析所有文档,并试图理解哪些文档适用于哪些部门,哪些文档被广泛使用。我们还分析某个员工与某个文档之间的关系,这些信息构成了我们系统的核心基础,当有人提问时,能够根据他们的需求优先返回最相关的知识。


你提到在 AI 变得重要之前需要做哪些准备工作。对我们来说,AI 从一开始就是核心搜索技术的一部分。


语言模型实际上从第一天起就是我们核心搜索体验的一部分,因为它们帮助我们在语义层面上理解内容。早在 2019 年,我们就在使用大语言模型,或者至少是 BERT 等语言模型。因此,当我们最初为用户处理问题时,语言模型已经嵌入了我们的核心搜索体验中。我们从未局限于用户使用的精确关键词,语言模型能够理解问题背后的含义,并将其与正确的文档匹配。


02 

好的 RAG 系统,

需要有完整的上下文理解


红杉资本:能谈谈搜索排名吗?我认为 Google 成功的部分原因在于,我总能在页面顶部找到我想要的答案。在公共互联网,有海量的网页数据和链接可以用来让排名系统真正发挥作用。对于 Glean,这种体验有多重要?你们是如何实现的?


Arvind Jain:是的,打造一个优秀的排名系统是我们产品的核心。


为了构建优秀的搜索排名系统,我们做了大量的工作。我们有一些用来判断哪些文档最适合在某个问题下排名靠前的因素。比如,如果公司内部有一份文档被频繁查看,这显然表明该文档有重要信息,人们愿意花时间阅读它。如果一份文档是在过去一两周内写的,并且有一些互动,这也表明它是人们关心的信息。再比如,如果一份文档在公司层面不太受欢迎,但在某个特定团队中有很高的使用率,这意味着该文档对该团队的成员很有价值。


最后一个例子,假设有人有一个问题,他们没有通过搜索解决,而是在 Slack 上提问,然后另一个人发了一个文档链接作为回答,提问者给了一个「点赞」。这个互动意味着什么,这表明该文档对这个问题是一个很好的答案。如果你能记住这个关联,当下次有人提出类似问题时,它将帮助你提供更好的答案。


这些就是我们需要不断搜集的信号。在企业环境中,你必须以不同的方式收集这些信号,而在互联网环境中,Google 只需分析发生在 Google 平台上的所有活动,因为它几乎索引了绝大多数互联网内容。在企业中,事情并不总是通过搜索发生的,你必须去观察所有关于知识的活动,无论是在沟通系统中还是在文档系统中,要从人类的行为中学习,从员工的行为中学习。你收集的信息越多,你的排名系统就会越好。


红杉资本:我们可以花点时间谈谈 RAG 吗?你们在合适的时间做了大量艰难的准备工作,当大语言模型技术变得非常出色时,你们已经有了所有的基础设施。我认为你们是将 RAG 用于实际企业内容的专家之一。你能否简要说明 RAG 是什么?让它发挥作用的秘诀是什么?有哪些是你只能通过 RAG 实现的,而在普通的聊天界面中无法实现的?


Arvind Jain:GPT、Gemini 和 Claude 等先进的闭源 AI 模型,都是基于全球的公开知识和数据训练的。所以如果你去 ChatGPT 提问「我的年假政策允许我休几天假?」它不可能知道答案。因为这是公司内部的私有知识,模型没有接触过这些数据。


那么,如何将你的企业私有数据引入这些模型,以便 AI 能真正帮助你呢?这正是基于 RAG 的 AI 应用架构所实现的功能。它的工作原理是,你提出一个问题,然后搜索引擎或检索引擎会根据问题找到可能相关的文档,这些文档可能包含问题的答案。接着,你会将这些文档或内容片段提供给模型,并告诉模型:「我有某个问题,还有某份公司知识,我认为它与回答这个问题相关。现在你使用这些知识来回答问题。」


如今,大多数企业的 AI 应用都是通过这种方式构建的。将企业私有数据与这些语言模型的强大能力相结合的唯一方法就是在中间放置一个搜索引擎。因此,Glean 构建了一个企业内容的搜索引擎,这使我们能够成为最好的 RAG 系统之一。我们不仅通过这种 RAG 架构提供了自己的终端用户应用——Glean 助手,还允许公司使用 RAG 构建更多应用。


虽然这种架构正在成为构建 AI 应用的标准架构,但它仍充满挑战,构建优秀的 RAG 应用实际上非常困难。一方面,尽管现在的 AI 模型非常强大,但它们仍然是新兴技术,模型有时会产生幻觉,会胡编滥造。所以需要在应用架构中,增加一个复杂的技术层。就像把两个都不完美的东西串联起来一样。


因此,很多时候你发现一个基于 RAG 的 AI 应用表现不佳,问题可能出现在检索阶段。如果你无法找到正确的知识片段,或者找到的只是过时的信息,提供给大语言模型后自然会产生糟糕的结果。所以,虽然这是将知识整合在一起的唯一方法,但它也为你带来了额外的挑战。


红杉资本:第一阶段是企业搜索,第二阶段是应用平台。对于企业搜索这一阶段,企业搜索和 RAG 的概念有什么关系?它们是彼此的超集还是子集?企业搜索和 RAG 之间的关系是怎样的?


Arvind Jain:我认为,搜索和 RAG 在某种意义上是同一回事。核心技术是将所有企业知识汇集到一个搜索系统中,这样你就可以提问,系统能够返回相关的信息。你可以将这项技术作为一个独立的产品使用,例如 Glean 搜索产品的功能,用户可以提问,我们会根据问题提供相关的回答。也可以将其作为整个 AI 应用架构中的一个 API 层,在这种情况下,搜索系统只是整体 AI 应用架构中的一个组件。因此,我认为它们在这方面是相似的。


但从行业角度来看,今天大多数基于 RAG 的企业应用实际上使用了一种更简单的检索系统,通常是基于向量搜索的系统,但没有完整的企业上下文,这是关键区别。我们的做法始终是打造一个独立的搜索系统,可以直接面向用户使用,这是检验搜索系统好坏的真正标准。当你将它放在 RAG 应用的后台时,它能够创造更好的 AI 体验。


红杉资本:是否可以说,你们在优化搜索结果排名方面的「魔法」正是让搜索对人类用户有用的原因?而这同样也是让机器获得最佳结果的关键。这就是你们的系统与那些自己动手搭建数据管道和检索系统的企业的根本不同之处。


Arvind Jain:是的,没错。我认为自己构建这些系统非常困难,而且要在几周内完成更是难上加难。你可以在一天内,甚至可能只需两小时,构建一个出色的 AI 演示,但要构建一个稳定、可靠,并能为企业真正带来价值的系统,这是一个复杂的难题。


03 

80% 的搜索会话,

用户都找到了答案


红杉资本:我们已经讨论过你们是如何构建产品的,并且它的效果很好,公司每年四倍的增长速度也证明了这一点。我们也在内部使用你们的产品,很多客户对它非常满意。我很好奇,当你观察客户在使用 Glean 之前和之后的日常操作时,有哪些显著的变化?


Arvind Jain:Glean 是一种被广泛使用的产品,用户的使用方式多种多样。有时我们自己也会对用户的使用方式感到惊讶。我可以举几个例子,对于工程团队,Glean 在排错方面非常有用。当用户遇到任何障碍或问题时,可以在 Glean 上发布问题,通常用户不是第一个遇到这个问题的人,其他人可能早已遇到并解决了类似的问题。通过查看其他人如何解决这些问题,用户可以很快找到自己的答案。这是工程领域的一个重要应用场景。


对于客户支持团队,他们的日常工作就是解决和回答用户的问题。我认为,像 Glean 这样的工具从根本上改变了他们的工作方式。现在,他们不再首先去各种知识库中寻找答案,而是当客户提出问题时,Glean 已经在旁边自动提供了答案。他们的工作模式从寻找答案转变为验证 AI 提供的答案是否正确,然后将这些答案反馈给用户。


有些团队的工作方式发生了显著变化。比如销售人员,他们使用 Glean 来为会议做准备。在客户电话会议之前,他们会直接问 Glean,比如「帮我准备这次会议」。Glean 会为他们提供客户的全面信息,告诉他们上次会议的内容、当前的合作机会等。这帮助他们更好地准备会议,并在会议中表现更出色。因为客户总是会提出很多问题,有了 Glean,销售人员在面对意外问题时可以自信地在会议中直接提问 Glean,迅速得到答案并做出回应。


实际上,在我们公司,我们不允许销售人员在会议中带上售前工程师,他们必须自己回答客户的问题。这是我们推动的一种行为改变,尤其是在第一次会议期间。


除了这些例子,但整体上,使用场景几乎是无限的。对公司内部的每个人,Glean 的一个普遍用途是帮助找到能提供帮助的其他人。Glean 让你可以轻松地联系到相关领域的专家,基于你提出的问题找到合适的帮助者。我们看到公司里的每个人都会频繁使用这个功能。


红杉资本:你们有衡量成功的核心指标吗?我想知道你们如何客观地衡量自己的表现?


Arvind Jain:我们的关键指标是每天有多少问题被提出,并且我们是否成功为用户提供了正确的答案。


红杉资本:听起来和 Google 的搜索满意度指标很相似。


Arvind Jain:是的。


红杉资本:你能分享一些相关数据吗?


Arvind Jain:我们有一个技术指标,不知道它有多大意义,但我们通常将这个数字保持在 80%。这意味着大约 80% 的用户会话中,用户成功地找到了他们需要的答案。


红杉资本:你们如何衡量成功?是通过用户明确的反馈,比如点赞,还是通过他们基于搜索结果采取的行动?


Arvind Jain:这是隐性的衡量标准。我们会跟踪用户的行为,例如,在搜索中,用户提出问题并点击前两三个结果之一并停留较长时间,这表明用户对结果感到满意。用户没有很快回来再次提问或修改搜索,这就是我们评估用户是否成功的方式。


红杉资本:明白了。你认为目前产品中还缺少哪些功能可以让用户更满意?


Arvind Jain:正如我刚才提到的,构建像 ChatGPT 或 Glean 这样的产品就像一场魔法秀,用户的期望是无限的。他们不仅希望得到任何问题的答案,还希望你能够完成他们要求的任何任务。因此,对我们来说,问题并不在于缺少哪些功能。我们需要不断改进的核心功能,正确回答用户的问题,并且随着时间的推移,能够回答越来越复杂的问题。


我们感到,不论是我们还是其他任何公司,离真正实现我们产品的终极愿景还非常遥远。我们希望 Glean 能成为一款这样的 AI 助手——能够利用公司内部的知识回答所有问题,甚至未来能为你完成一半的工作。


我认为,目前我们可能只实现了 2% 的目标。尽管 AI 技术已经取得了许多进展,但它仍处于对世界产生重大影响的非常早期阶段。


04 

让用户主动参与

工作流 Agent 的搭建


红杉资本:我想问关于自主推理(Agentic Reasoning)的问题。我对代码领域的一些结果印象深刻,比如使用 RAG,这些代码 Agent 的完成率可以达到 3% 到 4%,但如果你赋予它们更多的主动推理能力,完成率可以提升到 14% 或 15%,这是一个多倍的提升。我很好奇你们是如何考虑将更多的自主推理能力引入到你们的产品中,或者你们还会采取哪些措施,从目前所谓的 2% 进展到你们希望最终实现的目标?


Arvind Jain:我想澄清一下,这个 2% 是随口说的,并不是一个具体的衡量数值。


我只是想表达现在的阶段还很早,未来还有很多令人惊叹的事情会发生。不过,关于 Agent 行为(Agentic Behavior),我们目前正在做的事情之一是首先从用户那里获取大量输入。我们在 Glean 中构建了一个工作流程的概念来回答复杂的问题。现在我们非常依赖用户的帮助来完成这些工作流程。


举个例子,如果你提出需求:「帮我写一份我团队所有工作内容的周报。」这是一个复杂的问题。要真正回答这个问题,需要做几件事。首先,需要理解「你的团队」指的是谁?你可能需要去 HR 系统查看谁是向你汇报的人员。然后是工作内容,这涉及到每个团队成员的工作场所。你需要建立对这些情况的理解,然后从不同的系统中提取相应的知识。


我认为,现在我们正在做的事情是尽量从用户那里得到帮助,我们会为复杂问题创建一个计划,并让用户输入他们的反馈,告诉我们是否理解正确。有时,用户也会完全忽略我们所做的事情,自己构建工作流程。我认为,要构建完整的 Agent 行为,这是必不可少的。你可以为某些特定的狭窄问题构建 Agent 行为,但在 Glean 中,由于我们的覆盖面很广,用户可能提出的问题和他们想执行的任务范围也非常广泛。因此,我们首先需要学习用户如何手动创建这些工作流程,然后再构建相应的客户 AI 模型,以便未来能够自动将复杂问题转化为能动循环或复杂的工作流程。


红杉资本:我明白了。你的意思是,鉴于你们的覆盖面很广,不可能为每个任务都建立主动推理能力,因此你们开放了一个工作流程引擎,用户可以根据自己的需求构建不同的自动化和 Agent。


Arvind Jain:是的,然后我们从中学习。当我们看到用户构建这些工作流程时,它们会进入训练数据集,从而帮助我们自动构建新工作流程,解决用户提出的复杂问题。因此,Agent 能力正在逐步完善。但我仍然要说,既然回答简单问题都不容易,那么执行复杂任务同样困难,因为你可能会犯错。


想象一下,一个 Agent 将复杂任务分解成十个单独的任务,如果每一步的准确率是 90%,那错误率就会累积。因此,我认为人类的协助在构建这些复杂工作流程时是至关重要的。


注:主动推理(Agentic Reasoning)是一种人工智能领域的概念,指的是 AI Agent 在复杂环境中进行独立决策和行动的过程。Agent 行为(Agentic Behavior)在 AI 领域指的是那些具备高度自主性、能够在最小的人为监督下执行复杂任务的系统的行为。


红杉资本:创业第一阶段的企业搜索业务,如何为你们进入第二阶段的应用平台提供优势。你能简单解释一下吗?


Arvind Jain:通过构建搜索产品,我们能够立即为客户和用户提供价值,并解决企业中通常会遇到的一系列复杂问题。第一个问题就是安全性。


以 Glean 产品为例,我们告诉客户:「把你们所有的数据都交给我们,我们会在你们提供数据后为你们做一些有用的事情。」这是一个很难的要求。对于公司来说,信任一家新兴产品公司或初创企业并将所有数据交给它,并不容易,尤其是在他们还没有看到任何即时价值时。


因此,这就是我们看到的一个巨大优势,因为我们有一个大家都理解并想要部署的搜索产品。现在它们已经部署了 Glean,并且已经与公司内部的所有企业数据连接在一起。因此,当我们进一步向客户推荐这个核心AI数据平台时,就变得更容易了。我们不需要再次说服他们把所有数据交给我们,因为数据已经在那里了。


红杉资本:这就像特斯拉因为已经在卖车,所以在自动驾驶方面有优势一样,你们在提供 AI Agent 方面也有优势,因为你们已经在销售一个能组织所有企业信息、让信息可访问、确保安全的数据平台,用户已经在使用它提问,所以让它开始执行任务就是一个逻辑上的下一步。


Arvind Jain:完全正确。


红杉资本:你们还发布API,允许开发者基于 Glean 构建应用。是什么让开发者愿意在 Glean 上构建应用,而不是直接访问他们自己的数据?


Arvind Jain:我们的客户想要构建的许多 AI 应用需要访问分散在多个基于云的 SaaS 系统中的数据。我认为,首先将这些数据集中在一起,并基于此构建搜索或检索层,对他们来说相当繁琐。这些集成很难,理解权限和管理也非常复杂。当这些模型变得可访问时,开发者开始开发 AI 应用程序。他们意识到,虽然构建这些酷炫的 AI 应用是令人兴奋的,但实际上 90% 的工作都是无聊的基础设施建设,比如从不同系统中提取数据,运行 ETL 和数据管道,然后建立一个良好的搜索功能。因此,在你真正开始使用 AI 之前,你已经花了大量时间在基础工作上。


而这正是 Glean 的优势所在,因为我们解决了所有与 ETL 相关的问题,构建了一个优秀的搜索功能,并正确遵守了公司内部的治理规则。这些都已经为开发者处理好了,他们只需使用搜索API,便可以将所有注意力集中在他正在处理的业务问题上。


注:ETL(Extract, Transform, Load)是数据科学中的一个重要概念,它代表了数据处理的三个主要步骤:提取、转换和加载。在数据仓库和数据分析项目中,ETL 是数据集成和预处理的关键环节。


05 

创业的关键是找到要解决的问题,

AI 只是工具


红杉资本:Arvind,我想听听你对其他创业者的建议。Glean 是最成功的AI应用公司之一,而且你们是作为一家独立的初创公司做到的。


Arvind Jain: 首先,从创业的角度看,我实际上经常引用你们的观点。Pat,我记得你曾提到过一张幻灯片,说整个软件市场规模为 6000 亿美元,而 AI 正将这一市场扩展到 15 万亿或 12 万亿美元,规模惊人。


这就是我们今天所处的现实,一切都在发生根本性的变化,AI 将成为推动这一变化的关键因素。作为创业者,首先,我不会担心其他人正在做什么。即使我们都在做许多伟大的事情,仍然不足以解决所有需要解决的问题。


所以,这是我给创业者的第一个建议:找到一个问题并全力解决它,不要担心别人是否也在解决这个问题,因为他们可能不是在解决,或者他们不会以你相同的方式解决。对于 Glean,我们的情况也类似。我们在最初的四年里一直在解决一个没有竞争对手的问题,没有人对我们的问题感兴趣。我们不得不创造一个新的类别,去唤起人们的兴趣,成为这个领域的布道者。但我们知道我们在解决一个重要的问题。


然而,突然之间,ChatGPT 出现了,搜索变得炙手可热。现在,几乎每个你接触的公司都想构建类似 Glean 的产品。那这对我们来说是好消息还是坏消息呢?我们觉得这对我们来说是好消息。现在每个人都对这个问题感兴趣,每个人都想购买我们的产品。是的,我们必须与许多其他供应商竞争,但我们认为我们会赢,因为我们有解决这个问题的决心,并且始终专注于这一问题,没有理由做得不比其他人好。


红杉资本: 我从你的话中听到的一个观点是,创建一家AI公司其实就是创建一家公司:找到一个重要的问题并以引人注目的方式解决它。我很好奇,尤其是因为这并不是你的第一次创业经历。你此前的公司 Rubrik 显然非常成功,你也是 Google 早期核心团队的一员。创建一家 AI 公司有多少与创建一家普通公司相同,又有多少是 AI 特有的?


注:Rubrik 是一家云数据安全公司,提供全方位的数据安全解决方案,通过实施零信任安全原则,Rubrik 旨在保护企业、云服务和 SaaS 环境中的数据安全。


Arvind Jain:我认为 AI 是你武器库中的一个工具之一。我不认为因为你在使用 AI,你的公司就会突然变得不同。实际上,我认为将来不会有任何新公司不以某种形式使用 AI 技术。所以我的观点是,你必须找到一个你打算解决的业务问题,并希望借助 AI 技术,你能以更好的方式解决这个问题。我不认为创建 AI 公司和其他公司本质上有太大的不同。我们也不把自己看作是一家 AI 公司。


红杉资本:你们会自己训练模型吗?或者更广泛地说,你是如何看待 Glean 的核心能力边界的?如果你有 100 个研发筹码,你会把它们放在哪里?


Arvind Jain: 我们没有计划训练超大型模型。但同时,我们确实会训练一些较小的模型。对于我们的每个客户,我们都会为他们训练特定的语言模型,这些模型会遍历他们自己的企业数据集,逐渐理解他们的数据语言、术语、代码名称等。因此,模型训练是 Glean 核心技术的一部分,但不是像训练 GPT-4 那样的大型模型。我们不会那样做,也没有计划这样做。我们计划与那些构建大型模型的公司合作。


红杉资本: 五年或十年后,你认为 Glean 会在企业中扮演什么角色?也许更重要的是,如果你是五年或十年后的普通知识工作者,并配备了 Glean,那时你的生活会是什么样的?


Arvind Jain: 这是个好问题,我认为把时间线设定为五年而不是十年更合理。


我的一个信念是,很多我们今天从事的工作,在五年后将不再由我们亲自完成。虽然我们从事的工作内容不同,但我们都是知识工作者,我认为很多工作将由先进的 AI 助手来完成,这些助手在许多方面比我们更强大。比如,它们可以访问我们公司所有的数据、知识,它们掌握所有过去的对话和会议的背景信息,永不遗忘。此外,它们具备推理能力,这使得它们在我们处理任何任务时都能提供极大的帮助。


因此,我们的核心信念是,我们的大部分工作将由这些 AI 助手完成。我们希望 Glean 成为职场中的这种助手。


我们还认为另一个即将改变的现象是,今天很多 AI 是靠用户主动寻求帮助的。比如,你提出问题,AI 给你答案。但未来,这种帮助将是主动的。请想象自己有一位行政助理,他们不仅在你请求帮助时提供支持,很多时候他们是主动帮助你。他们会告诉你下一步该做什么,管理你的日程,了解你的工作生活,帮助你在一天中保持高效。如今,公司中的一些高管享有这种待遇,但未来,每个人都会拥有这种强大的 AI 助手,帮助他们完成工作。


文章来自于微信公众号“Founder Park”,作者“ Founder Park”


关键词: AI , AI搜索 , Glean , RAG
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
AI工作流

【开源免费】n8n是一个可以自定义工作流的AI项目,它提供了200个工作节点来帮助用户实现工作流的编排。

项目地址:https://github.com/n8n-io/n8n

在线使用:https://n8n.io/(付费)


【开源免费】DB-GPT是一个AI原生数据应用开发框架,它提供开发多模型管理(SMMF)、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL(智能体工作流编排)等多种技术能力,让围绕数据库构建大模型应用更简单、更方便。

项目地址:https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file



【开源免费】VectorVein是一个不需要任何编程基础,任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤,并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。

项目地址:https://github.com/AndersonBY/vector-vein?tab=readme-ov-file

在线使用:https://vectorvein.ai/(付费)

2
智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。

项目地址:https://github.com/Significant-Gravitas/AutoGPT


【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

3
知识库

【开源免费】FASTGPT是基于LLM的知识库开源项目,提供开箱即用的数据处理、模型调用等能力。整体功能和“Dify”“RAGFlow”项目类似。很多接入微信,飞书的AI项目都基于该项目二次开发。

项目地址:https://github.com/labring/FastGPT

4
RAG

【开源免费】graphrag是微软推出的RAG项目,与传统的通过 RAG 方法使用向量相似性作为搜索技术不同,GraphRAG是使用知识图谱在推理复杂信息时大幅提高问答性能。

项目地址:https://github.com/microsoft/graphrag

【开源免费】Dify是最早一批实现RAG,Agent,模型管理等一站式AI开发的工具平台,并且项目方一直持续维护。其中在任务编排方面相对领先对手,可以帮助研发实现像字节扣子那样的功能。

项目地址:https://github.com/langgenius/dify


【开源免费】RAGFlow是和Dify类似的开源项目,该项目在大文件解析方面做的更出色,拓展编排方面相对弱一些。

项目地址:https://github.com/infiniflow/ragflow/tree/main


【开源免费】phidata是一个可以实现将数据转化成向量存储,并通过AI实现RAG功能的项目

项目地址:https://github.com/phidatahq/phidata


【开源免费】TaskingAI 是一个提供RAG,Agent,大模型管理等AI项目开发的工具平台,比LangChain更强大的中间件AI平台工具。

项目地址:https://github.com/TaskingAI/TaskingAI

5
AI搜索

【开源免费】MindSearch是一个模仿人类思考方式的AI搜索引擎框架,其性能可与 Perplexity和ChatGPT-Web相媲美。

项目地址:https://github.com/InternLM/MindSearch

在线使用:https://mindsearch.openxlab.org.cn/


【开源免费】Morphic是一个由AI驱动的搜索引擎。该项目开源免费,搜索结果包含文本,图片,视频等各种AI搜索所需要的必备功能。相对于其他开源AI搜索项目,测试搜索结果最好。

项目地址:https://github.com/miurla/morphic/tree/main

在线使用:https://www.morphic.sh/