ChatGPT 人工智能 GPT4 伦理 生成式 医疗 监管 安全 机器学习 深度学习 神经网络 计算机视觉 强化学习 模型 算法 应用 开发 研究 工具 平台 框架 数据集 训练 部署 安全 合规 培训 投资 LLM,llm AI,ai,Ai 大模型 大语言模型 制图 生图 绘图 文生图 文生视频 生成式AI AGI 世界模型 sora chatGPT,chatgpt,ChatGpt claude openai Llama deepseek midjourney 红熊猫模型 Red panda,panda Stable Diffusion,StableDiffusion,stable DALL- E 3 DALL E DALL Flux,flux 扩散模型 混元大模型 文心一言 通义千问 可灵 Pika PixelDance 豆包 月之暗面 零一万物 阶跃星辰 搜索增强 MiniMax Talkie Agent prompt fastai LangChain TTS 微调 提示词 知识库 智能体
# 热门搜索 #
搜索
喝点VC|红杉资本对谈AI搜索独角兽Glean CEO:必须找到你计划解决的商业问题,通过AI所提供的技术,以更好的方式解决问题
2454点击    2024-11-07 20:03

图片来源:Sequoia Capital


Z Highlights


  • Glean可以把它想象成是企业内部的Google或ChatGPT,它是一个员工可以去提问的地方,而Glean会利用公司的知识来回答所有这些问题,无论这些知识存储在哪里,都会将其整合到一起。


  • Glean构建了一个深度知识图谱,研究所有员工,理解他们在公司中的角色,查看所有文档,然后试图理解哪些文档适合哪些部门,哪些文档实际上是受欢迎的,个体与特定文档之间的关系是什么,这些构成了Glean的核心基础,决定了当有人提出问题时,哪些知识是最相关的。


  • Glean希望清理工具能成为一个AI助手,能够利用公司知识回答用户的所有问题,未来能为用户完成一半的工作。目前Glean大概只完成了2%的目标,AI的潜力还有待进一步开发,Glean仍处于早期阶段。


AI时代的企业搜索革命:Glean的创新之路


Sonia:今天我们很高兴邀请到Arvin Jane,Glean的联合创始人兼首席执行官。Arvin在职业生涯早期参与了Google搜索的建设,并且是Rubric的联合创始人和首席技术官。Glean起初是一家企业搜索公司,如今已经发展为一个通用的工作助手。将人工智能引入企业环境是非常困难的,因为涉及到集成、权限、排名、解析以及其他各种魔法,这些都是使人工智能能够在公司数据上运行的必要条件。今天,Arvin将与我们分享Glean是如何解决这一问题的,以及他作为第一批成功的人工智能原生应用公司的经验教训。


Arvin,非常感谢你加入我们。我们有很多关于RAG、agent、知识图谱等方面的问题。但在此之前,你能用一到两分钟时间告诉我们Glean是什么,以及你们正在建设的是什么吗?


Arvin Jane:当然,首先感谢你邀请我。对于Glean,可以把它想象成是企业内部的Google或ChatGPT。它是一个员工可以去提问的地方,而Glean会利用公司的知识来回答所有这些问题,无论这些知识存储在哪里,都会将其整合到一起。因此,这就是Glean的功能。此外,Glean 还是一个人工智能平台。如果你想在公司内部构建人工智能应用,可以使用Green Rack平台快速开发这些应用。


Sonia:太棒了,既然你提到将其比作工作中的Google,我认为这是每位CIO都描述为他们的“圣杯”。过去二十年间,虽然有很多失败的尝试去构建这样的系统,但即使是Google也未能解决这个问题。你曾是Google的明星搜索工程师,也许你能谈谈为什么这是一个如此棘手的问题,以及你是如何做到的?


Arvin Jane:搜索之所以困难,某种意义上说它是“魔法”。你可以提出任何问题,期望系统能够给你正确的答案,因此期望值总是很高。在企业环境中,这个问题尤其复杂,因为企业内部的信息散布在许多不同的系统中,获取这些信息本身就是一项挑战,更别说理解哪些信息是有效的,哪些已经过时了。因此,构建这样的系统面临着许多挑战。


在过去我会说并没有好的尝试,因为这个问题非常棘手,要求巨大的研发投入,并且在许多方面并不适合初创公司。而且在SaaS之前,你甚至无法构建一个产品,因为仅仅连接所有企业数据就意味着你必须花费一年时间与企业合作,以便将数据引入你的搜索系统。然后你还要解决真正的问题,即如何让这些信息可以被搜索。


Pat:Arvin,关于Glean,我觉得最有趣的事情之一是,你们可能是企业AI应用公司应该是什么样子的第一批最佳示例之一。我们将把大部分对话集中在Glean的AI方面。然而,我知道你们的技术栈中有很多层次。你们有基础设施、连接器、治理引擎和知识图谱。你能谈谈在进入AI部分之前,为了让AI能够正常工作,你们需要构建哪些内容吗?


Arvin Jane:当然可以。正如你所说,搜索首先要依赖于需要被检索的数据和知识。因此,Glean技术栈的第一部分是我们与最常见的企业系统之间建立的深度集成。想想像Salesforce、Confluence、Jira、Google Drive和SharePoint这样的系统。你的企业数据通常存储在这些不同的系统中,你需要将它们汇聚到一个地方。这就是我们技术栈的第一部分,即这些集成。


但是如果你考虑企业数据,这是企业搜索与Google网页搜索之间最独特的区别之一:你的大部分企业信息实际上是私密的。当你在Google Drive中创建文档时,这个文档可能对你是私有的,或者你可能只与少数人共享。因此,你无法构建一个搜索引擎,将公司的所有知识都倾倒在其中,并使每个人都能访问,你必须理解每个内容的权限。所以当你进行搜索时,系统应该理解你是谁,并仅检索你有权访问的信息。这是我们的治理层,理解在所有这些不同系统之间的治理,这是相当复杂的。


第三部分,这是大多数产品过去失败的地方,搜索并不仅仅是将大量文档放入索引中,当有人提出问题时,仅仅用关键词或语义匹配来找到正确内容。你还必须理解提问的人。我可能会因为我是新员工而询问入职指南,但实际上应该给我哪份入职指南?这取决于我是在市场部还是工程部,因此了解人和知识之间的关系非常重要。这是让搜索或问答服务在企业内部正常工作的关键部分。所以我们在这方面做了很多工作。我们实际上构建了一个深度知识图谱,研究所有员工,理解他们在公司中的角色,查看所有文档,然后试图理解哪些文档适合哪些部门,哪些文档实际上是受欢迎的,个体与特定文档之间的关系是什么,这些构成了我们的核心基础,决定了当有人提出问题时,哪些知识是最相关的。


有趣的是,你提到AI何时变得相关。在我们看来,AI从第一天起就是我们技术的一部分。我们早在2019年就开始使用大语言模型,或者至少是基于BERT的语言模型。语言模型实际上是从第一天起就融入到搜索体验中的,因为它们让我们能够从语义层面理解内容。这确实是个重要的进步。然后在我们的核心搜索体验中,当我们尝试理解用户的问题时,我们并不局限于用户使用的确切关键词。我们能够理解问题背后的含义,并将其与正确的文档匹配。然而,这一切工作都是在我们能够有效使用语言模型之前必须完成的。


提升搜索效率:Glean的排名逻辑与用户体验优化


Sonia:你可以说我们关注排名吗?我认为谷歌之所以运作得这么好,部分原因在于我总能在页面顶部找到我想要的答案。在公共互联网的情况下,有大量的网页数据和链接,使得排名系统运作良好。对于Glean而言,这种排名的魔力在多大程度上体现?


Arvin Jane:这是我们产品的核心,我们投入了大量精力来建立一个高效的排名系统来支持我们的搜索。我给你一些例子,说明在确定哪些文档最适合排名某个问题时所考虑的因素。


首先,如果你想象有一份文档是公司内部经常被查看的,这显然给出了一个信号,说明这份文档是重要的,人们愿意花时间在上面。如果一份文档是在最近一两周内撰写的,并且有一些互动,那么这同样说明这份信息是人们关心的,还没有过时。


接下来,如果我们看到一份特定文档在公司某个团队内部使用频繁,这告诉我们,这份文档可能对这组人来说是相关的。最后一个例子是,想象某人有问题并没有去搜索,而是在Slack上提问,然后其他人回复了文档链接,而提问者对此点赞。这种互动意味着这份文档实际上是对提问者问题的一个很好的回答。因此,当其他人问类似问题时,保持这种关联会对后续的搜索有帮助。


我们需要不断寻找这些信号。在企业环境中收集这些信号的方式与网络上有所不同。谷歌只需关注在其平台上发生的所有活动,因为那是获取知识的入口,但在企业中,并非所有活动都通过搜索进行。因此,你需要查看不同系统中与知识相关的所有活动,比如沟通系统、文档系统,从中学习人类行为。最终,你的学习来源于人们在公司内的行为。收集到的信息越多,排名系统的效果就会越好。


RAG的应用与挑战:Glean在企业AI领域的实践


Sonia:我们可以花一点时间讨论一下RAG(检索增强生成),正如Pat提到的,你在对的时间处于对的地方。你整合了所有的硬件,这样当LLMs变得非常强大时,你就有了所有的基础设施。我认为你是使用RAG使这些LLMs在企业内容中真正有用的专家之一。你能像给五岁小朋友解释那样来解释一下RAG吗?让我们聊聊它的工作原理和那些不常被提及的秘密。有什么例子说明通过RAG你可以做到的事情,而在普通聊天界面中却做不到的?


Arvin Jane:既然你提到的是五岁小朋友,我们先来聊聊RAG是什么。想想所有这些惊人的模型,比如GPT、Gemini和Cloud,它们都是基于全球的公共知识和数据进行训练的。如果你去问ChatGPT一个问题,比如:“我有多少天的带薪休假?”它就无法回答,因为这是我公司的私人知识,而答案在模型的训练数据中并不存在。那么,如何将你的私人企业数据与这些模型结合起来,让AI为你创造奇迹呢?这正是基于RAG的AI应用架构所能实现的。


它的工作原理是这样的:你提出一个问题,然后有一个搜索引擎或检索引擎(随你怎么称呼)。根据你的问题,这个检索引擎会找到可能相关的文档,这些文档可能能回答你的问题。接下来,你将这些文档或内容片段提供给模型。你会告诉模型,例如GPT:“我有这个问题,还有我认为与回答这个问题相关的公司知识。现在,利用这些知识回答我的问题。”这就是目前许多企业AI应用的构建方式。将你的私人企业数据与这些语言模型的强大能力连接起来的唯一方式,就是有一个搜索引擎坐落在中间。


我们在Glean也构建了一个覆盖我们整个企业的搜索引擎,过去五年中,它让我们成为了最优秀的RAG系统之一。现在我们不仅交付了自己的最终用户应用——一个基于RAG架构的智能助手,还允许其他公司构建更多基于RAG的应用。


尽管这种架构正在成为构建AI应用的标准架构,但仍然面临许多挑战。使用RAG构建优秀的AI应用是非常困难的,因为模型本身虽然强大,但仍然是一个新兴技术,模型会出现“幻觉”,也就是生成错误的信息。现在,你实际上是在这个应用架构中添加了一个更复杂的技术层。可以想象成是将两个不完美的事物连接在一起。


因此,你会发现基于RAG的AI应用有时表现不佳,原因在于检索阶段的失败,可能是未能找到正确的知识片段,或者找到的都是过时的信息,最终将这些信息交给LLM处理,自然会得到不好的结果。因此,尽管这是将知识整合在一起的唯一方法,但也带来了有趣的挑战。


Pat:为了稍微总结一下你在这个对话开始时说的内容:第一幕是企业搜索,第二幕是为第一幕(企业搜索)构建的应用平台。企业搜索和RAG的概念是如何相关的?一个是另一个的超集还是子集?它们是相似但不同的,还是同一种东西?企业搜索和RAG之间的关系是什么?


Arvin Jane:搜索和RAG在某种意义上是同一回事。真正的核心技术是将所有企业知识整合到一个搜索系统中,在这个系统中,你可以提出问题,而系统能够返回相关的信息。这就是核心技术。


你可以将这个技术作为独立的产品使用,比如我们的Green Search产品,用户提出问题,我们能够提供相关的文档,这些文档可能对他们有用。另一方面,你也可以将其用作整体AI应用的API层,在这种情况下,搜索系统只是整体AI应用架构的一个组成部分。


所以在这个意义上,它们是相似的。然而,在行业实践中,我们看到大多数基于RAG的企业应用实际上使用的是一个更简单版本的检索系统,通常是基于向量搜索的系统,这并没有完全考虑企业上下文。因此,我想这就是关键区别所在。对我们来说,我们的做法一直是构建一个独立的搜索系统,确保其质量足够好,能够作为独立产品直接面向用户。这实际上是衡量搜索效果的真正标准。当你把它放在RAG应用的后台时,它会创造出更好的AI体验。


Sonia:那么可以说,你们在提升搜索结果排名方面所做的“魔力”,实际上就是让这种排名对人们有效。事实证明,让排名对人们有用也是使其对机器有效以获得最佳结果的必要条件。这就是为什么你们所构建的系统与那些只是自己DIY数据管道和小型检索系统的人有很大不同。


Arvin Jane:是的,没错。我认为自己构建这些系统非常困难,而且在几周内完成几乎不可能。我想你可以在一天内,甚至可能在两个小时内构建一个很棒的AI演示。但要真正构建一个稳健、稳定,并且能够为企业增加价值的系统,这是一个复杂的难题。


Glean的变革力量:提升企业效率与工作方式的创新实践


Pat:我们已经讨论过您如何构建产品,并且我们知道它运作良好。公司的业绩每年翻倍增长,内部也在使用这个产品,很多客户对此非常满意。成功的真正衡量标准在某种程度上是您的产品如何改变客户的生活。因此,我很好奇,您观察到客户在日常操作中(清理工具使用前和使用后)有哪些变化?这如何帮助人们更好地完成他们的工作?


Arvin Jane:Glean实际上是一个被人们广泛使用的产品,应用场景非常多样,常常让我们惊讶于用户的创造性使用,以下是一些例子。


对于工程团队来说,清理工具非常有用,特别是在遇到故障或问题时。当程序出现错误或无法正常工作时,Glean提供了一个很好的故障排除工具。用户可以在这里发布问题,往往不是第一个遇到此类问题的人,因此可以从其他人的经验中获取解决方案,从而更快地解决自己的问题。这是工程团队的一个重要使用场景。


对于支持团队来说,他们的日常工作主要是解答客户问题。使用清理工具后,他们的工作方式发生了根本变化。现在,当客户提出问题时,支持团队不再需要去不同的知识库查找答案,而是直接依赖清理工具提供的答案。这种变化使他们的工作从寻找答案转变为验证AI提供的答案是否正确,然后再将其反馈给用户。


销售人员的工作方式也发生了改变。他们利用清理工具来准备会议。在客户会议前,他们可以简单地请求清理工具帮助准备,清理会提供客户的全面数据,包括上次会议的情况、参与人员及当前的机会等。这大大提高了他们的会议准备效率,也使他们在会议中更加自信。如果遇到意外问题,他们可以随时询问清理工具,快速获取答案。在我们的公司中,销售人员不能带销售工程师参加会议,必须独立回答客户的问题。这是我们推动的一种行为变化。


总体而言,使用场景是无限的,其中一个普遍适用于每个员工的功能是帮助他们找到可以提供帮助的人。清理工具非常方便地帮助员工与合适的主题专家连接,这在公司内得到广泛应用。


Sonia:你们是否有一个北极星指标来跟踪?这些关于客户影响的故事非常精彩,但你们是如何进行客观基准评估的?


Arvin Jane:是的,我们的关键指标是每天有多少问题被提问,并且这些问题能够成功得到回答。我们关注的是能够正确解答这些问题的成功率。


Sonia:这听起来类似于谷歌的搜索满意度指标,那么你能分享一些关于这些数字的信息吗,还是你更愿意保密?


Arvin Jane:我们确实有这个技术指标,虽然我不确定它的具体意义,但我们通常将成功率保持在80%左右。这意味着用户与我们的交互中,约80%的会话能够成功满足他们的需求。


Pat:你们是如何衡量这个成功的?是通过用户明确地点赞,表示满意,还是通过他们根据你们提供的结果采取行动来隐性衡量?你们具体是怎么测量成功的?


Arvin Jane:实际上,我们是通过隐性指标来衡量的,我们会追踪用户的行为。例如,当用户搜索问题并点击前两三个结果中的一个,然后进入目的地并停留较长时间时,这就表明他们对结果感到满意。如果用户没有快速返回再次提问或调整搜索,这也说明他们找到了所需的信息。这就是我们判断用户是否成功的一种方式。


Pat:明白了。那么,你认为还有哪些产品尚未具备的功能能够让用户更成功?


Arvin Jane:我认为,构建像GPT或清理工具这样的产品就像是一种魔法,用户的期望是无限的,因为它不仅要回答用户的问题,还要执行他们要求的各种任务。因此,对我们来说,关键不在于缺少哪些功能,而在于如何确保核心功能的成功,那就是正确回答用户的问题,并随着时间推移,正确处理越来越复杂的问题。我们感觉,无论是我们还是其他公司,离实现这个真正愿景还有很长的路要走。我们希望清理工具成为一个AI助手,能够利用公司知识回答用户的所有问题,未来能为用户完成一半的工作。我觉得我们大概只完成了2%的目标,AI的潜力还有待进一步开发,我们仍处于早期阶段。


Glean的智能进化:Agent推理与企业数据平台的协同发展


Sonia:我们只完成了2%的目标。我想问问您关于agent推理的问题。这在Sequoia的合作伙伴中引起了很多讨论,我知道作为创始人,你也对此有所关注。在编程领域,我印象深刻的一项结果是,使用RAG(检索增强生成)时,这些编码agent的完成率可以达到3%到4%。但如果赋予它们更多的agent推理能力,完成率可以提高到14%到15%,这是一种多倍的提升。这就像是简单地反思刚刚说过的话、最佳事件或其他技术。


我很想了解你们如何考虑将更多的agent推理能力融入到产品中,以及还有哪些其他方面可以帮助我们从您所说的2%提升到您希望未来构建的目标。


Arvin Jane:我想澄清一下,那个2%的数字是我随便说的,并不是一个经过测量的数字。正如你所知道的,我只是想强调目前的进展有多早,以及未来我们将看到多少惊人的变化,我只是想讨论这一点。


关于agent推理行为,我们正在做的一件事是首先从用户那里获取大量反馈。我们在清理工具中有一个概念,就是构建一个工作流程,以解决复杂问题。今天,我们在创建这个工作流程时,实际上得到了用户的很多帮助。例如,如果你问:“请帮我写一份我团队所有工作的每周状态报告。”这个问题是复杂的,涉及到几个方面才能真正找到答案。首先,你需要理解“你的团队”指的是谁。你可能需要查看HR系统,找出向你汇报的人。然后,我们还要考虑“工作”是什么,每个团队成员的工作情况如何,以便建立对这些信息的理解,并从不同系统中提取相关知识。


现在,我们正在尝试让用户提供帮助,创建复杂问题的解决方案,并让用户输入信息以帮助我们进行决策。有时候,用户可以完全忽略我们所做的,自己构建工作流程。我认为,这对我们未来建立完全agent的行为至关重要。


我觉得可以为特定狭窄的问题建立agent行为,但在我们这里,由于我们的问题范围很广,用户可能会提出各种问题,想执行的任务也非常多,因此我们需要首先学习用户手动创建的工作流程,然后再建立模型,以便将复杂问题自动转化为agent循环或复杂工作流程。这是我们正在采取的方法。


Sonia:你是说,由于你们的应用范围非常广泛,无法为每一个可能的任务构建agent推理。因此,你们提供了一个工作流程引擎,让用户能够自行构建不同的自动化和agents。


Arvin Jane:是的,然后你们会从中学习。一旦看到用户构建这些工作流程,就可以将其作为训练数据集,从而自动构建新的工作流程,以应对用户提出的复杂问题。因此,agent能力正在逐步发展。不过,我想再强调一点,当你连简单问题都难以回答时,要完成复杂任务同样困难,因为这很容易出错。想象一下,一个agent将一个复杂任务分解为十个独立任务,如果每一步的准确率是90%,那么你的错误率就会叠加。


所以,这确实是非常令人振奋的,但我觉得人类的协助在构建这些复杂工作流程中仍然是至关重要的。


Pat:也许值得提到一点,虽然对听众来说这可能是显而易见的,但还是要明确一下,如何第一幕(企业搜索业务)为你们进入第二幕(应用平台或agent行为平台)提供了道德权威或不公平优势。并不是所有人都能清楚地看到第一幕如何引导到第二幕。你能简单说几句吗?


Arvin Jane:通过构建搜索产品,我们立即为客户和用户增加了价值。我们能够解决企业通常会遇到的一些复杂问题。首先,安全性是一个重要方面。考虑到我们的产品,我们实际上在告诉客户:“请将你们所有的数据交给我们,我们希望在获得这些数据后为你们提供有用的服务。”


这是一个巨大的挑战,企业不容易信任一个新产品公司或初创企业,并将所有数据交给他们,而又没有立即获得任何价值。这一点对我们来说非常重要,因为我们有这个人们理解并想要部署的搜索产品。目前它已经投入使用,已连接到公司内部的所有企业数据。因此,当我们去向客户说明:“将其作为你的核心AI数据平台”时,这个销售过程就容易多了,因为我们不需要再说服他们将数据交给我们,因为这些数据已经在这里了。


Pat:我说这可能不是一个完美的类比,但希望也不是一个糟糕的类比,特斯拉在自动驾驶方面的优势在于他们已经在销售汽车。你们在提供AI agent方面的优势在于,你们已经在销售一个数据平台,组织所有企业信息,使其可访问并安全可靠,这让人们在使用它时已经在提问,而请求它开始采取行动是一个合乎逻辑的下一步。


Arvin Jane:完全正确。


Sonia:你们还发布了一套API,允许开发者在Glean上构建应用,可能这是回应了客户的需求,能否多说说是什么让开发者愿意在Glean上构建,而不是直接访问他们自己的数据?这可能和你刚刚提到的效应类似。


Arvin Jane:是的,很多客户希望构建的AI应用需要访问存储在多个不同的云SaaS系统中的数据。对他们来说,首先将数据集中到一个地方并构建搜索或检索层是相当繁琐的,集成过程复杂,理解权限和治理也很困难。当这些模型变得可访问时,开发者们开始构建AI应用,他们意识到,虽然90%都非常兴奋地想要开发这些新的酷炫AI应用,但实际上,构建应用的90%工作都是那些无聊的基础设施工作,比如从各个系统中提取数据、运行ETL和数据管道,然后再构建一个良好的搜索功能。他们在真正玩AI之前要花费大量时间。


所以,开发者们发现Glean非常有用,因为我们解决了所有与ETL、构建优秀搜索以及遵循公司治理相关的问题,这些工作都为他们完成了。他们只需使用搜索API,便可以将注意力集中在他们所处理的业务上,以及AI如何帮助他们实现想要的自动化。


Sonia:在某种程度上,你为ETL和数据治理所做的所有努力让我想到了Snowflake,你们实际上是在处理文本数据和非结构化数据,但那种作为公司可以围绕构建的中央数据平台,构建应用程序的理念让我联想到Snowflake的故事。


Glean的未来发展:塑造企业智能的未来


Pat:我们能问你一个关于未来状态的问题吗?如果你允许我们梦想几分钟,五到十年后,你认为Glean在企业中会呈现出怎样的状态?也许更重要的是,如果你是未来五到十年后的典型知识工作者,并且得到了Glean的支持,那么你的生活会是什么样子?


Arvin Jane:这是个好问题,我觉得我们可以把时间定在五年而不是十年。我认为,五年后,我们现在所做的大部分工作将不再由我们来完成。这适用于我,也适用于你。虽然我们做的事情很不同,但我们都是知识工作者。我认为,我们很多的工作实际上将由这些出色的AI助手来完成,它们在许多方面比我们更强大。它们可以访问我们公司所有的数据和知识,了解所有过去的对话和会议的背景。它们不会忘记任何事情,而且具备推理能力,可以在你完成任何任务时提供极大的帮助。因此,我们的核心信念是,大部分工作将由这些AI助手来完成,我们希望Glean能成为职场中的那种助手,我们希望Glean能成为你工作大部分发生的地方。


我们认为,未来的AI还会有变化。现在,很多AI主要是你去寻求帮助的过程,比如你提问并获得回答。但未来的助手将是主动的。就像一个执行助理,他们不仅在你需要帮助时提供支持,很多时候,他们的帮助是主动的,告诉你接下来该做什么,管理你的日程,了解你工作生活的方方面面,指导你有效地度过每一天。我认为AI将使这种奢侈成为现实,不管你是谁。今天,只有一些公司高管享有这样的奢侈,但未来,每个人都将拥有这些强大的基于AI的助手,帮助他们完成工作。因此,我们对将这种变化带入职场感到非常兴奋,希望Glean能成为世界上最成功的AI助手。


Sonia:接下来我们换个话题,我想听听你对其他创始人的建议。你是最成功的应用级AI公司之一,可能仅次于Co-Pilot和Scale。而且你作为一家独立的初创公司实现了这一点。我想你也遇到了一些独特的挑战,比如OpenAI,既是你的供应商,也是你的顶级竞争对手。能否告诉我们这种动态是什么样的?


Arvin Jane:首先,从创业的角度来看,实际上,我在很多地方都在编码。我记得你提到过整体软件市场是6000亿美元,但AI的出现将这个市场扩展到12或15万亿美元。这实际上就是我们今天所处的现实:我们所做的一切都将发生根本性的变化,AI将是推动这种变化的关键组成部分。


作为创始人,我想告诉其他创始人的第一点是,我并不担心其他人正在做什么。即使我们大家都在进行很多伟大的工作,也仍然不足以解决所有需要解决的问题。这是我的第一个心态。所以,给其他创始人的建议就是:如果你发现了一个问题,就去解决它,不必担心其他人是否在解决,因为很可能其他人没有,而且他们不会以与你相同的方式去解决。


至于我们自己,回到Glean,我们在前四年内一直在解决一个没有竞争的问题。当时没有人对我们解决的问题感兴趣,那是一个冷门市场,我们不得不创建一个类别来引起兴趣,去宣传它。但我们知道自己在解决一个重要的问题。然而,突然间,ChatGPT出现了,搜索变得热门。


现在,实际上你去找每一家公司,他们都想开发像Glean这样的产品。那么,这对我们来说是好消息还是坏消息呢?我们如何看待这个问题?从我们的角度来看,这无所谓。无论如何,我们认为这是好消息:现在每个人都感兴趣,想购买我们的产品。我们必须与许多其他供应商竞争,但我们认为这正是我们胜出的地方,因为我们有解决这个问题的渴望,并专注于这个问题,继续努力,没有理由我们不能做得比其他人更好。


Pat:你提到的一个观点是,建立一家人工智能公司其实就是建立一家公司,找到一个重要的问题并以引人注目的方式解决它。我很好奇,尤其是因为这不是你第一次涉足这个领域。Rubric显然取得了巨大的成功,而你在谷歌的早期阶段也扮演了核心角色。建立一家人工智能公司有多少是纯粹的公司建设,多少是某种特定于人工智能的因素呢?


Arvin Jane:这是个好问题,我认为,人工智能主要是一种工具,属于你的工具库之一。我并不认为,因为你在使用人工智能,你的公司就会变得与众不同。实际上,我认为未来不会有一家新公司不以某种形式使用人工智能技术。因此,我的观点是,你必须找到一个你计划解决的商业问题,希望你能通过人工智能所提供的技术,以更好的方式解决这个问题。我并不认为这会改变本质,也并不认为这种感觉会有所不同。比如说,我们并不把自己视为一家人工智能公司。


Sonia:你会自己训练模型吗?或者更广泛地说,你如何看待Glean的核心竞争力的起止?如果有100个研发资源,你想把它们放在哪里?


Arvin Jane:我们没有计划训练超大规模的模型。但与此同时,我们确实会为每个客户训练一些小型模型。这些语言模型是根据每个客户的需求进行训练的,它们会分析客户的企业语料库,了解他们的行业术语、说话方式、缩略语、代号等。因此,模型训练实际上是Glean核心技术的一部分,但不是像训练GPT-4那样的大规模模型,我们并不这样做,也没有这方面的计划。我们计划与许多优秀的公司合作,他们在大规模模型的构建方面有专长。


原视频:Sequoia Capital | How Glean CEO Arvind Jain Solved the Enterprise Search Problem – and What It Means for AI at Work


https://www.youtube.com/watch?v=dvJOQvBkg_U


编译:Jie Sun


文章来自于微信公众号“Z Potentials”,作者“Sequoia Capital”


关键词: AI , AI搜索 , 人工智能 , chatGPT
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
AI工作流

【开源免费】n8n是一个可以自定义工作流的AI项目,它提供了200个工作节点来帮助用户实现工作流的编排。

项目地址:https://github.com/n8n-io/n8n

在线使用:https://n8n.io/(付费)


【开源免费】DB-GPT是一个AI原生数据应用开发框架,它提供开发多模型管理(SMMF)、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL(智能体工作流编排)等多种技术能力,让围绕数据库构建大模型应用更简单、更方便。

项目地址:https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file



【开源免费】VectorVein是一个不需要任何编程基础,任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤,并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。

项目地址:https://github.com/AndersonBY/vector-vein?tab=readme-ov-file

在线使用:https://vectorvein.ai/(付费)

2
智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。

项目地址:https://github.com/Significant-Gravitas/AutoGPT


【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

3
知识库

【开源免费】FASTGPT是基于LLM的知识库开源项目,提供开箱即用的数据处理、模型调用等能力。整体功能和“Dify”“RAGFlow”项目类似。很多接入微信,飞书的AI项目都基于该项目二次开发。

项目地址:https://github.com/labring/FastGPT

4
RAG

【开源免费】graphrag是微软推出的RAG项目,与传统的通过 RAG 方法使用向量相似性作为搜索技术不同,GraphRAG是使用知识图谱在推理复杂信息时大幅提高问答性能。

项目地址:https://github.com/microsoft/graphrag

【开源免费】Dify是最早一批实现RAG,Agent,模型管理等一站式AI开发的工具平台,并且项目方一直持续维护。其中在任务编排方面相对领先对手,可以帮助研发实现像字节扣子那样的功能。

项目地址:https://github.com/langgenius/dify


【开源免费】RAGFlow是和Dify类似的开源项目,该项目在大文件解析方面做的更出色,拓展编排方面相对弱一些。

项目地址:https://github.com/infiniflow/ragflow/tree/main


【开源免费】phidata是一个可以实现将数据转化成向量存储,并通过AI实现RAG功能的项目

项目地址:https://github.com/phidatahq/phidata


【开源免费】TaskingAI 是一个提供RAG,Agent,大模型管理等AI项目开发的工具平台,比LangChain更强大的中间件AI平台工具。

项目地址:https://github.com/TaskingAI/TaskingAI

5
AI搜索

【开源免费】MindSearch是一个模仿人类思考方式的AI搜索引擎框架,其性能可与 Perplexity和ChatGPT-Web相媲美。

项目地址:https://github.com/InternLM/MindSearch

在线使用:https://mindsearch.openxlab.org.cn/


【开源免费】Morphic是一个由AI驱动的搜索引擎。该项目开源免费,搜索结果包含文本,图片,视频等各种AI搜索所需要的必备功能。相对于其他开源AI搜索项目,测试搜索结果最好。

项目地址:https://github.com/miurla/morphic/tree/main

在线使用:https://www.morphic.sh/