主打 AI 内容搜索和问答的产品 Perplexity AI 近日宣布他们的 iOS App 用户量突破 100 万,而 12 月 8 日也是 Perplexity AI 成立一周年。
在 AIGC 领域,Perplexity AI 被 a16z 列入 Top10 的玩家之列,在 AI 应用程序的月访问量排名中,Perplexity 排名第十。今年 10 月份,Perplexity AI 的 ARR 年度收入达到 300 万美元,10 月底在完成由 IVP 领投的新一轮融资后,Perplexity AI 的最新估值达到了 5 亿美元。
作为由前 OpenAI 员工创建,旨在取代传统搜索引擎的 AI 产品,Perplexity AI 是目前产品体验最好、知识获取最准确的问答引擎,在用户中口碑显著优于 Google Bard 和 Bing Chat。目前的 Perplexity AI 提供 GPT、Claude2、Llama 2 以及自研大模型的技术服务。
不管是从 AI Native 产品范式,还是分析未来搜索引擎的边界、谷歌的新挑战者,Perplexity AI 都是值得仔细分析的产品。
要点快读:
Perplexity 几乎是最早推出的生成式搜索引擎,或者叫做回答引擎。借用大模型的力量,用户可以直接提问,Perplexity 会直接从各种筛选过的来源进行总结,提供准确、直接的答案,同时提供来源参考。
按照 Perplexity AI 联合创始人兼 CEO Aravind Srinivas 的解释:「Perplexity 基本上是将传统搜索索引与大型语言模型的推理能力和文本转换能力结合起来的产物。所以每次你输入一个查询到 Perplexity 时,我们会理解你的查询,重新构建它,然后将其发送到一个非常传统的搜索引擎和多个搜索索引,这些索引不是我们自己的,而是外部的。
从这些索引中提取出相关的链接,有时甚至有上百个链接。然后我们将简洁回答用户查询的任务交给大型语言模型。我们要求它阅读所有这些链接,并从每个链接中提取出相关段落,用这些段落来以学术或记者的写作风格回答用户的查询。也就是说,确保你的答案每部分都有支持性的引用、支持性的链接。这些都来自于我们的背景。」
当 ChatGPT 刚推出时,它凭借出色的自然语言理解能力和生成丰富回答的能力,曾一度让人们认为生成式 AI 可能会取代传统搜索引擎。然而,随着用户体验中的幻觉现象、无法联网和知识更新滞后等问题逐渐显现,人们开始回归现实,转向由大型模型增强的搜索引擎,例如 Perplexity 和 Bing Chat。这些「回答引擎」利用 RAG(Retrieval Augmented Generation)技术,对搜索引擎的结果进行处理,以减少误导信息并提高信息的及时性。除了 Perplexity 和 Bing Chat,其他一些曾企图挑战 Google 搜索引擎霸主地位的平台,如 You.com 和 Neeva,也转向了 AI 增强的答案生成模式。
与传统搜索引擎相比,回答引擎主要在以下几个方面进行了优化:理解用户问题的能力、总结搜索结果的能力、保留搜索结果索引的能力,以及扩展用户问题的能力。这些优化旨在降低用户使用门槛,节省用户在不同网页上搜索和浏览的时间,确保搜索结果的可靠性,同时为用户提供深入挖掘问题的能力。
正是因为这些特点,当 Bing Chat 于今年 2 月正式推出时,微软 CEO 纳德拉对其寄予了厚望,将其视为开启搜索新时代的重要标志。他认为这是对谷歌在搜索引擎市场长达 20 年的主导地位的前所未有的挑战。然而,到了 10 月的谷歌反垄断案时,纳德拉表现出了转变,坦诚 Bing Chat 尚有许多待解决的问题,且在市场份额竞争中未达预期效果。全球范围内,搜索引擎市场的格局依旧稳定。
尽管在访问量上 Perplexity 仍远不及主流搜索引擎,而且也有许多批评声音将其视为仅是表面包装,但自推出以来,Perplexity 一直保持稳定增长,在同类产品中保持最高访问时间,其表现甚至超过了有多年 AI 结合搜索引擎经验的 You.com。在 a16z 发布的月访问量前 50 的 GenAI 产品中,PerplexityAI 排名第十。从 3 月到 10 月的半年时间内,Perplexity AI 每天处理的搜索请求量增长了 6~7 倍,目前每天要处理数百万个搜索请求。
即使在其他大型模型纷纷引入联网能力后,Perplexity 仍保持良好发展势头。
Perplexity AI 是一家 Gen AI 应用层公司,模型或技术栈能力不是核心价值,产品迭代能力强是重要特点。Nat Fridman,Github 前 CEO 在今年初称赞过 Perplexity:创立不到六个月,比很多公司全生命周期发布的产品迭代都更多。
回到其产品公测的第一天:22 年 12 月 8 日,Perplexity 发布了其 beta 版本的搜索产品 Ask。根据用户的问题,输出用 Bing 搜索引擎结果验证过的 GPT 3.5 回答。其最早的产品与搜索引擎很接近,将文字输入顶端对话框之后,出现下面两段式内容:
第一部分是 AI 生成的总结,其中包含有引用内容和索引;第二部分是 AI 生成过程中参考的链接来源,会且只会出现 3 条。在生成内容下方可以给反馈:like 和 dislike,也可以转发到推特促使自然裂变。
最早产品形态
12 月 16 日,Perplexity 紧接着发布了第二款产品:Bird SQL,能够根据自然语言搜索推特中的内容。其实现方式是,用 OpenAI Codex 模型将自然语言变成 SQL,从当时还开放的 Twitter SQL 接口去查询到最相关的 post。
由于 Twitter 自身的搜索功能优化得很差,这一功能在早期受到了很多好评。因为产品的查询是基于 SQL 实现的,还产生了很多有趣的数据可视化,与 ChatGPT 最近受到热议的 code interpreter 有些相似。
可惜在今年 2 月底,Twitter 关闭了这个接口。从这个产品能看出 Perplexity 对搜索理解很深,且能抓住当时 Google、Bing、Twitter 都没有通过 LLM 优化自己搜索能力的时机,快速推出市场认可的产品。Twitter 的搜索经验在未来也能帮助其他公司的数据库优化其搜索能力。
今年 5 月,Perplexity 又大幅迭代了产品,问答引擎中的 Agent 实践:推出基于 GPT-4 理解和规划能力的 Copilot。在这款产品中,输入的问题中缺失的细节会由 Copilot 给出一些选项和输入框,使其能够让用户更精准地传达自己的需求。这一能力在输入复杂问题的时候,能给到更可控且准确的回答。当前的 copilot, 虽然只是一个界定了能力边界问答引擎助手,但却可能在尝试定义和探索未来基于 LLM 能力的 AI agent UI 形态。
与这一产品发布的还有 AI profile 和 Perplexity Pro 方案,前者是用户自己的背景和偏好介绍,在使用 Copilot 的时候能体验到一定的个性化内容;而后者是一个月 20 美元无限使用 Copilot 的额度。
根据 Lilian Weng 最新博客中的定义,Agent = Planning + Memory + Action with tools。Copilot 本身是 planning 的体现,AI profile 是 memory 的形式,而 Actions with tools 是当前 Perplexity 当前相对缺失的,也是最可能在之后和 Google 的竞争中落下风的:Google Workspace 中可以给 Bard 使用的工作和地图工具很多。
除了上文中这些重要迭代,Perplexity 产品还经历了一系列小迭代:
Perplexity 推出产品已经 7 个月了,开发和迭代速度很快,对 LLM 的想法也非常的应用思维:用好模型是第一位的,尽管他们有了自己的模型也不做任何宣传,因为认识到模型能力很难和 GPT-4 level 直接竞争。他们对搜索也有着很深的执念,目前 Ask、Bird SQL、Copilot 都围绕着核心命题:如何用 LLM 优化搜索的体验。
功能创新,补足回答引擎的短板
搜索引擎有一套严谨的指标体系,如 Precision@10(前十个结果是否解决用户的问题)、CTR(点击数/展示数),但这些指标对单个生成式的结果并不合适。Percy Liang 团队今年 4 月的一篇论文 Evaluating Verifiability in Generative Search Engines 中提出了一套对于生成式搜索引擎,也就是回答引擎的评价标准:
体感效果:
• 文本流畅度
• 内容有用性
引用能力:
• Recall(引用是否完整)
• Precision(引用是否准确)
经过他们对每个问答引擎 1450 道题的提问,评分如下:
根据这一套评价体系,各回答引擎的生成体感效果总体都不错,其中 Youchat 的体感是最好的,Perplexity AI 排名第二,Bing Chat 垫底。
而到了引用能力部分,总体的表现就差了些。尤其是第一 part 表现良好的 Youchat 就出现了严重的可用性问题,大部分内容都没有得到文本支持。Perplexity 是在准召率上做得最平衡全面的,而 Bing Chat 尽管引用准确,但也和 Youchat 类似召回率偏低。和体感评分相比,这一项各产品的评分都不算高,Perplexity 是当前相对最好的。
因此,将以上评估指标投射到坐标轴上,可以看到在量化评估中 Perplexity AI 收到的评价是最好、最全面的。(注意,评测时 Perplexity 用的是免费版本不用 GPT-4 的,而 Bing 的是已经用上了 GPT-4 的版本,可见 Bing Chat 的表现不如人意):
Perplexity 作为回答引擎有两个重要的产品特点:
1. 很强的知识产品属性,阅读和分享体验与 Google 相比,接近 Wikipedia 和 Quora:
2. LLM 和搜索结合得很好,尽可能减少了 Hallucination:
与 Bard and Bing 相比
技术对比:传统搜索引擎技术栈Google/Bing 搜索引擎的大致技术模块包括以下几个模块:
1. 内容收集和整理:
这一层负责抓取网络、下载网页并解析它们以提取内容。它还包括一些过滤和优化内容的过程,如删除重复页面、检测垃圾邮件和按主题分类页面。
2. 搜索核心:
这一层负责对内容进行索引并创建搜索索引。它还包括一些用于在搜索结果中对页面进行排序的算法,如 PageRank,它根据页面与其他页面的链接关系衡量页面的重要性。
3. 用户和应用程序接口:
这一层负责与用户交互并向他们提供搜索结果。它包括谷歌搜索网站以及允许其他应用程序访问搜索结果的 API。
这些技术模块共同构成了 Google/Bing 搜索引擎的基本架构,而 Perplexity 的搜索能力是建立在这些巨头的能力之上的。
而 Perplexity 的技术栈则直接基于 Google/Bing 的技术来绕过了需要长时间积累和工程复杂度的爬虫、数据库系统。其流程可以分为以下几个部分:
使用大公司的 api 使他们能专注于优化产品,但也会拉高成本。他们意识到这点,回到了 ML Researcher 的老本行开发了 7B 的自研模型,成功将 query 中 LLM 生成成本降低到了相对低的水平。
但与此同时,和 Twitter 关掉自己的数据库一样,Google/Bing 也察觉到了搜索引擎 startup 的动向,将其 search api 的价格抬高了 10 倍左右,对 Perplexity 等不自建 search stack 的公司造成了压力。以 Bing Search API 为例:
涨价后,单次 Bing Search 的成本在 0.015 美元,而 LLM 交互成本(如果自研模型成本能达到 GPT-3.5 一半的话)也就在 0.02 美元左右。因此接下来如果要将产品可持续地扩大使用量,search stack 的自研会使成本降低 30% 左右。按当前的假设估算,Perplexity 维持当前的搜索量和技术栈,一年需要的成本在 1000 万美元以上。技术非自研会对其未来的 runway 有比较大的影响。
Perplexity AI 的许多竞争对手产品仍然完全免费,而仅靠订阅机制的收入,难以满足对 API 的大量需求,阻止了现阶段回答引擎完全替代传统搜索引擎的可能性。目前,
Perplexity AI 已经在尝试构建自己的 WebCrawler、Search index 和 LLM 来应对不断增长的的查询请求来降低成本。
Perplexity 团队目前有 18 人,其中一半以上是 Engineering Team 的。团队优点明显:创始团队对 LLM 有很深入的理解,工程团队对 Ranking /问答系统有很丰富的经验。大部分之前都在独角兽或大厂工作,有 3 位成员之前在 Quora 工作过。接下来重点介绍几位团队中的重要成员。
CEO Aravind Srinivas 来自印度,博士期间才移民来到美国。Aravind 是 UCB 的 CS Phd,主攻方向是在计算机视觉和强化学习中融入 Transformer 模型。Phd 期间,他先后分别在 OpenAI、DeepMind 和 Google 做 Research Intern。毕业后,他加入 OpenAI 工作了一年,研究语言模型和扩散模型。22 年 8 月,离开 OpenAI 创立 Perplexity。
和他一起创业的是 CTO Denis,有很强的搜索和工程背景。11-13 年期间,他是 Bing 团队的工程师,之后来到 Quora 成为排序算法的 Tech Lead。16 年从 Quora 离开后加入 Facebook FAIR,同样开始做计算机视觉和强化学习相关的研究,18 年开始在纽约大学做 AI Phd。
Aravind 在访谈中夸过 Denis 很会招聘,团队第三人就是 Denis 招来的:CSO Johnny Ho。他是哈佛大学数学/CS 双学位,毕业后在 Quora 待过一年,当时在 Denis 的 team 工作。离开 Quora 之后,他成为了职业编程竞赛选手、量化交易员。用 Aravind 的话说,Johnny 是 Perplexity 运转迭代速度高效的重要原因。在官方的 Discord 和 Reddit 中,Johnny 是主要的运营和收集用户反馈的那位,在团队中是复合型的多面手。
Andy 是 Databricks 的 Co-founder,CS Phd 出身的他在 Databricks 承担了很多创业公司运营相关的工作,先后做过 VP of professional services 和 VP of Product。在 Perplexity 早期,Andy 作为 President 以其连续创业的经验帮助公司少走了很多弯路。
Henry Modisett 是 Perplexity 的 Founding Designer。在加入 Perplexity 前,他在 Quora 待了 8 年,从产品早期的年轻设计师一直成长为产品的 design lead & manager。
Quora 的 feed 流、问答和 Google 邮箱 iOS 产品设计都有他的参与。他在今年 2 月加入,那之后的产品迭代 feature 设计可能与他紧密相关,比如 4 月的网页设计风格改版和 6 月的 Copilot。
融资历史:
值得一提的是,团队的天使投资人阵容极其豪华,基本全是海外 AI/ML 的核心人物:
在今年初创始人 Aravind 接受采访的时候提到,Subscription 对问答引擎不是一个好的商业模式,Google 才是 role model。6 月,GPT-4 的接入和 Copilot 功能发布后,高额的 api 成本使 Perplexity 开始推出会员制产品:付费会员所有 query 回答都以 GPT-4 进行回答和生成,每天有 300+ 次 Copilot 使用额度。
对于 20 美元一个月的产品而言,用户的评价相对两极分化。有一部分用户认为其价格与 ChatGPT/Poe 持平是比较贵的,因为其提供的就是一个更可靠的 ChatGPT + Browsing 能力,而 ChatGPT 还有其他更丰富的 plugin offering,Poe 有 Claude 等其他 LLM 的接入。
Pro 方案推出三天后就有了 1000+ 付费用户。用户评价以大多是好评,认为 Pro 产品并不是单纯换了个模型 api,而是做了更用心的优化,使用 GPT-4 之后的查询体验更好,Hallucination、Latency 等效果好于 ChatGPT。商业化收入的快速成长,代表 Perplexity 已经有了稳定的核心商业化客户。
此外,团队还有其他的商业化想法:
Upside: 颠覆搜索引擎市场,争夺 Google 的市场份额
搜索引擎是一个巨大的垄断市场。在过去的五年中,Google 都保持着 90% 以上的市场占有率。在榜单上的公司都已经有 10 年以上的历史。一方面,这让他们积累了非常深的系统 Infra 优势,让后来者很难超越;但另一方面,这也使这些公司有着很深的 Legacy Problem,很难让产品彻底的转型。
Data Summarized by Perplexity
同时,搜索引擎市场也非常大:2022 年谷歌搜索的收入是 $283B,Bing 的收入是 $11.5B。即使是市占率 5% 以下的玩家仍然收入不错。
但要侵蚀一部分 Google 的搜索市场占比,最大的挑战会是商业模型。Google 商业模型除了给用户提供高质量的搜索引擎外,还有两个非常重要的轮子。
其一是广告主营销,只有实现了满足广告主的商业化系统,才能有良好的现金流使用户免费地用上高质量的搜索系统;
第二是创作者激励,内容发布者能够通过在互联网上发布高质量内容,得到平台和广告主的激励,是其源源不断发布内容的动力。尽管 AI 看似减少了创作端需求,但还是需要用户去创作高质量的内容交给 AI 来学习和召回。
除了商业化上的难点之外,还有产品形态上的难点。广告模型下的搜索引擎,天然是有良好的数据飞轮的:用户的浏览和点击行为,反应了用户的偏好,同时反馈到排序系统和广告竞价系统,使搜索引擎的效果更佳。
这样的数据飞轮在当下的问答引擎中还未出现:Chat 的形式并不方便用户直接去做偏好反馈,用户也不会有额外的时间去专门为答案做编辑或修改,Like/Dislike 类标签的比例也只有 10% 用户给出。问答引擎需要一个好的产品形态,来让用户使用的同时自然地给反馈,才能让产品在 Google 面前有竞争力。
当商业模式和产品数据飞轮的问题都能有原创的新解法,且不容易被复制时,相信 Perplexity 有潜力成为一家撼动巨头的公司。
Neutral: Gen AI 时代的 Quora/Wikipedia
撼动 Google 的市场可能暂时是一个好高骛远的目标,而成为新时代的 Quora/Wikipedia 这样的知识平台是完全有可能的。
在互联网时代,这两家公司都以优秀的知识产品出名,但是苦于没有好的商业化能力,没法持续的激励创作者留在平台上,流量价值进一步减少形成了负反馈循环。而 Gen AI 的出现正减少了内容供给上的压力,AI 替代大部分人类创作者组织和整理知识成为可能。从 Perplexity 当前的产品形态上,有很多知识产品的理念,核心用户群也常常使用其做知识研究类工作。
Downside: 独到的收购价值,Tech Giants 可能都需要 LLM + Retrieval 能力
Perplexity 团队是很独树一帜和清醒的:他们把用户的信任而不是技术栈作为自己的 moat。尽管从表面上来看,Perplexity 用的是 Bing Search 和 OpenAI 的 api,但技术栈类似的 Bing Chat 比 Perplexity 使用体验糟糕很多。可见其中有很多 Indexing、Prompting 等相关的技术和设计是比较复杂有技巧的,要做到严肃场景下的使用是一件很有门槛的事情。
最近巨头开始了一波收购潮,Snow 收购了 Neeva(之前 Perplexity 的竞争对手,由于其完整的 search stack,被收购后专心做 enterprise search),Databricks 收购了 MosaicML,都还在技术栈查缺补漏的阶段。但经过这一阶段的探索,大家都会发现只有好的 LLM 是很难在商业环境下有好的使用效果的,LLM + Retrieval 是必要的解决方案。这时,Perplexity 这样一个深入理解 LLM 和 Retrieval 技术与应用、在一个红海赛道阶段性领先巨头的团队是否会有着更高的收购价值呢?
Reference:
https://www.perplexity.ai/search/4f22f1bd-e957-4a50-bc9e-591f16f42464
https://youtu.be/ix4_rdogcVI
https://m.okjike.com/originalPosts/657687c22f2532e38b58e859?s=eyJ1IjoiNTVlZDJkMzhmOWE4ZTMwZjAwNWIzNmU2IiwiZCI6NH0%3D
文章来自于微信公众号 “海外独角兽”,作者 “拾象”
【开源免费】n8n是一个可以自定义工作流的AI项目,它提供了200个工作节点来帮助用户实现工作流的编排。
项目地址:https://github.com/n8n-io/n8n
在线使用:https://n8n.io/(付费)
【开源免费】DB-GPT是一个AI原生数据应用开发框架,它提供开发多模型管理(SMMF)、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL(智能体工作流编排)等多种技术能力,让围绕数据库构建大模型应用更简单、更方便。
项目地址:https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file
【开源免费】VectorVein是一个不需要任何编程基础,任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤,并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。
项目地址:https://github.com/AndersonBY/vector-vein?tab=readme-ov-file
在线使用:https://vectorvein.ai/(付费)
【开源免费】DeepBI是一款AI原生的数据分析平台。DeepBI充分利用大语言模型的能力来探索、查询、可视化和共享来自任何数据源的数据。用户可以使用DeepBI洞察数据并做出数据驱动的决策。
项目地址:https://github.com/DeepInsight-AI/DeepBI?tab=readme-ov-file
本地安装:https://www.deepbi.com/
【开源免费】airda(Air Data Agent)是面向数据分析的AI智能体,能够理解数据开发和数据分析需求、根据用户需要让数据可视化。
项目地址:https://github.com/hitsz-ids/airda
【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。
项目地址:https://github.com/Significant-Gravitas/AutoGPT
【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md
【开源免费】ScrapeGraphAI是一个爬虫Python库,它利用大型语言模型和直接图逻辑来增强爬虫能力,让原来复杂繁琐的规则定义被AI取代,让爬虫可以更智能地理解和解析网页内容,减少了对复杂规则的依赖。
项目地址:https://github.com/ScrapeGraphAI/Scrapegraph-ai
【开源免费】graphrag是微软推出的RAG项目,与传统的通过 RAG 方法使用向量相似性作为搜索技术不同,GraphRAG是使用知识图谱在推理复杂信息时大幅提高问答性能。
项目地址:https://github.com/microsoft/graphrag
【开源免费】Dify是最早一批实现RAG,Agent,模型管理等一站式AI开发的工具平台,并且项目方一直持续维护。其中在任务编排方面相对领先对手,可以帮助研发实现像字节扣子那样的功能。
项目地址:https://github.com/langgenius/dify
【开源免费】RAGFlow是和Dify类似的开源项目,该项目在大文件解析方面做的更出色,拓展编排方面相对弱一些。
项目地址:https://github.com/infiniflow/ragflow/tree/main
【开源免费】phidata是一个可以实现将数据转化成向量存储,并通过AI实现RAG功能的项目
项目地址:https://github.com/phidatahq/phidata
【开源免费】TaskingAI 是一个提供RAG,Agent,大模型管理等AI项目开发的工具平台,比LangChain更强大的中间件AI平台工具。
项目地址:https://github.com/TaskingAI/TaskingAI
【开源免费】MindSearch是一个模仿人类思考方式的AI搜索引擎框架,其性能可与 Perplexity和ChatGPT-Web相媲美。
项目地址:https://github.com/InternLM/MindSearch
在线使用:https://mindsearch.openxlab.org.cn/
【开源免费】Morphic是一个由AI驱动的搜索引擎。该项目开源免费,搜索结果包含文本,图片,视频等各种AI搜索所需要的必备功能。相对于其他开源AI搜索项目,测试搜索结果最好。
项目地址:https://github.com/miurla/morphic/tree/main
在线使用:https://www.morphic.sh/
【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。
项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md
在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0