这是Perplexity CEO Aravind Srinivas 不久前在 TechCrunch Disrupt 上与 TechCrunch 高级编辑 Devin Coldewey 的一场对话。
Aravind 详尽讨论了他对 AI 搜索的未来、内容创作者的参与方式以及 Perplexity 的产品策略。
他表示,Perplexity 团队优先根据用户的实际需求来推进功能开发。通过分析用户日志,他们先后推出金融、体育等相关领域的功能,帮助用户高效获得精准答案,以此逐步替代传统的“蓝色链接”搜索模式。
Perplexity 的目标是覆盖用户的日常用例,从而改变几十年来依赖传统搜索引擎的习惯。
关于商业化,Aravind 强调了在 AI 行业中的高昂运营成本,尤其是 GPU 和数据中心的费用。他展望了未来 API 成本的下降趋势,并提出 Perplexity 的变现方式不仅限于订阅,计划通过灵活的广告变现模式实现持续增长。
Perplexity Publisher Program 的设计初衷,期望通过广告收入分享和定制 AI 助手,帮助媒体和内容创作者参与到 AI 搜索生态中。
在当前 AI 成本高企的情况下,Perplexity 将更多资源集中于增长,并逐步探索可持续的收入模式。以下为这场对话的主要内容,enjoy~
Devin Coldewey:
感谢你的加入,Arvin。感谢所有人参与。让我先直接问一个问题,来了解一些基本情况。你们公司对 “抄袭” 的定义是什么?你们肯定有一个定义吧?我很想知道。你们必须得有一个定义,以防止在无意中触犯。
Aravind Srinivas:
呃,其实你可以问一下这方面的灵活性。
Devin Coldewey:
我以为我是这样问的。
Aravind Srinivas:
实际上,对的,这可能是最佳的回答方式。其实这并不是我们公司自定义的定义,而是 “抄袭” 的实际定义。很显然,Perplexity 始终会引用来源,因此并没有对任何内容的所有权主张。
它只是从网络上提取信息,总结成用户易于理解的方式,并提供了这些信息的来源。就像记者或学者们撰写文章时那样,只要有参考文献和引注部分,对吧?
Devin Coldewey:
但在学术意义上,他们创造了一份原创文件,并利用引用来构建一些原创内容,对吧?
Aravind Srinivas:
嗯,有时候当某个新闻通讯首次报道了一条新闻,之后另一个新闻媒体报道相同的新闻,并注明该新闻最初由某某报道时,这算是抄袭吗?
Devin Coldewey:
好吧,当我引用某人的话时,我会把它放在引号里并注明他们说了什么。但是,CopyLeaks 刚刚进行了一项研究,他们发现当 Perplexity 可以读取一篇文章时,往往会直接引用 8、10 或 15 个连续的词句,并在小卡片之类的地方注明文章出处,但没有更多说明。
Aravind Srinivas:
从一开始就在来源面板中标注,在每句话的结尾处也会有脚注,指向信息的相应页面。当然,并不是非常精确,每句话后都有确切的脚注,但我们确实尝试过。
我们在 2022 年 12 月 7 日推出这个功能,当时 ChatGPT 在 7 天前刚刚上线,整个世界都被它吸引了。
但是我们是唯一一个重视引用和引文的 AI 产品,而其他产品只是从网络中吸收内容,并不提供引用。
因此,从一开始我们就关注这个问题,并不断改进,力求在文本中更加清晰地标明特定部分的来源,我们也在努力做得更好。
Devin Coldewey:
我相信你,而且你有学术背景,所以我真的相信这对你来说很重要。我知道你从一开始就提到引用,这表明你并不仅仅是在表面功夫。但是,当然,你必须有一个定义。
问这个问题并不是为了刁难你,而是因为你们必须理解或定义 “抄袭”,以便能够避免抄袭。如果我在我的文章中复制粘贴某些内容,我会知道自己在抄袭,也会因此感到不安,所以我不会这样做。
因此,理想情况下,你会希望你的模型也不会这样做。所以它必须知道,或者至少得有某种监督机制。我们可以继续探讨,但我问这个问题是有原因的。
Aravind Srinivas:
是这样的,模型会被指示不要直接引用任何特定来源的文本,而是提供一个融合不同观点的摘要,直接满足用户的需求,而不是简单复述网络上的内容。
这个指示随着模型在指令遵循能力的提升而得到良好执行。AI 中常称之为监督微调(SFT)或基于人类反馈的强化学习。
显然,我们并不是唯一在做模型训练的团队,我们会采用来自其他开发者的模型,比如 Llama 开源模型。
没有任何模型是完美的,任何模型都可能通过提示工程或提示注入来实现与原始设计不同的行为,整个过程被称为提示注入。
Devin Coldewey:
好的。但如果我只是说 “嘿,帮我总结一下这篇文章” ,然后像有人展示的那样,有时你会发现它直接拿了整句话过来。
Aravind Srinivas:
是的,这并不是我们产品的预期使用方式。我们的产品主要是用来解答问题的。有些人试图用它来做我们不希望的事情,比如说,“帮我总结这个 URL” 然后他们粘贴 URL。不过我们已经。
Devin Coldewey:
我实际上是这么用过的。
Aravind Srinivas:
嗯,我们实际上并不允许这种特定的使用方式,我们尽力避免这种用法。但说实话,没有任何 AI 可以声称对某个特定的用例总能设下保护措施。
用户总能找到新的提示方式,使原有的保护措施失效,然后我们再逐步完善。最终,我们可以在较为安全的情况下进行部署,确保它不会以非预期的方式被用户使用。
Devin Coldewey:
明白了。谈到 AI 驱动、数据本地的 AI 搜索,我们看到有几家公司在做类似的事情,但我想到的最显著的例子就是 Google。
Google 已经在复杂化和智能化搜索十几年了,加入了摘要、小部件、AI 等。
这也许是我作为科技记者 15、20 年职业生涯中看到的一个最不受欢迎的重大平台更改之一。
但感觉有些公司在说,“我喜欢你在做的事情,Google,你觉得我们是否可以接棒你做的事情,甚至做得更好?”
Aravind Srinivas:
我认为 Google 基本上还是一个以链接为基础的搜索引擎。无论他们是否希望提供答案,点击链接才能让他们赚钱。
就在昨天的财报电话中,他们提到每季度仅搜索广告就能赚 450 亿美元,这对他们的核心业务非常重要。
我认为虽然他们没有细分利润率来源,但主要利润还是来自让用户点击更多的链接。因此,他们有动力展示尽可能多的链接。
即便 AI 摘要在某些信息查询中开始出现,但这并不是主要的使用方式。每天约 50~80 亿的查询中,大多数查询并不需要这么深度的答案,因为如果不是这样的话,肯定会破坏他们的收入模式,对吧?
我们正在尝试做的事情与 Google.com 或至少 Google 的搜索栏有所不同。Google 查询的平均词数在两到三之间,具体数据很难确定,但有人估计约为 2.7,而在 Perplexity 上,大约是 10~11 个词。
显然,在 Perplexity 上,人们直接问问题,而在 Google 上,你只是输入几个关键词以快速找到某个链接。
用户仍然会使用 Google 查询一些简单的问题,比如某个名人的年龄、正在进行的比赛比分,或者旧金山的天气。
这些情况下,用户会输入 2~3 个词,而目标是快速获得答案。可以说,Perplexity 和 Google 都应该满足这种即时信息查询的需求,但除此之外,这两个产品完全不同。
Devin Coldewey:
所以我对某些用例很感兴趣。首先,你在 Twitter 上发布了大量的用例和功能,过去两周内我看到你们发布了大概 50 个。你刚刚提到比赛比分,你们刚刚在 Perplexity 上增加了这个功能。
Aravind Srinivas:
是的,目前只有 NFL。
Devin Coldewey:
只有 NFL 吗?你们是直接从 NFL 获取数据,还是从其他地方抓取数据?
Aravind Srinivas:
不,我们通过与一家体育数据提供商签订的数据合约来获取数据,和 Google 采用的方式一样。没人会直接抓取比分,因为确保数据的准确性非常困难。
Devin Coldewey:
那这样做是因为用户会查询类似 “今天 Seahawks 的比分是多少?” 还是他们会说 “给我展示过去 20 场 NFL 比赛的比分数据”?
Aravind Srinivas:
更像是后者。我们希望 Perplexity 成为一个可以回答任何问题的地方,我们的任务就是提供准确的答案。
显然,我们在初期找到了一些特定的用户群体,比如,Facebook 初期流行于学生群体,Amazon 以图书销售为主。
类似的,早期的互联网确实迎合了学术型用户,积累知识库的能力在 AI 中也不例外。
Perplexity 最初深受那些学术研究型、知识导向型用户的喜爱,我们也围绕这些人群建立了品牌。但我们希望扩展到全球,让所有人都能提问任何问题。
尽管体育看似与知识无关,但许多人喜欢围绕体育进行分析、统计比赛,深入了解特定球员或球队的成功概率,预测比赛,或总结比赛。
因此我们不仅提供实时比分,还提供更深入的内容,比如解说总结、球员对比、球队对比以及更详细的细节,满足那些关注这一领域的用户需求。
Devin Coldewey:
这是我提到的众多新功能之一,比如说几十个新功能。你们频频推出这些功能,有什么策略吗?还是说有点像散弹枪的策略,你们打算推出 10 种产品,然后其中三种会成功?这是在尝试找出对用户来说真正有价值的功能吗?
Aravind Srinivas:
不,我们实际上会查看日志,看看用户都在询问什么。事实上,在增加体育功能之前,我们优先考虑了金融。
因为我们在商业和金融领域有很多用户,他们会进行市场研究、投资组合管理,或者查询加密货币的相关新闻或其他投资者的投资策略,试图了解不同股票的新闻动态。我认为人们是在尝试理解这个世界。
所以我们会查看日志,看看哪些方面我们可以做得更好,哪些方面我们能提供的不只是文本墙,这点非常重要。
体育是一个领域,很多人发现了一些我们产品的幻觉问题,比如在无法提供比赛的准确比分时。
这就像,如果我们能够涵盖用户在现有搜索引擎上习惯的多种日常需求,那么他们就没有理由回到传统的蓝色链接界面,对吧?我们的目标是,如果你想要改变习惯,这并不容易。
这是一个已经持续了二三十年的习惯,大家早已习惯于 10 个蓝色链接的搜索引擎。
但是如果这是未来的趋势,我们必须努力赢得用户的信任,覆盖他们的日常用例,超越单纯帮助他们的软件开发、研究规划、学术研究或金融研究,我们还需要涵盖诸如本地搜索、体育、天气、购物、旅行等 “无聊” 的需求,这就是我们决定优先级的依据。
Devin Coldewey:
你们也引来了诉讼,关于 Dow Jones 的问题。他们称 Perplexity 是一个 “内容盗窃帝国”。这个说法有点强烈。你们公开回应说媒体公司希望这种技术不存在。
但我不认为这是真的,因为你们和 Fortune、Time 有合作协议,原告 News Corp 也与 OpenAI 友好合作。所以问题不是他们希望你们不存在,而是他们可能不喜欢你们提出的合作模式,对吗?
Aravind Srinivas:
他们声称我们没有回应,但这并不属实,我们实际上在同一天就做出了回应。所以我希望人们能够理解,我们的意图是合作、参与和共同努力。
Devin Coldewey:
那这实际的合作会是什么样的?如果你们要谈合作,这些协议的内容是什么?是收入分享吗?什么收入?你们要如何分享?这会是什么样子?
Aravind Srinivas:
我们推出了一个名为 Perplexity Publisher Program 的项目,几个月前发布的。这个项目的理念是,内容授权是一种短期的安排。首先需要明确两点:一是要将 AI 公司分为两类:
一类公司会利用互联网上的所有数据训练大型基础模型,模型将所有文本、所有词汇内化,拥有完整的知识。如果训练得足够好,随着模型规模扩大,所有这些内容都被内化到模型权重中。
另一类则是只在特定查询时实时使用网络上的内容作为来源,用于生成摘要,而不对内容进行训练。
我们正在向出版商解释,我们属于第二类,不应该带着 “第一类公司付钱授权内容训练模型” 的心态来看待我们。对于第二类公司,我们提出了不同的结构,目前还没有人提出过类似的提议。
我们表示,我们将通过广告盈利,因为我们本质上是一个搜索产品。是的,我们直接提供答案,但我们属于搜索类别,而搜索是面向大众市场的消费品。
最终,通过广告可以获得可观的收入。与传统搜索引擎赚取大量广告收入却从不与出版商分享的方式不同,我们的承诺是按查询级别与出版商分享广告收入。
即在特定查询中,如果我们通过广告获得收入,而你的来源被引用为答案的一部分,我们会与您分享这笔收入。
如果我们的用户增长持续,并能通过广告有效变现,这对所有愿意合作的出版商来说都是巨大的回报,使他们的内容可以作为我们答案的一部分被引用。
Devin Coldewey:
问题在于,出版商认为,当有人在 Perplexity 上查看我的文章被引用的摘要时,他们不会再点击我的文章,从而剥夺了我们赖以生存的流量和收入。
这在 News Corp 的诉讼中体现得尤为明显。他们说,你们宣称并不与我们竞争,但实际上你们就是竞争对手,这就是这么简单。对此你有不同看法吗?你怎么反驳?
Aravind Srinivas:
我们不是一个新闻产品。没有人来 Perplexity 是为了获取日常新闻。
Devin Coldewey:
那为什么你们还要频繁获取所有这些内容呢?
Aravind Srinivas:
用户来到这里是为了弄清楚周围发生的事情对自己有什么影响。比如说,有一则关于 Nvidia 的新闻,可能 Blackpool 的 GPU 出现延误,或者 Jensen 宣布按计划推进。
你会问,在这个新闻背景下,我是否应该继续购买 Nvidia 的股票?这些问题你不会去问 TechCrunch,但是你会问 Perplexity。
同时,你不会来 Perplexity 获取 Jensen 说了什么的新闻,而是直接去新闻来源。这是两个不同的产品,用户需要理解这一点。
我们也有责任去教育用户,帮助他们理解这些区别,并展示用户是如何使用我们产品的。没有人会来这里要求“准确地复现这篇文章”。
网上已经有其他网站可以做到这一点了,有一些免费的网站可以让你直接粘贴 URL,然后获得任何收费墙背后的内容。而我们完全不是为了这个用途而设计的。
Devin Coldewey:
但是你们确实从广泛的互联网和所有内容创作者中获取价值,比如那些发布 YouTube 视频、文章、书籍、故事和其他内容的上百万用户。
我们如何参与其中?我们已经习惯了 Google 和 YouTube 的广告模式,比如说 “你们做广告” 或 “通过 YouTube 变现” 。那我们该如何变现呢?
Aravind Srinivas:
确实如此。所以我们邀请了所有人参与,我们的 Perplexity Publisher Program 就是为了这个。
在广告收入分享之外,我们还会帮助你们在自己的平台上构建 AI 原生助手,或者任何类型的 AI 辅助功能,这样用户在你们的网站上时可以仅搜索你们的内容。
比如说,他们在阅读一篇文章时可能有很多后续问题,直接在你们网站上提问而不必来找我们。
我们会通过 API 提供支持,给予大量 API 点数,还会为所有媒体公司员工提供 Pro 高级订阅和企业计划,因为我们相信我们的产品可以让你们的内容创作更加高效。
无论是写新内容还是进行新闻写作,都会涉及到事实核查、市场研究或人物背景调查。我们目前是最前沿的研究工具之一,可以帮助人们更有效地简化研究流程。
Devin Coldewey:
我明白。我不是学术界的,所以可能在获取来源以及不同需求的方面,我们的看法会有些根本性差异。
不过就像现在,假装他们不在,只有我们在谈话。这是个关于版权和诉讼的复杂问题,知识产权法在这方面尚无先例,所以如果出现错误也是可以理解的。你认为有可能在某个环节上无意中犯了错吗?这很常见。你觉得有可能吗?
Aravind Srinivas:
我们的回应已在博客中发布,这也是我们信奉的立场。我们不会故意违反任何法律,自然会为自己辩护。
Devin Coldewey:
你认为法律是否需要改变,以便让更多类似的事物存在,给知识产权更多流通的自由?
Aravind Srinivas:
我认为目前已经有很多关于版权的法律,并且有一些先例已确立——对事实的版权并不成立。
Devin Coldewey:
确实是这样,但不仅仅是事实。我并不只是写“事实”。
Aravind Srinivas:
我们都不是律师,所以显然我们无法在这里解决这个争论。我们的信念是,事实应该被普及和共享。想象一个世界,科学家们声称某个事实属于他们,其他人就无法获取该知识,这样的真相无法传播。
Devin Coldewey:
确实如此。这是个有趣的观点。我真的很好奇。那为什么筹集这么多资金?是因为传递事实很昂贵吗?
Aravind Srinivas:
AI 很昂贵。我希望未来成本能降低。但目前 GPU 和数据中心都很贵。提供模型的公司需要通过推理费用来收回投资,而我们这样的用户则需要付费使用。
我观察到 API 成本大约每 4-5 个月下降一半,这是最近的趋势。如果这种趋势再持续一两年,模型成本将会进一步降低 10~50 倍。
对于我们这种增长趋势的公司来说,这非常理想,因为成本在下降的同时,我们可以专注于扩展。短期内先处理成本,随着规模扩大,我们也在探索长期可持续的盈利模式。
我们认为,除了订阅外,还有很多方法可以让 AI 产品变现。虽然许多公司在订阅模式上取得了成功,我们也做得相当不错,但我们认为在使用层面的变现可能更好,而不仅仅是按月收费。
我们认为,如果不通过募资筹集大量现金,就可能遇到麻烦,但我们相信可以找到解决方案。
Devin Coldewey:
你觉得能从 Google 那里分一杯广告收入吗?人们会转向你们吗?
Aravind Srinivas:
我不确定这是否是零和的。基本上,有人可能会说“我的营销预算里,有 95% 给 Google,5% 给 Perplexity”。这种情况并不一定会发生。
根据现有的趋势,即便像 Matter 的广告收入增长,Google 的收入也保持稳定或略有增长。
因此,如果我们广告收入增长,可能会影响其他公司的广告收入,但不一定会立即减少 Google 的份额。
我认为,出现一个新平台时,首先要确保不失去现有用户的信任,不要过度追求广告收入,以免破坏平台存在的初衷。
同时,我们也需要让广告商确信在这里投放广告没有品牌风险。我们需要处理诸如幻觉等问题,这需要很多努力。我估计我们至少需要两年时间来解决这些问题。
文章来自于微信公众号 “有新Newin”,作者“有新”
【开源免费】FASTGPT是基于LLM的知识库开源项目,提供开箱即用的数据处理、模型调用等能力。整体功能和“Dify”“RAGFlow”项目类似。很多接入微信,飞书的AI项目都基于该项目二次开发。
项目地址:https://github.com/labring/FastGPT
【开源免费】MindSearch是一个模仿人类思考方式的AI搜索引擎框架,其性能可与 Perplexity和ChatGPT-Web相媲美。
项目地址:https://github.com/InternLM/MindSearch
在线使用:https://mindsearch.openxlab.org.cn/
【开源免费】Morphic是一个由AI驱动的搜索引擎。该项目开源免费,搜索结果包含文本,图片,视频等各种AI搜索所需要的必备功能。相对于其他开源AI搜索项目,测试搜索结果最好。
项目地址:https://github.com/miurla/morphic/tree/main
在线使用:https://www.morphic.sh/
【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台,可以对大语言模型(LLM)和多模态图文模型(VLM)进行预训练和轻量级微调。XTuner 支持多种微调算法,如 QLoRA、LoRA 和全量参数微调。
项目地址:https://github.com/InternLM/xtuner