Perplexity 联合创始人&首席战略官 Johnny Ho 在不久前与 Lightspeed 合伙人 Michael Mignano 的一场对话中提到,Perplexity 的产品发布秉持“完全准备好才推出”的原则,通过小而持续的功能改进,让产品逐步融入用户的日常生活。
Johnny 表示,Perplexity 的产品发布秉持“完全准备好才推出”的原则,通过小而持续的功能改进,让产品逐步融入用户的日常生活。这种专注于快速迭代的策略使 Perplexity 能够在 AI 领域保持灵活和创新。
未来,Perplexity 将在语音体验中保持来源透明和用户交互的可能性。与纯语音或纯文本不同,Perplexity 希望提供多格式的沉浸式体验,让用户既能听到答案,又能看到详细的来源信息,这对用户和发布商都更公平。
以下为这场对话的主要内容:
Michael Mignano
很高兴你能来。按我理解,你的背景实际上是工程学,对吧?而且是研究方向。你是 IOI 的奖牌获得者,如果我没记错的话。
我知道这一点的原因是,我们也投资了另一家公司 Pika,CEO 也是 IOI 的奖牌获得者。我在网上看到一条推文,说现在在 AI 领域,有很多 IOI 奖牌得主。
如果你是像我这样的投资者,遇到 IOI 奖牌获得者的公司,应该直接投资,因为他们的记录非常优秀。能不能和我们讲讲作为 IOI 奖牌得主的意义,以及你的背景?
Johnny Ho
当然。是的,IOI 奖牌得主的群体确实在 AI 领域很活跃,尤其是在创始人方面。看到技术背景的参与者大量出现,确实有点非同寻常。
成为 IOI 奖牌得主需要大量的训练。通常需要几年时间,类似刷 Lead Code 上的典型问题,但这些问题往往耗时较长,不像 Lead Code 那样短短 10 或 15 分钟,而是需要花费数小时。
这种训练需要一种截然不同的思维方式,就像是在每天提升一些可能或不一定实际有用的技能,为了自我投资而努力。
Michael Mignano
这些都是编程挑战吧?
Johnny Ho
是的,类似 Lead Code,但更注重性能。基本上你需要一个最佳的解决方案才能拿到满分。
Michael Mignano
这个是在高中还是大学期间进行的?
Johnny Ho
通常大多数人从高中开始,然后逐年提升自己的技能,最终参加国际比赛,比如叫做 IOI,也就是国际信息学奥林匹克竞赛,或者相关的 ACM ICPC。
Michael Mignano
你也参加了 ACM ICPC 吗?
Johnny Ho
是的,在大学也参加了这个。不过大学时间少,所以表现没那么好。
Michael Mignano
然后你早期的职业生涯是作为一名工程师,我记得是 Core 的一员,但后来你离职回到学校,回到哈佛。我想知道做出这个决定的原因。已经在职场中有一份出色的工作和角色,为什么会选择回到学术界?
Johnny Ho
这个决定当时挺有趣的。Core 有一个很棒的人才库,所以我很喜欢那里的氛围。你提到的 Danny 也在 Core,那时 Core 是知识型公司的代表。
现在有好几家类似的公司,但那时 Core 是大家都向往的地方,大家在那里学习如何为用户构建产品,搭建基础模块。带着这种视角回到学校后,我就想知道能学到哪些实用的、具有现实应用价值的知识。
Michael Mignano
你学到的一些实际应用的例子是什么?
Johnny Ho
大家都提到“大数据”,而在过去,启动一个大数据管道非常困难,很多步骤都是手动的,你得自己搭建所有基础设施。现在已经简单了 100 倍左右,但要理解每天的工作如何转化成指标还是一样的。
比如说,如果你在优化某个指标,可能会把它当成当月的目标,但同时你也要考虑是否过度优化了那个指标,以及这个问题是否可以完全量化而不是质化。这些都是随着经验的积累而学会平衡的。
Michael Mignano
对,这很有道理。那么你是如何从工程师和 IOI 奖牌得主转型到产品和战略方向的?这可不是常见的转型。
Johnny Ho
确实不常见,但我很高兴看到 IOI 社区的人们尝试新的事物。刚开始更多是出于兴趣,想要深入理解产品,用产品。
公司里总有人驱动力去改进产品,从用户的视角思考。我觉得随着时间的推移,这种关注逐渐从底层开发转向了用户体验方面,但我仍然会参与代码审查,理解团队成员正在做的工作。
Michael Mignano
那你现在还在写代码吗?
Johnny Ho
是的,还在写。
Michael Mignano
那太棒了。好的,那来说说 Perplexity。你们称之为“回答引擎”,而不是“搜索引擎”。大多数用户使用它做的事情,可能是之前用 Google 搜索的。你们的长期目标是什么?是要取代搜索引擎的行为吗?
Johnny Ho
长期目标是补充搜索,引入新的行为。我们有一个列表,列出了 AI 解锁的各种垂直和使用场景,其中很多是传统搜索无法实现的。
这就是我们称之为“回答引擎”的原因。大约 30% 到 40% 的长查询在传统搜索中是无法解答的。因此,我们认为这些查询仍需要传统搜索技术的支持,比如查找相关的视觉表示。
关键区别在于用户的意图更复杂,可能有多个步骤。满足这些需求是一个更困难的问题,但同时也令人兴奋。
Michael Mignano
你提到用户意图。你觉得用户来 Perplexity 时的意图与 Google 不同吗?这是你期望用户有意识做出的选择,还是你认为用户会逐渐替代他们原本在 Google 上的行为?
Johnny Ho
是补充作用,用户仍有一些简短的旧查询,我们希望取代这些行为,同时扩展它们。用户可以用 Perplexity 完成编码等任务,这在传统搜索中是无法实现的。拥有一个能同时满足这两种需求的引擎很有挑战性,但这是值得努力的方向。
Michael Mignano
如果拿 Google 搜索、Perplexity 和 ChatGPT 来比较,搜索是覆盖面广泛,Perplexity 更专注于答案。那么 ChatGPT 的位置在哪?
Johnny Ho
Perplexity 介于两者之间,用户可以找到链接,也可以直接获得答案。在大多数情况下,80% 的时间用户会得到满意的答案,剩下 20% 的时间可以深入查询或验证答案。这种后备机制对我们来说非常重要,以确保答案背后有可靠来源。
Michael Mignano
80% 的时间用户能直接得到答案,剩下 20% 需要深入。这是你们想要保持的比例,还是希望提高?
Johnny Ho
我们会不断提升这个比例,但不是仅仅提供答案,而是增加交互。比如用户可以查阅来源、跟进问题、点击互动元素。未来,这些互动会增加,用户不再仅仅满足于文字答案,他们会希望更直接的互动。
Michael Mignano
你是说未来这 20% 会变成一种补充体验,让用户学到更多或获得意料之外的东西?
Johnny Ho
是的,这 20% 会很难,最后的 20% 是最难的。逐步提升这一部分,将决定 AI 是否能真正成为面向消费者的产品。
Michael Mignano
有意思。关于 ChatGPT 和 OpenAI,你能讲讲这项技术的实现吗?你们并没有训练自己的模型,而是结合搜索和大语言模型来提升回答质量。可以讲讲它的工作原理吗?
Johnny Ho
Perplexity 的核心是把答案与来源联系起来。我们离线抓取网络内容,并在线检索合适的段落和片段。这需要平衡,从哪些来源、包含多少上下文。
我们的模型之一是“Sonar”,它被调教得快速回答问题,符合我们的品牌需求和简洁性。我们还在探索如何引导这些模型来实现真实的交互,这是一个挑战,但也是未来的方向。
Michael Mignano
像是为用户做事情。是这个意思吗?
Johnny Ho
没错,为用户执行一些任务,就是有些人所说的“智能体”。但同时也包括让用户进行互动的元素。因为目前来说,AI 要自主行动而不依赖于人类的辅助,其实还很困难,对吧?
Michael Mignano
那么,在到达 Sonar 或其他语言模型之前,是否可以认为 Perplexity 的第一步是像传统的搜索一样的过程?
Johnny Ho
在某种程度上是的,像传统搜索。但传统搜索的特点是通过点击获取价值,而我们则更注重用户的需求,点击与否并不是唯一的衡量标准。
对于我们来说,80% 的情况并不需要用户点击,而是直接提供最真实、最值得信赖的信息和来源。
Michael Mignano
那么你们是如何进行搜索的?是否在底层使用了 Google?
Johnny Ho
我们使用了多种 API 和信号,并将它们结合起来,以确定最佳片段和来源。例如,传统搜索可能只能从 Wikipedia 这样的大域名中抓取一个 URL,而我们可以从不同页面、甚至页面内部深层嵌入的信息中提取并合成使用这些内容。
Michael Mignano
明白了。我想象这是一个两步的过程:先进行某种传统的搜索,可能使用一些 API,也可能是你们自有的技术;然后再用语言模型将这些信息综合提炼,以简洁易读的方式呈现给用户,并保持 Perplexity 的品牌语调。
Johnny Ho
没错。我们确实在制定一个简洁、品牌化的用户定义的目标函数,这与传统搜索和 ChatGPT 稍有不同。我们更关注答案的简洁和良好的格式,并为用户提供延展查询和现实互动的跳板。
Michael Mignano
这一切让我想到我们之前提到的 80-20 法则,尤其是下一代模型的影响。例如 GPT-4.1 系列模型,它们似乎在做更深入的推理。
虽然这和 Perplexity 的工作不同,但那 20% 的“用户推理”空间是否也有助于这些新模型的应用?你们会从中受益还是遇到新挑战?
Johnny Ho
每次新模型发布,我们都会看到某种好处。例如,开源模型 LLaMA 发布后,我们在产品中融入这些模型并进行微调。
GPT-4.1 的不同之处在于它有一个较长的推理链条,这在输出答案之前并不完全透明。对于大多数用户来说,这会增加 5 到 20 秒的延迟,对一般的用例并不适用。
不过,在编程或基于操作的界面中,这种延迟是可以接受的。当这种技术进一步发展,延迟降低、成本下降后,强模型的使用场景会持续扩展。
因此,可能在 6 个月内,编程领域的许多回答会由长推理链条驱动的模型来完成。但当前这个模型的版本仍然较早。
Michael Mignano
非常有趣。现在用户可能通过额外的 20% 来实现推理,而未来模型将承担更多推理任务,尤其是在编程等领域?
Johnny Ho
是的。GPT-4.1 模型主要优化了客观功能:准确性。这也是它在选择题和编程方面表现突出的原因。对于客观主题,它将非常适用,比如法律和科学问题。
但当用户有个性化偏好或想深入探讨时,可能会遇到挑战。比如用户可能忘记告知 AI 自己住在纽约,而 AI 会假设,进行长时间推理,影响体验。这时需要用户的交互参与。
Michael Mignano
也就是说,要么用户完成整个推理链,要么 AI 完成,但这两者结合在一起会变得混乱。
Johnny Ho
确实是的,这就是为什么我们要对哪些话题适合哪种语言模型有清晰的理解和判断。我们会不断改进这方面的理解。
Michael Mignano
那么回到搜索,如果目标是逐渐从搜索转向直接提供答案。尽管 Perplexity 似乎增长迅速,但传统搜索引擎有内置的分发优势,如在 Safari、Chrome 等系统和浏览器中,Perplexity 如何克服这些分发优势?
Johnny Ho
这是一个复杂的问题,但所有成功的 AI 产品的核心在于“颠覆性”。关键在于找到那些被我们专注“颠覆”的应用场景,而传统公司未必会花心力去追逐的应用场景。此外,我们还需要一些留存手段。
尽管传统公司依赖通知推送和推广内容,而我们则用 AI 的优势建立独特的产品体验。这使得我们不需要庞大的社交网络也能迅速搭建一个内容流。
Michael Mignano
从团队目标和文化的角度来看,如何推动这种增长?感觉你们并没有什么捷径,而是每天努力进步。团队是如何实现这些结果的?
Johnny Ho
我们有很多有机的想法。例如,最近我们开展了返校季活动。大部分公司花大量资金进行营销,而我们却深入了解学生需求,比如喜欢小礼物和竞赛。
所以,我们没有复杂的管理结构,每个工程师都有自主的思考空间,快速迭代,有时候犯错,但总能在交付前的最后 10% 调整到位。
Michael Mignano
团队是否设定了周或月的增长目标?
Johnny Ho
我们每个季度会设定一个高层次的目标,然后分解成每周的目标。每个人每周设定自己的目标,完成率至少达到 75%。这样就有了稳定的节奏和进度。
Michael Mignano
这些目标是基于功能发布,还是关注周增长?
Johnny Ho
也包括定性的目标,不仅仅是用户增长。用户增长本身难以执行,因此需要分解成具体的小里程碑。
比如,某项实验失败了,那我们可以从中学到什么?或者一个原型虽然还不完善,但却是一个建设性的起点,可以进一步调整。因此即便当时未能直接增加用户增长或留存,也有具体的成就感。
Michael Mignano
假设你们成功实现了产品增长,这对整个互联网生态意味着什么?我认为像 Perplexity 这样的产品替代传统搜索,互联网的大部分内容是基于搜索和广告模式免费供用户使用的。
而 Perplexity 越是从传统搜索中分流,这种商业模式受到的挑战也越大。能否谈谈 Perplexity 的商业模式,无论是当前还是未来?
Johnny Ho
对,核心业务目前是订阅,包括消费者订阅和企业订阅。因为 Perplexity 目前是一个专注的生产力工具,这样的订阅模式非常合理。
我们提供的价值在于帮助用户更高效地完成工作,比如每节省一小时的时间,我们就可能为用户带来 1% 的附加价值,大概相当于每隔几小时“赚”一美元。
因此,我们并不在每次查询中直接向用户收费,而是基于整个月内累积提供的价值。
未来的下一步可能是广告业务,因为并非所有人都想付费订阅。我们希望广告能够以对用户有益的方式呈现,用户可以被动或主动地发现优质推荐内容。
重要的是,我们绝不会改变答案或对答案产生偏见,我们会始终构建与用户需求一致的商业模式。
Michael Mignano
这非常有趣。传统搜索引擎的答案确实会有一定的偏见,因为一些链接可能是付费推广的。
而在 Perplexity 中,答案始终保持客观,广告可能只是作为相关内容的补充。这种激励机制和 Google 完全不同,你们专注于提供正确的答案,并希望将 80% 的准确率提升。
这样的话,Perplexity 的“用户停留时间”可能会低于 Google,因为用户得到的答案更直接、简洁。广告的展示方式、定价和目标会因此有所不同,你如何看待这些差异?
Johnny Ho
我们在这方面既有新鲜的视角也抱有谦逊的态度。我们在构建消费类产品时没有考虑广告,所以对新的体验有很多需要学习的地方。
我们会推出多个版本、快速迭代,倾听用户和广告商的反馈。我们习惯了快速调整和优化的节奏。我认为目前我们要坚守的核心使命就是不削弱答案的客观性,不产生偏见。
产品中确实有一些地方,广告可能更自然地融入或更容易被用户操作,但我们还没有具体答案。
Michael Mignano
那么你觉得在传统搜索中的每一美元广告支出是否可以无缝转移到一个“回答引擎”上,还是会有一些损失?
Johnny Ho
目前很难说。我认为广告主最重视的用户希望能够逐步迁移到 Perplexity。随着用户群体的分布变化,广告支出流向也会随之变化。
例如,寻找最佳 API 是一个非常昂贵的查询,因为用户可能最终要为该 API 支付上千美元。
在传统搜索中,只有当用户点击广告时广告才有价值,但随着用户逐渐理解不喜欢点击错误链接的体验,这种分布会发生变化,用户将通过他们的查询进行投票。
Michael Mignano
你认为 Google 是否能在不破坏广告模式的情况下转型?毕竟,他们也在尝试将 AI 回答置于搜索结果的顶部。
Johnny Ho
很难说。大公司行动缓慢,可能受到法律问题和现有合作关系的制约。Perplexity 则可以从零开始,完全基于第一性原理思考用户价值。
大公司始终会面临大量的官僚束缚,至少在未来两三年内,理论上它们很难彻底改变商业模式。
Michael Mignano
确实如此。互联网的很多内容都依赖广告模式免费提供。像 Perplexity 和 ChatGPT 这样的产品可能会拦截一部分流量,削弱原本基于广告的用户体验。这样一来,发布商能否继续免费提供内容?如果不能,AI 产品获取信息的方式又会受到怎样的影响?
Johnny Ho
这个问题很好,这正是我们开始发布商计划的原因。只有这样,才能确保整个激励机制的一致性。
从网络上获取优质内容、展示这些内容、用户消费内容,这一切形成一个闭环。目前的模式基本上是通过付费决定广告排名。
我们希望通过更合理的激励机制,让用户的查询主导结果,而不仅仅是关键词。确保为用户呈现最相关的内容片段,而不是出价最高的片段。
Michael Mignano
你能进一步介绍一下发布商计划吗?
Johnny Ho
Perplexity 的发布商计划会平等地为每一个被用于生成答案的来源分配相应的报酬。
比如,如果某个来源的片段被使用,就会得到相应的分成。目前的公式比较简单,就是根据某个来源被使用的次数来计算,但未来可能会更复杂一些。
我们的目标是让使用最多的来源获得最大的分成,从而鼓励发布商继续创作高质量内容,也让用户看到最相关的内容,而不是被最高竞价的片段所支配。
Michael Mignano
所以发布商在其网站上发布内容,Perplexity 收集这些信息生成答案,使用的所有来源都会根据出现的频率进行简单的收入分成。作为发布商,如何确保我的内容能被优先选中?
Johnny Ho
确保内容具有高质量、可验证性、可信度和原创性。这样可以使这些内容片段更频繁地被展示。
Michael Mignano
我猜想会有一种新的 SEO 形式出现,发布商会优化内容以便被 Perplexity 或类似服务采集,是这样吗?
Johnny Ho
是的,我想这确实会成为一个难题,需要去除所有只是重复而非原创的内容。随着时间的推移,这个过程不可能仅靠人类来完成,我们将需要 AI 来参与这场“战斗”。
这可能会涉及到机器学习,考虑哪些文章是最早发布的、哪些信息背后有真实的作者、哪个发布商在该领域的权威性最高等等。
虽然这个公式还未完善,但这是必须要完成的,否则互联网将充斥着无限量的不可验证、缺乏可信度的信息。
Michael Mignano
这确实让发布商在新的世界中对可信度的需求提高了。当用户不直接查看并评估内容来源时,对信任的要求就会更高。
Johnny Ho
对,以前用户可以通过点击链接来验证内容,比如看看网站设计如何,有没有侵入性广告。但随着这种模式的重要性降低,未来将更多地关注页面上的实际信息,包括高质量的报道如何为该页面提供信息。
接下来会很有趣,尤其是当人们生成图片和视频时,我们如何防止这些内容主导信息领域?
在我看来,图像和视频更具挑战性,因为它们缺乏结构化的格式。比如图像的来源不明确,视频的来源也越来越难辨别,即使有元数据,人们也可以轻易移除这些信息。
Michael Mignano
我猜测对于文本内容,AI 可以验证其是否为人工生成或 AI 生成,如果是 AI 生成的,可能会降权处理。
Johnny Ho
至少在文本领域,我们有一个较为明确的结构化框架,比如页面标题、发布商,最重要的是作者存在的前提。
这使得判断信息来源更加容易。但如果人们开始忽视作者或不再突出展示作者信息,这将是一种危险的趋势,用户将难以辨别信息的来源。
Michael Mignano
引用会在这一切中扮演什么角色?因为在发布商计划推出之前,引用可能是发布商的真正价值所在,即确保用户知道内容来源并能为网站带来流量。这在发布商计划中是否仍然是价值交换的一部分?
Johnny Ho
是的,无论是否被点击,发布商都会获得相应的积分。我们基于内容片段的使用次数,而非点击次数。
这避免了在点击区域大小上进行操控。我们没有激励去降低或提升某些来源的优先级,我们的激励是提供最高质量的答案。
Michael Mignano
你认为多模态模型在 Perplexity 中的潜力如何?如今大家都很期待 ChatGPT 的语音模式,这些模型似乎在语音、视频和图像交流上提供了很多新功能。对于 Perplexity,这些技术的应用前景如何?
Johnny Ho
我认为语音很有趣,但它会丢失 Perplexity 通常提供的大量上下文信息。因此在语音设计中,我们仍会展示来源和各种媒体信息,这样用户可以了解答案的来源,而不仅仅是接收到简短的音频回答。
语音也很具挑战性,因为用户可能不会期待通过语音轻松地跟进查询。我们或许可以在语音模式中添加一些非语音的查询或互动元素,以避免类似传统客服的单调体验。
Michael Mignano
明白了。所以即使是在语音为主的体验中,你仍希望用户看到屏幕内容,以多种格式结合的方式呈现,而不是纯语音或纯文本。让体验更具沉浸感是更好的方式。
Johnny Ho
没错,用户应该随时有选择权。如果他们想检查答案的准确性,应该能够做到。对于我们产品和品牌来说,持续提供事实依据非常重要,这对发布商也是有利的,他们不会被完全剥夺存在感。
Michael Mignano
接下来 Perplexity 有哪些新进展?似乎你们一直在推出新功能和新平台。未来我们可以期待些什么?
Johnny Ho
对那些期待新功能的人来说,Perplexity 的特点在于只有在完全准备好的情况下才会发布新功能。我们可能在后台进行很多实验和演示,但只有在达到生产标准时才会正式发布。
我们的变化不会在一夜之间出现,而是通过一系列小而增量的更新,使产品更友好,增加小的互动,将 AI 更加融入用户的日常生活。
这样的迭代思维让我们可以快速前进并集中精力。与其追求一次性的大规模发布,我们更专注于每次小规模的进步。
文章来自于微信公众号 “有新Newin”,作者“ 有新”
【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。
项目地址:https://github.com/Significant-Gravitas/AutoGPT
【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md
【开源免费】MindSearch是一个模仿人类思考方式的AI搜索引擎框架,其性能可与 Perplexity和ChatGPT-Web相媲美。
项目地址:https://github.com/InternLM/MindSearch
在线使用:https://mindsearch.openxlab.org.cn/
【开源免费】Morphic是一个由AI驱动的搜索引擎。该项目开源免费,搜索结果包含文本,图片,视频等各种AI搜索所需要的必备功能。相对于其他开源AI搜索项目,测试搜索结果最好。
项目地址:https://github.com/miurla/morphic/tree/main
在线使用:https://www.morphic.sh/
【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台,可以对大语言模型(LLM)和多模态图文模型(VLM)进行预训练和轻量级微调。XTuner 支持多种微调算法,如 QLoRA、LoRA 和全量参数微调。
项目地址:https://github.com/InternLM/xtuner