作为 Meta 的前 CTO,Quora CEO Adam D'Angelo 目前还是 OpenAI 的董事会成员,在 Quora 之外推出的 Poe,成为当下接入大模型最多的 Chatbot 平台:GPT-4、Claude3、Mistral 等模型都有,用户也可以在上面搭建自己的 Chatbot 机器人,如果有别的用户使用,还可以产生收益。
Poe 可以说是当下普通用户体验 Chatbot、新的大模型想要接触第一波用户的最好渠道之一。
最近,a16z 采访了 Adam D'Angelo,讨论了 Poe 诞生的由来、如何为创作者构建更好的基础平台、未来大模型的发展趋势、以及当下创业者如何切入 AI 赛道等问题。
本文编译自 a16z 普通合伙人 David George(简称 David)与 Adam D'Angelo(简称 Adam)的采访对话,略有增删。
原文:https://a16z.com/adam-dangelo-ai-masses/
本期 Workshop,我们聚焦在模型推理优化及组织的 AI 智能化转型。
推理成本是当下大模型落地面临的难题之一,整个 AI 行业都在探索如何高效利用计算资源,并行处理更多的推理请求。 比如腾讯此前推出了大模型推理加速引擎 Taco-LLM,表现全面优于 vLLM 框架,吞吐性能提高 78%。
腾讯云异构 AI 研发副总监叶帆将分享他对大模型推理加速工具的理解与实践。
很多企业都在关注 AI 的智能化数字转型,我们请到了腾讯乐享产品资深架构师沈林玲来做分享。
乐享是腾讯 HR、行政、企业文化、业务部门的组织学习协作平台。2017 年开始乐享对外开放,至今服务超过 30 万企业,涉及 100 多个细分行业。
Adam:我在职业生涯早期就对 AI 很感兴趣。大学时就尝试构建过一些 AI 产品,但那时候还是非常困难的。当时的技术还不足以制作出消费者可以使用的产品。与此同时,我见证了社交网络的迅速崛起。实际上,很多社交网络的技术可以看作是 AI 的一种替代方案。与其让计算机完成所有任务,不如让我们通过互联网连接人与人,让他们互相完成这些任务。
就像全球化可以替代自动化一样,社交网络让人们可以访问世界上的其他人,不管是用于娱乐、交流,或者你想做的任何事情。我认为这是一种非常强大的技术,鉴于 AI 还不太成熟,「社交媒体」是可以应用所有技术的主要事物。
随后在 Quora 的工作经历中,我们推出了一个完全由人类驱动的产品。用户可以提出问题,并添加相关话题标签,其他人则可以注册来回答问题,他们通过标记这些话题来告诉我们他们知道什么,然后我们会尝试把问题引导给那些熟悉特定话题的人。整个过程都是手工完成的。
但我们知道,总有一天软件能够生成答案。我们进行了一系列实验,使用 GPT-3 来生成答案,并将其与 Quora 上人类撰写的答案进行比较。大多情况下,GPT-3 生成的答案并不如最好的人类答案,但它能够对任何问题立即提供一个答案。Quora 一直面临的限制是高质量回答者回答问题的时间。因此,大语言模型(LLMs)最引人注目的特点是,能够以极低的成本,对任何问题即时生成答案。我们意识到,那种你提出一个问题,然后立即从 AI 得到一个答案的聊天式体验,更有可能是与 AI 互动的最佳方式,而不是 Quora 的发布提问等待回答的模式。
David :当然。
Adam:所以,基于所有这些,我们决定构建 Poe 作为一种新的面向聊天的 AI 产品。
David:很多人都很熟悉 Poe,但还是可以向我们解释一下,这个产品是如何工作的?你们最初是如何找到灵感的?你如何与之互动?
Adam:正如 Quora 汇集了许多拥有知识并渴望分享的人们一样,我们希望 Poe 成为一个平台,让人们可以接触到多家公司开发的 AI 以及许多在 AI 技术基础上进一步创新的优秀创作者。通过 Poe,用户能够与目前市面上的众多模型进行互动。
此外,我们还提供了一系列基于这些模型开发的其他产品。我们拥有一个开放的 API 接口,任何人都可以接入使用。所以,无论是哪个研究团队或者个人在进行模型训练和微调,都可以将自己的 AI 模型上传到 Poe 平台上。我们提供的是让他们迅速触及广大用户的机会。
作为 Quora,我们思考了自己在 AI 这个新兴领域中应该如何定位?我们的优势在哪里?通过过去十年建立和运营 Quora,我们积累了哪些经验?
实际上,拥有大量消费者的互联网经验和营销能力在推动产品走向大众市场方面是至关重要的。这包括如何在 iOS、Android、Windows 和 Mac 等不同操作系统上开发应用、界面本地化、A/B 测试、订阅服务、以及其他需要进行以打造优质消费产品的小幅优化。我们希望 Poe 能成为一个平台,让无论是大型研究机构还是独立研究者,都能将自己开发的 AI 模型推向全球主流用户。
David:有一种理论认为,未来一个模型或一个公司将为每个人提供他们需要的一切解决方案,对吧?还有另一种理论认为,将会有许多不同的模型用于不同的用例。世界将是多模型和多模态的。Poe 背后的理论是,未来将是多模型和多模态的。你为什么认为会是这样?
Adam:我觉得没人能确切预测未来的发展,但我们预计,人们基于这些大语言模型(LLMs)开发的产品类型,以及模型本身,将会呈现出极大的多样性。在设计这样一个模型时,我们需要在各个方面做出权衡。比如,你需要选择用哪些数据进行训练,决定采取哪种微调策略。作为用户,你期望模型能理解哪些指令?你希望用户如何使用这个模型?正如早期互联网时代涌现出众多不同的应用一样,我相信 AI 也将带来类似的爆发。
举个例子,在互联网初期,网页浏览器的出现让开发者们不必为每一个网络产品单独开发客户端,他们只需建立一个网站,任何浏览器都能访问。我们也想让 Poe 成为一个通用的界面,让任何人都能通过它与各种不同的模型进行交流。我们坚信多样性的重要性,因为全球众多才华横溢的开发者都能够对这些模型进行优化调整。现在你就可以对开源模型进行微调。除此之外,OpenAI 和 Anthropic 等公司也提供了产品,谷歌也即将推出能让你微调各种模型的服务。每个人都有自己的数据集,每个公司都有自己的独特技术可以整合到模型中。我相信,结合这一切,AI 将带来无限的可能性和广泛的应用。
David:我想深入探讨两个问题。首先是,产品的本质是什么?目前是什么,将来又会变成什么?其次是长尾效应的理念,就像我们要依赖长尾效应,激发其潜力,提供一个平台,去掉他们不会搭建的很多基础设施,并真正发挥他们的强项,对吧?
关于第一个问题,产品是什么样的?现在,很多人可能会认为「AI模型」本身就是产品。我们期待看到哪些进步,能够改变人们与这些模型的互动方式,并促成新型产品的开发呢?换句话说,是不是模型的开发者最终会成为所有产品的建造者呢?
Adam:如果你是一家大模型公司的创始人,手底下有几十名员工可以去开发面向消费者的产品,并且公司文化也支持这样做,那么你完全可以直接面向消费者市场,打造一款优秀的产品。但我相信,大多数在训练这些模型的人并不具备这样的条件。
如果你想要把自己的模型推向全球消费者,你得考虑开发 iOS 应用、Android 应用、桌面应用和网页界面。你还需要处理不同国家的账单结算问题,考虑税收等各种事务,这中间要做的事情实在太多了。你可以选择筹集风险投资,然后用这些资金去雇佣一个团队,开发上述的种种能力;或者,你也可以将这些资金用于进一步优化你的模型。我认为不同的初创公司会根据自己的情况选择不同的策略。但对很多公司而言,最快捷的方式可能是建立一个 API,或者直接接入 Poe 的 API,这样他们就能迅速地将自己的模型推向广大的消费者。
David:聊聊那些长尾创作者吧,你希望如何与他们互动,为什么他们想要在 Poe 上搭建产品而不是其他地方?
Adam:我们实行了一个收益共享计划,让开发者可以通过他们的 Chatbot 在 Poe 平台上的使用量来获得收益。为这些模型提供推理服务需要花费大量的资金。目前几乎没有其他平台提供这种收益共享方式。所以,如果你有一个在推理过程中需要很多 GPU 资源的模型,那么来 Poe 平台就是你最理想的选择,你可以在这里建立一个真正的盈利性业务,不仅能覆盖你的推理成本,还能获得额外的收益。我们相信,很多创新都将源自这些合作的公司。
还有一些公司在一些大型模型的基础上进行开发,例如 OpenAI 的模型。在这种情况下,他们需要支付给 OpenAI 的推理费用,这是另一种资金需求的来源。Poe 的收益共享模式也适用于这种情况,它能让你承担得起你支付给其他任何推理服务提供者的费用。
David:创作者已经在 Poe 上构建了一些非常有趣和激动人心的东西。能分享一些吗?
Adam: 如今,很多人对图像模型都抱有极大的兴趣。比如 Stable Diffusion、SDXL 等,我们允许用户通过一些 prompt 来个性化定制,以便生成特定风格的艺术作品。比如 Poe 平台上流行的动漫风格的 SDXL 机器人。有家公司名叫 Playground,他们正在开发一款让人编辑图片的产品。但在这个过程里,他们打造了一个非常强大的模型,并且已经将其在 Poe 平台上公开,这个模型最近变得非常流行。
David: 能看到这么多创作者能够基于这些基础模型添加自己的风格,真是太棒了。但这里面还有一层意思,就是你来提供基础设施和支持,然后让使用者或创作者发挥他们的最大优势。
Adam: 嗯,我觉得现在我们才刚刚起步,但是我相信在未来一两年里,我们将会见证一些不可思议的进步。图像模型将会从当前对一些人有用的工具,变成许多人工作时必不可少的东西。
David: 有一个我们都非常了解的类比公司,Roblox。在它的初期,创作者们在平台上构建游戏。一开始的游戏很简单,主要是孩子们在学习如何开发游戏,但最终它发展到了让一些创作者能够以此为职业的地步。所以,我认为你的目标是建立起足够的规模,让更多的创作者能够吸引到足够的观众,从而可以全身心投入他们的创作工作中。
Adam: 是的,我们已经在模型推理上投入了数百万美元,大部分资金都流向了大型模型提供商。但我们希望能够让尽可能多的资金流向这些独立的创作者。
David:你在 Facebook 担任CTO的时候,社交媒体正在兴起,而且正好是在平台向移动端转移的时候,对吧?我很想听听你对这次AI浪潮中的转变与当年移动化转变的相似之处和不同之处的看法。
Adam: 我觉得真的很难说清楚。对于 Quora 来说,我认为我们在转向移动端的步伐上稍显迟缓。移动端只是我们众多优先任务之一,但它应该成为我们最优先的任务,我们需要做出更艰难的选择来确保这一点。
我们本应该雇佣一些专注于移动端的不同团队成员,并且有一段时间我们可能会暂停发布新功能,只是专注于简化产品,因为移动用户界面要求的是不同的体验。当平台架构发生如此关键的变革时,你需要进行大量的重新思考,这只有在有坚强的高层领导下才可能实现。
David: 那你这次处理的方式不同了?
Adam: 是的。
David: 好的。谈谈你在组织上的一些变动,以及你采取了哪些措施来重新将焦点集中在我们面前的这件事上。
Adam: 我认为首要的事情就是识别出这个趋势,然后尽早开始进行一些实验,主要是为了学习。这并不需要强烈的、果断的领导力,而是需要我们密切关注市场动态。
但这些实验让我们有足够信心认识到,Quora 产品太多是基于出版模式构建的,这个模式本质上是建立在专家时间会很稀缺的假设上。而大语言模型的时间并不是同样的稀缺资源。
因此,我们需要对这种模式进行反思。这应该是在 2022 年 8 月,我们得出结论认为聊天是合适的范式,我们需要开发一个新产品。我们认为如果试图将所有东西都改造进 Quora,我们的进展会太慢。所以我们就让一个小团队开始基于这个理念开发 Poe。
David: 来聊聊 Quora 和 Poe 之间的关系,你预期这种关系将来会如何改变。也许还可以探讨一下 Quora 和 Poe、人类专家和AI专家回答问题的方式,他们会在同一个地方进行吗?他们之间的互动方式会有所不同吗?
Adam: 我们非常希望能够将所有这些尽可能地整合起来。想想 Facebook 和 Facebook Messenger 的关系,它们是由同一家公司开发的两款产品,但它们之间有很多共通之处。我认为 Poe 和 Quora 可能会发展成为类似的关系。我们希望将更多 Quora 中的人类元素融入到 Poe 中,同时我们也希望将整个 Quora 的数据集导入到 Poe 的机器人中。
实际上我们已经推出了一些功能,让 Poe 的 AI 能够生成在 Quora 上可以找到的答案。随着这些模型的不断发展和扩展,它们生成的答案质量会越来越高,甚至在很多情况下它们的质量将会与人类生成的答案一样好。所以,随着推理成本的逐渐上升,Quora 的模式实际上对 AI 来说变得更加适宜。
David: 推理成本会越来越低,而模型的质量会不断提升。
Adam: 是的,我们会看看这种关系最终会变成什么样,但我们的目标是构建一个网络,让人类和 AI 能够共同分享知识。有时候人们会从 AI 那里获取知识,有时候 AI 又需要从人类那里学习知识,我们希望尽可能地成为这一交流的桥梁。
David:Quora 或 Poe,取决于它们如何互动,对吧?有时你的答案来自专家,有时来自 AI。
Adam:是的。
David:那么你怎么看待整个网络世界?你认为人们将来会和各种不同特色、不同专长的AI机器人互动吗?这些 AI 机器人会和真人混在一起吗?你认为未来会发生什么?
Adam:我个人认为,人类始终都会在其中扮演一定的角色。人们头脑中有很多互联网上或书本中都没有的知识,所以任何一个大模型都不可能拥有全部知识。
David:Andrej Karpathy(特斯拉前 AI 负责人)称 LLMs 是互联网的有损压缩算法。
Adam:嗯,是的。
David:就像网上有很多专家,他们知道很多网络上没有的东西。
Adam: 对,我对未来人类与大模型之间的互动充满期待。当前大模型存在一个问题,就是它会产生幻觉。我认为随着模型的进步,这个问题会改善,但永远不会完全消失。
将来,人们会更加注重知道信息的来源,是谁说的,或是哪家出版物首次印刷的。我预计未来会出现某种产品或用户体验,让大模型帮你筛选来源,准确引用专家或资料,而不是简单地概括所有内容,让你不知道信息到底来自哪里。
David: 那么这种功能是作为一个新技术独立于模型开发的,还是你觉得它会集成到模型内部?
Adam: 我认为两种可能性都存在。只从模型本身来看,它并不能访问其他数据库来得到准确引用,所以这需要对模型进行某种增强。但是这种增强会与模型的集成程度有多紧密,我们现在还不得而知。
David: 是的,我也这么认为。这很关键。我们已经开始了,比如用于陪伴和创造性用途的场景,幻觉也是一个让人感兴趣的特性。但当你进入商业应用或更多实用性场景时,准确性显然是必需的。
David:你对 AI 领域在语言模型方面还有哪些大的进步感到兴奋?
Adam:我个人最兴奋的是规模(scale)。继续当前的范式发展,还有更多可以走的路。
David:你认为 Scaling Law 会持续,是吗?
Adam:到目前为止,尽管遇到了一些挑战,但他们始终坚持下来了。我预测,尽管存在一些需要解决的问题,但鉴于当前这个行业的人才济济,有那么多杰出的人才正致力于推动这项技术的发展,加上巨额资金的支持,所有这些都可以帮助推动我们克服困难。我相信这样的情况还会继续下去。
我预计未来还会出现一些障碍和问题,也许还需要一些惊人的创造力才能实现突破,但我们已经有了世界上最聪明、最有决心、最有才华的人才,他们都在集中精力解决这个问题。我预期我们将继续见证我们目前所看到的那种指数级的快速进步。我认为这种发展态势将会持续很多年。
David:我们谈到了上一次转变,向移动端的转变,以及你从中学到的一些教训。你认为在生成式 AI (Generative AI) 领域最终的市场结构会是什么样子?
Adam:要培养这些顶尖的 AI 模型,你需要巨额的资金投入,可能要数十亿美元,以及多年的基础设施建设。能够做到这一点的人寥寥无几。这就导致了只有少数几个能站在技术最前沿的玩家。现在这个名单上可能包括 OpenAI、Google,或许还有 Anthropic,Meta 可能也可以达到。那些能够登上这个舞台的公司,我认为将会是很好的商业机会。你将能赚取大量财富,拥有可观的利润空间。但你必须不断地努力,维持在最前沿的位置。这不是一般的大宗商品交易。我认为,一旦你落后于最前沿六个月,或者绝对不超过一年,你就会发现处境非常艰难。
有很多人能够获得资本和资源来训练这些模型。未来的局面将要么是彻底的开源,要么会有太多竞争对手,使得单纯依靠技术无法做成好的生意。在那一层级上,我认为会有一些非常好的商业机会,这些机会并不依赖于最前沿的模型,而是将模型与一些独特的元素结合起来。比如,你可能提供一些独特的工具供模型使用,或者你有特定数据来进行微调,或者你可能会围绕模型打造一些独特的产品。这些最终会成为你的竞争优势所在。
我认为将来会有一个选择,你要么通过站在最前沿来竞争规模,要么你通过某些特色差异化来竞争。在后一种情况下,你其实不需要最前沿的模型。有时候,你可能会两者兼备。比如,你可能使用 OpenAI 的 API,并结合你所提供的独特工具,这样的组合也可能是一个很好的商业机会。
David: 没错。当你不仅限于基础模型时,你会进入到更多传统意义上的商业竞争领域,比如竞争差异、竞争优势和护城河这些概念,这显然很有道理。
Adam: 对。我觉得这很有趣,因为这个领域是在不断进化的。一切都在迅速变化,大概每六个月,前沿领域就会有所进展。那些处于前沿的专家们需要投入更多的资金,但他们也会获得更为强大的模型,这些模型能够带来更广阔的市场机会。另外,开源技术——也就是一年之前的前沿技术——同样在进步。
David: 那自然会不断提升。
Adam: 没错。这样一来,能够触及的市场范围也在不断扩大。我相信随着每一年过去,我们能看到的市场规模将会越来越大,这些市场都能够利用这项技术及其衍生出的所有产品来得到更好的服务和解决方案。
David: 好的,这个话题让我想到了市场结构的问题。我们当然希望新兴的初创公司能够胜出。之前的周期中,特别是在 SaaS 和云服务领域,老牌企业想要实现创新很难。他们需要商业模式创新,需要吸纳新的人才和技术,这些都让初创公司有了更多机会。
现在有一种关于人工智能的观点,认为这一次情况不同了,老牌企业才是真正的赢家。因为技术可以通过 API 轻松获取,他们还有分销渠道,这看起来他们应该是赢家。比如,只要把 Microsoft 和 Google 的商业 app 收入稍微算一算,未来一两年内就可能有 1000 亿到 2000 亿美元的营收。我想知道你怎么看这个问题,是否和你的看法一致,或者你有不同意见。
Adam: 我认为这会因情况而异。老牌企业无疑可以获得技术,并且拥有分销渠道,这是他们的优势。我觉得在这一波技术革新中,新玩家的机会在于他们能够构建与以前截然不同的产品。举个例子,现在大模型有个问题叫做「幻觉」,这对于初创公司来说其实是件好事。因为很多现有产品对错误零容忍。
像现在 Perplexity 正在从 Google 那里抢市场份额就是这样。Google 不能在所有搜索结果中都使用可能出错的技术。但 Perplexity 就可以接受,用户使用时会预期它几乎总是正确的,但偶尔会出错。我认为这种情况在很多其他领域也会发生,围绕这些技术构建的产品需要容错能力,用户也要理解并不总是完美的。
David: 这样的成本优势可能非常显著,对吧?如果你用一个大语言模型处理一个高薪职业人士,比如律师的工作,成本只有几分钱,而律师的费用是每小时 1000 美元。也许我们应该接受一个高容错率,只要多做检查,这其实就是一种新的工作流程。这就是新的参与方式,不是吗?
Adam: 是的,没错。有些老牌公司可能有着「永不犯错」的强大品牌形象。而初创公司可以提出,我们的服务可能便宜很多,比如价格是原来的十分之一或百分之一,但同时也存在犯错的小概率。很多人实际上可能更喜欢这样。但这对老牌企业来说是个挑战,因为他们不能冒险损害自己的品牌。
David: 这是个很好的观点。最后,我猜我们的听众中有很多是正在从事创新工作的创始人,可能他们的项目还处于更早期阶段。你对正在从事 AI 创业的创始人有什么建议?
Adam: 如果我现在要创立一个新公司,我会花大量时间研究这些模型,以及如何将它们与各种事物结合。你可以向模型提供各种不同的输入。你可以创建爬虫从任何地方抓取数据,可以获取用户本地屏幕的数据,也可以获取语音数据。人们的需求非常广泛,你可以结合各种不同的输入来满足这些需求。我认为单凭自上而下的市场分析很难发现需求所在。我认为实验才是寻找创意、建立能够创造真正价值的创业公司的正确途径。
文章来自微信公众号“Founder Park ”,作者:Founder Park
【开源免费】n8n是一个可以自定义工作流的AI项目,它提供了200个工作节点来帮助用户实现工作流的编排。
项目地址:https://github.com/n8n-io/n8n
在线使用:https://n8n.io/(付费)
【开源免费】DB-GPT是一个AI原生数据应用开发框架,它提供开发多模型管理(SMMF)、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL(智能体工作流编排)等多种技术能力,让围绕数据库构建大模型应用更简单、更方便。
项目地址:https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file
【开源免费】VectorVein是一个不需要任何编程基础,任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤,并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。
项目地址:https://github.com/AndersonBY/vector-vein?tab=readme-ov-file
在线使用:https://vectorvein.ai/(付费)
【开源免费】ScrapeGraphAI是一个爬虫Python库,它利用大型语言模型和直接图逻辑来增强爬虫能力,让原来复杂繁琐的规则定义被AI取代,让爬虫可以更智能地理解和解析网页内容,减少了对复杂规则的依赖。
项目地址:https://github.com/ScrapeGraphAI/Scrapegraph-ai
【开源免费】MindSearch是一个模仿人类思考方式的AI搜索引擎框架,其性能可与 Perplexity和ChatGPT-Web相媲美。
项目地址:https://github.com/InternLM/MindSearch
在线使用:https://mindsearch.openxlab.org.cn/
【开源免费】Morphic是一个由AI驱动的搜索引擎。该项目开源免费,搜索结果包含文本,图片,视频等各种AI搜索所需要的必备功能。相对于其他开源AI搜索项目,测试搜索结果最好。
项目地址:https://github.com/miurla/morphic/tree/main
在线使用:https://www.morphic.sh/
【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台,可以对大语言模型(LLM)和多模态图文模型(VLM)进行预训练和轻量级微调。XTuner 支持多种微调算法,如 QLoRA、LoRA 和全量参数微调。
项目地址:https://github.com/InternLM/xtuner
【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。
项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md
在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0