除了扩大模型规模,AI 公司还有其他路可以走吗?只靠模型 API 赚不到钱了怎么办?Aidan Gomez 在访谈中谈到了目前困扰 AI 公司的诸多难题。
在 Transformer 的七位作者中,艾丹・戈麦斯(Aidan Gomez)是非常有辨识度的一个(下图左三),他浓密的发量和颇有艺术家气质的发型总是能让人一眼就认出他。
同时,他也是较早离开谷歌去创业的一个。2019 年,戈麦斯与 Nick Frosst 和 Ivan Zhang 联合创办了生成式 AI 初创公司 Cohere,主攻面向企业端的 AI 服务。仅创立一年,公司就得到了李飞飞、Hinton、Pieter Abbeel 等多位资深 AI 科学家的注资,后续又得到了思科、AMD、富士通等在内的多家知名企业的投资。
如今,Cohere 的估值已经达到了 55 亿美元。同时,他们发布的 Command R、Command R + 等基础大模型也在企业用户中深受欢迎。
不过,作为一家创业公司,Cohere 也和其他 AI 创企一样面临诸多挑战,例如,改进大模型所需的资源呈指数级增长,初创公司还有别的选择吗?如何继续提升大模型的推理能力?价格战导致的利润压缩该如何应对?在由哈里・斯特宾斯(Harry Stebbings)主持的知名播客节目《20VC》中,戈麦斯透露了自己对于这些问题的看法。
戈麦斯的主要观点如下:
从「拨号上网」打游戏开始的技术生涯
斯特宾斯:你在安大略省的一个你祖父或父亲亲手建造的房子里长大,那是怎样一段经历?
戈麦斯:我在安大略省一个偏僻的地方长大,那是一个很大的 100 英亩的地块,里面是一片枫林。这个环境很酷,但肯定远离技术。
斯特宾斯:你喜欢打游戏是吧?
戈麦斯:我确实喜欢游戏。我喜欢从头开始的技术。只是我很难接触到这些东西,因为我们不能上网。在大家都有了高速互联网后的很多年,我们还在用拨号上网。我所有的朋友都在网上玩游戏,或者做其他事情,我非常嫉妒,或者说不是嫉妒,而是遗憾错过了这波技术、互联网浪潮。
这段经历让我对技术着迷。我会坐在家里的电脑前,用着糟糕的拨号上网,想尽力让它更快。最终,这让我想学如何编程,理解网络是如何工作的。我当时看着像素一排排地过去。这就是真正促使我投身计算机科学的缘由,就像是被迫学习这项技术。
斯特宾斯:我采访过很多创始人,发现那些早年玩游戏的人和那些取得成功的人之间高度相关。为什么你认为游戏对成功的创始人如此重要?
戈麦斯:电子游戏可以教会你一些东西,让你更愿意为了一个远大的目标去磨砺,去做重复的、困难的、痛苦的事情,那种韧性很重要。还有,在游戏里,你可以再次尝试,那种乐观或者那种框架真的很重要。我认为在很多文化中,你只有一次机会,你有名誉,如果你搞砸了,一切就都结束了,你就完了。但是电子游戏可以给人们一种感觉,你可以搞砸,你可以再试一次,你可以变得更好,第二次你搞砸的次数比第一次少,第三次你搞砸的次数比第二次少,那种通过失败取得进步的观念我认为可能对我很有意义。
斯特宾斯:我也一直相信游戏设计的力量,喜欢它们难度递增的设计。游戏的设计初衷是先容易,让你感觉很棒,给你信心。如果一个游戏刚开始就很难,你就不会想玩。
戈麦斯:是的,是的。其实在机器学习中也有类似的事情,叫做课程学习,即先让模型学习非常简单的内容,然后逐渐使其学习更复杂的内容,并在此基础上积累知识。有趣的是,课程学习在机器学习中实际上失败了。我们会把最难的材料和最简单的材料同时扔给模型,让模型自己解决。但是对人类来说,这种方法是如此有效,它是我们学习的重要组成部分。
扩大模型规模有效,但极其低效
斯特宾斯:你刚才提到「把所有东西丢给模型」,我想深入讨论一下这个问题。大家都在说,更强的模型只需要更多计算能力,这是我们目前最大的瓶颈。只要有更多计算能力,模型性能就会提高,你认为这是真的吗?还有多少扩展空间?或者说现在是其他因素在阻碍性能提升?
戈麦斯:确实是这样。如果你给模型投入更多计算能力,让模型变得更大,它的性能就会提升。这有点像是提升模型性能最可靠的方式,同时也是最「笨」的方式。就像,万不得已的时候,只要把模型做大就行了。所以对于有钱的公司来说,这是一个非常吸引人的策略 —— 风险极低,你知道模型会变得更好,只需要让模型规模更大,支付更多的钱,购买更多的计算资源就行了。
我确实相信这种做法,只是觉得它极其低效,其实还存在更好的方法。过去一年半的时间里,从 ChatGPT 出现到 GPT-4 发布,再到现在,据说 GPT-4 有 1.7 万亿个参数,已经很大了。但我们已经有比它更好的模型,参数只有 130 亿。因此,这种规模变化的速度、成本下降的速度,实在是令人难以置信,甚至有些超现实。所以,虽然你可以通过扩大模型规模来达到这种模型的质量,但你可能不应该这么做。
斯特宾斯:那这种逐步的提升会继续吗?我的意思是,我们是否会继续看到同样的 scaling 优势,还是说它会在某个时候达到瓶颈?
戈麦斯:是的,我认为它确实需要指数级的投入。你需要持续地将计算能力翻倍,才能维持线性增长的智能水平。但我认为这可能会持续很长一段时间,模型会变得越来越聪明。问题是你会遇到经济上的限制。最初为 GPT-4 付费的人不是很多,特别是企业客户,因为它太大了,效率极其低下,成本极其高昂,而它还没有聪明到能够支撑起它的成本。因此,我认为市场上有很大的压力,要求模型变得更小、更高效,通过数据和算法来提升智能,而不仅仅是扩大规模。市场会给定价带来压力。
斯特宾斯:我们会生活在一个充满垂直模型的世界,其中一些模型非常高效且小型化,专为特定用例设计?还是说未来会有三到五个巨型模型统治一切?
戈麦斯:两种情况都会存在。过去几年中,我们看到的一个主要趋势是,人们喜欢使用一个通用智能的模型进行原型设计,而不是使用一个特定的模型。他们不想花时间微调一个模型,使其在他们关心的某个特定任务上表现得更好。相反,他们希望直接使用一个昂贵的大型模型来做原型设计,证明它可以完成任务,然后再将其蒸馏为一个专注且高效的模型,专门处理他们关心的任务。这种模式已经形成。所以,我认为我们将继续生活在一个有多个模型共存的世界中,一些是专注和垂直化的,另一些是完全横向的。
除了规模,数据和方法创新也值得关注
斯特宾斯:你提到了计算成本问题,以及为了保持线性的智能水平提升,需要持续将计算能力翻倍。这样做成本非常高昂,似乎与以往任何科技周期都不同(如果我没记错的话)。我想知道,除了微软、亚马逊、谷歌或 Facebook 这样的大公司,还有谁能在这个竞争中生存下去?
戈麦斯:如果你只是做一个扩大模型规模的项目,你就必须是其中一个大公司,或者成为它们的一个有效子公司。但其实除此之外,还有很多其他事情可以做。如果你不完全依赖规模作为唯一的发展路径,认为数据创新、模型和方法的创新也有潜力,那就不一样了。
斯特宾斯:什么是数据创新?什么是模型和方法创新?
戈麦斯:我们在开源领域看到的所有主要进展几乎都是由于数据改进。通过从互联网上获取更高质量的数据,模型变得更好。更好的抓取算法、解析网页、提取出有价值的部分,并对互联网上特定部分进行加权,因为有很多重复和垃圾信息。通过提取互联网上最有价值的知识,并向模型强调这些部分,模型的性能得到了很大提升。另一个重要进展是合成数据,即能够生成新的数据,这是高度可扩展的。你可以获得数十亿字或数亿页的数据,但这些数据不需要人类介入,完全由模型生成。这些创新,尤其是提高数据质量的能力,推动了我们目前看到的大部分进展。
斯特宾斯:那么,模型和方法的创新呢?
戈麦斯:这涉及到诸如新的强化学习算法之类的东西。有很多关于 Q* 的传闻,以及它可能是什么样子的。还有一些关于搜索的想法。目前模型的现状是,我问你一个问题,而你作为模型,我希望你立即给出正确答案。这对模型来说是个非常高的要求,对人类也是如此。你不能指望一个人被问到一个难题时立刻就能给出答案,他们需要思考,处理信息,逐步得出答案。
我的意思是,现在模型几乎没有任何问题解决的概念。下一步显而易见的方向是,模型需要「思考」并解决问题。它们需要尝试,失败,理解为什么会失败,然后回滚,再次尝试。目前,模型还没有这种问题解决的概念。
斯特宾斯:当我们说「问题解决」,这是否等同于推理能力?
戈麦斯:是的。
斯特宾斯:为什么推理会如此困难?为什么 AI 模型现在还没有这种能力?
戈麦斯:我觉得并不是说推理本身很难,而是我们在互联网上没有太多展示推理过程的训练数据。互联网上的很多内容都是推理过程的结果。比如,当你在网上写作时,你通常只会呈现最终的结论,而不会展示整个思考过程。因此我们缺乏展示推理过程的训练数据,它并不是免费且随处可得的,你必须自己去构建。而这正是 Cohere、OpenAI 和 Anthropic 等公司现在正在做的工作:收集展示人类推理过程的数据。
斯特宾斯:你如何看待与 OpenAI 这种用户生成内容(UGC)平台的竞争?
戈麦斯:这非常困难,特别是在企业领域,企业永远不会让你用他们的数据进行训练。我们不能使用任何客户的数据,这些数据是高度私密的,对他们来说,这些数据是他们的知识产权(IP),其中有太多的商业秘密,因此他们绝对不愿意让我们使用这些数据。我对此表示非常理解。所以我们更多地依赖合成数据,同时我们也有一个专门的人类标注团队,和 Scale 合作,还有我们自己内部的团队。这给我们带来了负担,因为我们不是一家为消费者提供产品的公司,我们必须自己生成这些数据。但好处是,我们的目标更加聚焦,覆盖面较小,所以我们面对的不是整个世界,而是具有明确需求(比如自动化某些财务或人力资源职能)的企业,这大大缩小了我们的工作范围,使我们能够更专注于特定的领域。
斯特宾斯:未来十年内,合成数据市场会是什么样子?会不会被两三家供应商所主导?
戈麦斯:我听说目前的大型语言模型(LLM)API 市场主要由合成数据主导。大多数人使用这些大型昂贵的模型生成数据,来微调更小且更高效的模型。它们基本上是在蒸馏这些大模型。我不确定这个市场的可持续性,但我确信永远会有新的任务、新的问题或新的数据需求。无论这些数据来自模型还是人类,我们都必须满足这种需求。
只靠模型 API 赚钱的公司将举步维艰
斯特宾斯:我有点担心的是价格战。你会看到 OpenAI 降价、Meta 提供免费服务,扎克伯格宣扬开放开源和开放生态系统的价值。这些模型的真正价值是不是在降低?这是不是一场逐底竞争,会把价格打到零?
戈麦斯:如果你只销售模型,接下来的这段时间会非常艰难。市场不会小,但会有很多竞争者。
斯特宾斯:谁只卖模型?谁在卖模型和其他东西?
戈麦斯:我不想点名,但比如 Cohere,目前只销售模型。我们有一个 API,你可以通过这个 API 访问我们的模型。我认为这种情况很快会发生变化,产品的格局会改变,我们提供的产品套件也会有所增加。但如果你只销售模型,这将会非常困难,因为这几乎是一场零利润的生意。由于价格战,很多公司免费提供模型,模型市场将依然很大,因为人们需要这项技术,需求增长得非常快,但目前的利润率会非常非常低。
因此,应用层成为了一个非常令人兴奋的领域。我认为市场上的讨论是正确的,它指出了目前价值积累主要发生在芯片层面之下,人们正在疯狂地购买芯片来构建这些模型。而在应用层,比如 ChatGPT 按每个用户收费的模式,像是每月 20 美元,这似乎是目前这个阶段价值的体现。
我认为从长远来看,模型层是一个有吸引力的业务,但在短期内,它的利润率会很低。
芯片层暗流涌动
斯特宾斯:你刚才提到芯片这一层。你现在如何看待你们在芯片上的花费,这部分支出的变化如何?
戈麦斯:它的比例变得越来越大了。现在芯片占了我们支出的一大部分,比例太高了。
斯特宾斯:你们和 NVIDIA 有直接的合作关系吗?
戈麦斯:是的,我们和很多芯片厂商都有紧密合作。我们和 NVIDIA、AMD 保持紧密联系,同时也与很多新兴芯片初创公司对话。我们还使用谷歌的 TPU。
斯特宾斯:那是因为你们不想依赖单一的芯片供应商?
戈麦斯:是的,主要是因为市场的需求。我们的客户希望能在多个平台上运行,他们希望有选择,不想被锁定在某一个平台上。所以我们需要提供一个多样化的平台基础,供客户选择运行。此外,我们也避免被某一个云服务提供商锁定,我们希望在每个云平台上都可以使用。这也是市场的需求,客户希望有选择权,而不是被某个云服务提供商垂直化地锁定。
斯特宾斯:你认为每家公司都会走向垂直整合,构建自己的芯片能力吗?我们最近看到苹果在谈论其垂直整合,拥有自己的芯片,你认为这是未来的趋势吗?
戈麦斯:我认为这是一个趋势。目前芯片的利润率非常高,市场上的选择非常少。但这种情况正在改变,且改变速度比人们预期的要快得多。
我非常有信心,未来会有更多选择,尤其是在推理方面。现在推理领域已经有很多选择。但训练一直是由一家巨头主导 —— 目前基本上只有一家能够制造用于训练大模型的芯片的公司。但现在情况已经改变了,实际上有两家公司:你可以在 TPU 上训练大模型,而 TPU 现在已经成为一个可用的训练平台。谷歌也已经证明了它的能力。我认为很快 AMD 和 Tranium 这些平台也将真正准备好进入主流市场。
斯特宾斯:当你看到在模型训练和计算上的支出时,我有些担心的是模型的发展速度远远快于数据中心的建设和计算的进展。未来一年,我们是否会在 18 个月前的计算机上运行最新的模型?模型的进步和计算能力的进展是否存在不匹配?
戈麦斯:供应链问题确实非常有趣。我认为……
斯特宾斯:你们需要自己建数据中心吗?
戈麦斯:不,我们和其他公司合作。
斯特宾斯:这种情况会改变吗?
戈麦斯:我们是一个经济上理性的公司。如果我们自己建数据中心更便宜,那我们就会去做这个决定。我们核算过账目,发现目前我们从供应商那里获得的价格使得自己建数据中心不是一个有吸引力的选择。
斯特宾斯:你们在早期是否遇到过获取大量计算资源的挑战?现在这种情况有变化吗?
戈麦斯:我们已经成立大约五年了,所以我们早在这整个事情爆发之前就开始了。我们很幸运。
斯特宾斯:你能预料到这些计算挑战吗?
戈麦斯:如果我能预料到这一点,我就不会创办这家公司了(笑)。但这种爆发发生得比我预想的晚,而且更加突然。
聊天文本框 is not all you need
斯特宾斯:你参与了 2017 年 Transformer 论文的撰写,你当时认为这会很快引起轰动?
戈麦斯:不,不是在那个时候。2017 年,我只是 Transformer 论文的实习生。我认为这只是研究工作,我们只是创造新的架构,把翻译分数提高 3% 而已。我没有预料到这个架构会带来如此多的后续发展,以及社区对它的热爱和 Transformer 作为一个 AI 架构平台的普及。这些都是我没有预料到的。
至于语言建模和大规模扩展方面,我本以为大家会更快意识到这个技术的重要性,但实际上是在两三年后,大家才意识到它的重要性,并且它突然冲击了整个世界。
斯特宾斯:转折点是 ChatGPT 吗?
戈麦斯:是的。当你直接把这项技术放在用户面前时,不用向他们解释什么,他们可以直接体验和这些模型对话的感觉。这真的很有说服力。
斯特宾斯:你认为聊天是 AI 模型与消费者互动的最佳界面吗?
戈麦斯:对于某些事情是这样,但对于其他事情,我认为传统的图形用户界面(GUI)更好。我并不认为每件事都应该用聊天界面来做。有时我只想点击一些按钮,通过 GUI 完成任务。所以我并不认为 GUI 已经死了,我们也不应该用文本框来替代一切。但我确实认为聊天作为一个界面,具有非常强大的吸引力。当然,语音也很神奇。第一次看到模型像人类一样回应我时,那种感觉非常神奇。那是在 2017 年,当我们在提交 Transformer 论文之后,开始用它训练语言模型。当我看到它能写出像人类一样自然的维基百科文章时,那种感觉非常神奇。
斯特宾斯:OpenAI 正在大量投资语音界面。你觉得语音作为与消费者的下一个主要交互界面,这种信心是合理的吗?
戈麦斯:绝对是。任何曾经尝试过与这些模型进行语音对话的人,都会感到震惊。这种体验令人惊叹,听到模型表达情感、语调,甚至在说话前吸气的声音,或者嘴唇轻微的声音,这都让你感到非常逼真。那种体验实在太吸引人了,直到你亲自尝试,才能体会到它有多么难以置信。所以我认为,语音绝对是下一个非常有吸引力的界面。
持续为更聪明的模型砸钱到底值不值?
斯特宾斯:我一直被教导说,人们往往高估短期的技术发展,但低估了长期的潜力。你认为这是现在的情况吗?语音比我们预想中来得更快,GPT-5 也可能很快到来。我们是不是在高估短期的技术发展?
戈麦斯:我认为现在有两件事正在同时发生。首先,开发这些模型变得越来越难。取得模型的进步变得更加艰难、费时和昂贵。曾经有一段时间,模型还不够聪明,以至于我可以随便找一个人来和模型对话,几乎任何人都比模型聪明,并且能教它一些东西。但随着模型变得越来越聪明,你需要专业领域的专家来给模型提供有价值的训练数据。
最初,我们可以让一些比较初级的领域专家,比如计算机科学的学生,来教模型一些东西,或者生物学的学生也能教模型。然而,随着模型变得越来越聪明,它开始与这些学生的水平相当,你就不得不去寻找更高级的专家来为模型提供知识。这使得训练模型变得更加复杂、更加昂贵。
斯特宾斯:你认为什么时候这种投入变得不值得了?我总是想到语言学习的例子,你可以在六个月内掌握 95% 的语言,但要达到 98% 的熟练度可能需要五年。为了那一点额外的提升,投入的成本越来越高,最后是否会觉得不再划算了?
戈麦斯:幸运的是,所有的成本都在迅速下降。无论是计算成本,还是每 FLOP 的单价都在下降,而且下降得非常快,这也使得我们今天可以训练比 2017 年更大的模型,甚至比两年前更大的模型。
斯特宾斯:鉴于此,你认为对于初创公司来说,现在进入模型领域算不算太晚?随着成本的降低,这是否意味着初创公司现在比以往任何时候都更有机会?
戈麦斯:确实,每年构建去年模型的成本都会降低 10 倍或 100 倍。我们能够获得更好的数据、更便宜的计算资源,因此构建前一代模型的门槛确实大大降低了。然而,现实情况是,没有人想要上一代的模型。没人关心去年的模型,它在与今年的模型相比时毫无市场价值。任何技术进步都会使上一代的产品迅速过时。
斯特宾斯:开发产品的成本在不同版本之间的差异非常大。在传统的软件开发中,比如第一个版本可能需要花费大约一千万美元,然后要创建一个稍微改进的第二个版本,可能只需要再投入一到两百万美元。但是,在大型语言模型这类产品的开发中,情况就完全不同了:开发第一个版本可能需要高达 30 亿美元,而要开发第二个版本,成本可能高达 50 亿美元。这里的关键点是,这种成本的增加不是简单的增量变化,而是一个数量级的跳跃。
戈麦斯:我不确定是否总是这样。对于芯片等非常复杂的技术,每一代的开发成本实际上会变得更高,但我们依然继续做下去,因为它是值得的。
斯特宾斯:那回到你之前的说法,你刚才说没人关心去年的模型?
戈麦斯:你之前问的是,改进是否能持续下去,我的回答是,这变得越来越难了,门槛越来越高。
另一个奇怪的现象是,随着模型变得更聪明,人类 —— 或者说每个个体 —— 去区分它们变得更困难了。你无法分辨出代与代之间的区别,因为你不是医学、数学、物理学等领域的专家,无法真正感受到这种差异。对你我这样的人来说,我们和这些模型的互动体验看起来是一样的,但事实上,这些代际变化在某些特定领域或原始智能方面是非常显著的提升。
你刚才问,是否值得继续投入?我的回答是,绝对值得。对于你我这样的消费者来说,当我们使用这些模型时,我们可能不会关心它是否知道 C * 代数或者量子物理知识,这对我们体验的影响不大。但对研究这些领域的专家来说,这些进步非常有帮助。通过提供工具,他们能够在这些领域取得更多进展。这就像问:我们现在已经有了足够的食物、便宜的汽车,还有手机随时可用,那我们是否还应该继续投资于下一代科技,比如开发用于航天的新材料,让飞船更高效地进入轨道?答案是肯定的。虽然对你来说,这个问题可能无关紧要,你不关心飞船能否更便宜地进入轨道,但对于那些对这一领域感兴趣的人来说,这非常重要,而且他们愿意为此付费,市场也为此存在,这就是技术进步能够持续的原因。
成为大型云服务商的子公司很危险
斯特宾斯:让我们回顾一下,这种持续发展显然需要花费很多钱,而且还将继续花费更多钱。你之前提过一个非常有趣的词汇「有效的子公司」。我们已经看到过很多公司被收购。我想现在每个人都意识到云计算是不断增长的「摇钱树」,而且大多数较小的模型供应商都被大型云服务提供商收购了。你是否同意这是未来三到五年可能出现的情况?
戈麦斯:三年。我认为这已经发生了,很多模型构建者都这样认为。
斯特宾斯:我们可以举两个例子,人工智能初创公司 Adept 被亚马逊收购,AI 独角兽 Inflection AI 被微软收购。
戈麦斯:我认为还会有更多,这个领域肯定要迎来合并。不过,当你让自己成为云服务提供商的子公司时,这真的很危险。至于原因嘛,这不是好的生意。一家公司想要筹集资金,通常需要去说服一些投资者。这些投资者只关心资本的投资回报率,他们给你钱,你用这些钱来创造价值。但是当你从云服务提供商那里筹集资金时,情况就完全不同了。
斯特宾斯:你认为风险投资者会从我们过去几年看到的投资模式中赚钱吗?
戈麦斯:Cohere 的投资者肯定会赚很多钱。
斯特宾斯:你觉得让这些相信你的人赚到大钱感觉如何?你会觉得「我不该给出那么多股份」吗?
戈麦斯:没有。当时投资我们的每个人都还在这里,他们还在努力。我们的第一位投资者是 AI 风投巨头「Radical Ventures」,其联合创始人 Jordan Jacobs 现在仍是我们的董事会成员。我称他为 Cohere 的第四位联合创始人。他和我们一起创建了这家公司,而且到现在都非常活跃,积极参与公司建设。所以,我不后悔。
斯特宾斯:Cohere 的最新估值是多少?
戈麦斯:从媒体报道来看,我们的最新估值略微超过了 55 亿美元。
斯特宾斯:当你看到收入与估值之比时,是否会产生压力?会不会问我们如何走到这一步的?
戈麦斯:这肯定会产生压力,但却是正向的。就像你说的,每个人都会参与到收入倍数游戏。在某些时候,它会趋近于公开市场倍数。我认为我们实际上比许多同类公司处于更好的境况。
斯特宾斯:原因呢?
戈麦斯:因为我们的估值不像其他公司那样疯狂。我的信念是,我们仍然会成长得更加强大。我非常有信心的一点是市场很强劲,很多人都需要这些模型。另一方面,由于价格战和免费模型的不断推出,目前也面临着压力,但这种情况会随着时间的推移而改变。当然,我们的产品堆栈也会发展。
OpenAI 正在成为一家产品公司
斯特宾斯:你最尊重市场上哪家公司?
戈麦斯:OpenAI。他们铺平了道路,他们对扩展模型规模的愿景非常坚定,这种信念推动了今天这个神奇的技术世界的诞生 。我记得在 GPT-1 发布之前和 Ilya Sutskever 谈论过这些事情。那是 Transformer 论文刚发表的时候 ,Ilya 在多伦多圈子里很有名,他师从 Geoffrey Hinton。可以说,早在 Ilya 真正开始追求 Scaling 的数年之前,这一想法就在他的脑海里。这种信念催生了我们如今生活的世界,这一客观上神奇的技术已经出现,并且现在每个人都可以使用。我真的很钦佩 Ilya。
斯特宾斯:是的,沃顿商学院的 Ethan Mollick 在参加节目时提到,OpenAI 关心的只有 AGI 以及对 AGI 的追求。因此,他们放弃了代码解释器和许多其他真正有用的产品,因为他们要专注于 AGI。当然,这不是批评,只不过是他们的重点在此。你同意这一观点吗?或者你认为他们实际上采取了双重路线,既追求长期 AGI,又更加注重为广泛的企业和消费者创造短期有价值的产品。
戈麦斯:至少从全新的 OpenAI 来看,它更像是一家产品公司,并努力打造一款消费产品。这是他们的目标,而且效果不错,人们都喜欢他家的产品。所以我认为,在消费者领域,OpenAI 将成为一家产品公司。我认为他们必须成为一家产品公司,才能负担得起打造自身想要打造的东西的费用。但从 OpenAI 目前的离职情况来看,似乎追求 AGI 的努力开始让位于面向消费者来打造产品。
企业引入 AI 的担忧:利润与安全
斯特宾斯:我担心的是,我们能否看到公司通过在产品中添加 AI 来提高 per-user 收入。现在每家公司都是 AI 公司,比如提供客户支持的 Zendesk、笔记记录软件 Notion、提供设计服务的 Canva,他们都在使用 AI。甚至 Canva 最近在节目中直言不讳地表示,他们的利润正在压缩,原因是没有为 per-seat 收取更多费用,但他们的所有产品都融入了 AI。
现在,你可以在产品中使用 AI 创建任何东西,但同时每个查询都要花更多的钱,但收入却是一样的。所以,我们真的能够提高 per-user 收入吗?还是只是创造了更好的客户体验?
戈麦斯:现在有两种不同的定价策略。有些公司保持原价不变,加入 AI 功能以推动业务的扩展。另外一些,比如微软、Salesforce 和 Notion,他们对 AI 功能收费,并作为产品进行业务扩张。这两种策略都很好,而且非常合理。对于像 Canva 这样维持价格不变的公司来说,我认为是个不错的选择。他们想扩大用户群体,那么就给他们提供目前最有用的产品。不用担心利润,因为 AI 的成本正在迅速下降。我认为这是合理的选择。
斯特宾斯:阻碍企业采用 AI 的最大障碍是什么?
戈麦斯:我认为主要是对技术的信任和安全性。每个人都对当前的状况感到担忧,比如谁在训练。人们真的很担心有人会利用他们的数据训练,从而让他们陷入某种安全漏洞,或者失去 IP。我认为这是一个非常合理的担忧,因为使用用户数据进行训练的情况一直存在。
斯特宾斯:你们能做些什么来安抚他们的这种担忧,除了告诉他们「我们不会使用你们的数据,我们只用合成数据」?
戈麦斯:我们专注于模型的私有部署,这意味着可以在硬件上实现完全私密性。我们不会要求你将数据发送给我们,我们会在处理后将模型的响应返回给你。我们会将模型带到你的数据所在的地方,而我们什么也看不见。
斯特宾斯:在这个新世界中,我们会看到私有部署的趋势重新回归吗?
戈麦斯:我在与人们交谈时发现,金融服务领域非常矛盾。他们正在远离云,并正在建立自己的数据中心。此外,其他领域似乎仍然需要迁移到云,没有必要拥有这些数据中心。我认为这可能取决于你正在关注的垂直领域。
斯特宾斯:他们到底对人工智能有什么误解或者不理解的地方呢?
戈麦斯:人们非常担心人工智能会出错。这些模型存在幻觉,每个人或多或少会认为这种技术注定要失败。有时模型会产生幻觉,不反映现实。虽然模型的幻觉发生率一直在急剧下降,但它们总有可能编造一些东西或者出错。同样,人类也经常产生幻觉。我们会犯错,会记错一些事情。所以,我们生活在一个对错误具有鲁棒性的世界里。现在,我们也有一些幻觉评估基准。
斯特宾斯:模型幻觉是否能够以与模型进展相同的水平下降呢?
戈麦斯:相同的水平?这点我不知道,但肯定下降得非常快。并且有了 RAG(检索增强生成),模型幻觉可能会迎来一次阶跃变化。
所谓 RAG,你有一个可以查询知识库的模型,这个知识库可能是你的内部文档或搜索引擎。模型会向搜索引擎写入查询,提取结果,然后将其用作答案和引用来源的一部分。你可以审核是否正确。这个机制显著减少了模型编造答案的情况,因为它有真实的参考材料可以依赖。
斯特宾斯:明白了。RAG 是一个游戏改变者(Game Changer)。
戈麦斯:至少对于幻觉来说,RAG 可以称得上游戏改变者。而且可以定制模型,因为它们看过公共网络,所以知道很多公开信息。但对于私人的东西,我希望模型能够回答有关电子邮件收件箱的问题,这只有我才能访问。因此,模型查询我的电子邮件收件箱以及提取该信息的能力,只会让它对我关心的东西更加了解。
Copilot 模式的重要性与挑战
斯特宾斯:我们现在还处在企业实验预算的阶段吗?每个人都在说,「我们还在用预算进行实验」。是这样吗?
戈麦斯:现在已经开始有了明显的转变 。去年 100% 是概念验证年,每个人都在测试。但最近,人们急于将技术投入生产。我认为很多企业都害怕措手不及,他们花了一年时间运行概念验证并做测试。现在他们急于将这项技术投入生产,以便改造他们的产品,增强他们的员工队伍。
斯特宾斯:就他们需要或想要的东西而言,最重要的用例是什么?每个人都在问,你的 AI 策略是什么?这意味着什么?比如,我们非常希望优化自己的客户服务。那么什么才是最重要(No. 1)的客户服务?是员工增强或者生产力提升?
戈麦斯:我认为是员工增强。这些模型就像是整个员工队伍的合作伙伴或同事。这是最流行的用例。
斯特宾斯:我认为 Copilot 是正确的做法。你觉得呢?
戈麦斯:是的。这是用助手来增强劳动力的正确做法,但它又被生态系统所孤立,所以 Copilot 被插入到了微软 Office 以及其他产品套件。但是,企业不仅仅使用微软的产品。他们使用微软的电子邮件、文档和电子表格等产品,使用 Salesforce 的产品来进行 CRM(客户关系管理),使用 SAP 的产品进行 ERP(企业资源规划)。
如果你真的想增强劳动力,你需要有一个平台来开发这些助手。这些智能体与特定工具集无关,并根据人们实际使用的内容和市场实际使用的内容合理地对工具集进行优先排序。
智能体未来可期,但问题是谁来构建
斯特宾斯:你提到了智能体这个词,它是风险投资领域最热门的话题之一。你认为对智能体行为的大肆宣传是否合理,它对工作流程有什么影响呢?
戈麦斯:我认为大肆宣传 100% 合理,这是人工智能的承诺。这些模型能够自己开展工作,这极大地改变了生产力。人们可以拥有一个在很长一段时间内独立完成工作的模型,完全改变了一个组织所能做的事情。所以,我认为宣传是合理的。我的问题是,这种工作会更有效地在模型开发者之外完成,还是由模型开发者内部来完成?谁最有能力构建这个产品?
斯特宾斯:为什么由模型开发者内部来完成最好呢?
斯特宾斯:这完全取决于模型的质量。模型是智能体背后的推理者。所以你必须参与,你必须能够在那个层面上进行干预。如果你不能真正改变模型,让它更好地完成你关心的事情。如果你不是模型构建者,只是模型的消费者,那么你在构建产品时就处于结构劣势。
斯特宾斯:你认为今天谁处于劣势呢?现在,每个人都在谈论并对 Salesforce 持怀疑态度。我不认为 Benioff(Salesforce CEO)会输。
戈麦斯:我同意你的观点。他很棒。我认为他非常清楚对自身的威胁,并且不会让这种事情发生。
另一件事是,你会忘记企业软件有多么难以替换。企业软件并不经常发生大规模置换,它通常会使用几十年。要取代一家企业软件公司真的很难。我认为,真正具有变革性的新消费体验存在机会,消费者对单一供应商的忠诚度远不如以前。他们会去他们能获得最好服务、最佳产品的地方。因此,如果有人能够利用人工智能提供一种远优于现有产品的东西,消费者将会转向使用。
谷歌 vs OpenAI
斯特宾斯:你认为哪家公司拥有最好的研究队伍?
戈麦斯:Coherer。如果说 Cohere 之外的话,我认为现在的研究力量分布比较分散。过去是高度集中的,像 Google Brain 和 DeepMind。
斯特宾斯:他们为什么会落后?
戈麦斯:在发布 Transformer 论文两周后,我们开始训练语言模型,这表明在技术和研究方面,Google Brain 并没有落后。我不想对 Google 发表评论,但我可以说,真正重要的是产品愿景和想象技术可能达到的能力。重要的不仅仅是技术开发本身,而是你能用它做什么的愿景。如果你的组织内部有人能看到这一点,你需要问自己,你是否为他们提供了实现这一愿景的工具,还是他们需要到别处去实现这一愿景。此外,规模假设(Scale hypothesis)指出,模型将随着我们不断投入而持续改进,我们在构建模型上的投资应该不仅是增加 10 倍,而是增加 100 至 1000 倍。这是一个极具风险、不确定性的巨大赌注。我绝对不会批评 Google 所做的决定。我觉得 OpenAI 下了非常好的赌注。
斯特宾斯:OpenAI 最好的赌注是?
戈麦斯:肯定是规模假设。就是说规模扩大会持续,并且我们应该继续扩大十倍、百倍、千倍…… 很多人不相信这一点。对此有很多反对意见。人们认为追求这一目标是愚蠢且多余的。但他们有坚持到底的信念。
AI 正在经历瓶颈期?
斯特宾斯:你认为目前人们对人工智能社区最大的误解是什么?我们如何看待未来 12 到 24 个月 AI 的发展?
戈麦斯:目前有一种观点认为人工智能的发展已经达到了瓶颈期,没有新进展,发展速度正在放缓。我认为这种观点是错误的。
这不仅仅是因为我们需要将计算能力提高十倍这样简单,而是从方法论的角度出发,当我们讨论如推理器、规划器以及能尝试失败并从失败中恢复,执行长期任务的模型时,这些都是技术上尚未存在的能力,我们还没有时间将焦点转向这些领域并将这些能力集成到模型中。
过去一年多来,大家一直在专注于这方面的工作,这将很快投入生产使用。因此,我们将看到这方面的显著变化,我认为这将是能力上的一个重大飞跃。
AI 与人类世界的未来
斯特宾斯:你现在是 20VC 的投资者,你觉得机会在哪里?
戈麦斯:我认为产品领域以及应用领域仍然非常有吸引力。这项技术将会诞生一些新产品,这些产品将改变社交媒体。人们喜欢与这些模型对话一样,人们使用它的时间简直是疯狂。
斯特宾斯:你觉得这是一件好事吗?你在一个非常健康自然的环境中长大。但我不希望我的孩子们在一个他们与智能体系统交流多于与人类交流的世界中长大、从与模型交谈中获得满足感。
戈麦斯:你可能是错的。我认为你可能希望你的孩子们与一个极度有同理心的、非常聪明和知识渊博的安全智能进行交流,这种智能能教会他们东西,与他们一起玩乐,不会对他们感到厌烦,不会突然发火,不会欺负他们,不会挑剔他们,不会让他们产生不安全感。
但不可否认的是没有什么可以取代人类,不管聊天机器人多么吸引人,人类都更有价值。AI 将是一种辅助增强工具,人类将变得更加高效并有时间做更多的事情。
想想销售行业,如果我被一个机器人推销,我是不会买的。就这么简单。我不想和机器说话。对于某些简单的采购,也许可以。但对于那些对我和我的公司很重要的采购,我希望交易另一端有一个人类负责。当出现问题时,我需要一个有话语权的人类介入。
我真的认为关于 AI 替代人的恐惧是过度的,无论是在消费领域还是工作场所。
斯特宾斯:我认为在采纳新技术时,总会有一种普遍的认识,即会发生一些轻微的取代现象,这已成为常态。虽然确实会看到某种形式的取代,但并不至于达到有人担心的那种 80% 的程度。我相信,你看看你的祖父母,对他们来说,电脑和电子邮件就像是外星技术一样,他们会觉得我们整天做的事情非常疯狂。我完全同意这种看法。我现在确实担心在这个谱系的低端,可能有一部分客户服务团队会被削减70%-80%。
戈麦斯:虽然肯定会有局部的取代,但从总体上来看,工作机会将会增长。确实有一些职位容易受到技术的影响,想具体列举这些职位有些困难。例如,客户支持就是一个明显的例子,但最终,我们仍然需要人类来完成这些工作,只是不需要像现在这么多人。然而,客户支持是一个非常艰难的角色,你会遇到对你大声喊叫的人。如果你曾经听过客户服务电话的录音,你就会知道这是一个情感上非常消耗的工作。
斯特宾斯:是的,这非常类似于大型社交网络上的内容审核。确实,在很多方面这是情感上的创伤。
你认为人工智能现在做不到,但三年后又能做到,并将带来彻底的变革的是什么?
戈麦斯:我觉得,总的来说,机器人技术会实现重大突破。成本需要降低,也一直在下降。然后我们需要更强大的模型。
斯特宾斯:为什么你看好机器人领域?
戈麦斯:因为很多障碍都已经消失。比如这些机器人内部的推理器和规划器,以及它们背后的软件。以前它们都很脆弱,你必须对它们完成的每项任务进行编程,而且是针对特定环境的超级硬编程,比如厨房的布局必须一模一样。
现在,研究领域在使用基础模型和语言模型,已经开发出更好的规划器。这些规划器更具动态性,能够更自然地推理世界。所以我认为,我知道这已经在进行中,有 30 个人形机器人初创公司和类似的东西,很快就会有人破解通用人形机器人的难题,它们会既便宜又好用。这将是一个巨大的转变。我不知道这会在未来五年还是十年内出现,但它会在其中的某个时间点出现。
快问快答
斯特宾斯:还有很多要聊的。但接下来是快问快答环节。在过去的 12 个月里,你对什么东西看法改变最多?
戈麦斯:我对数据的重要性的看法有了巨大转变。我以前严重低估了它的重要性,认为只是规模的问题。但在 Cohere 的内部,有很多证据表明,数据质量在构建这项技术时至关重要。
斯特宾斯:你们现在融了多少资?
戈麦斯:所有的吗?大约 10 亿美元。
斯特宾斯:在这些钱里,哪一轮融资最容易?
戈麦斯:也许是第一轮。
斯特宾斯:那时候是什么情况?也是最快的一轮吗?
戈麦斯:那有点像是一场谈话。你知道,这里有几百万美元,试试看。所以我认为这可能是最简单的。当你试图筹集五亿美元时,事情会更复杂一些,你得稍微做点什么。
斯特宾斯:当你看到 5 亿美元进入账户时,你会不会掐一下你自己?
戈麦斯:这是个神奇的时刻,是的,我是掐了一下我自己。
我不知道具体数字是多少,但确实很多。这是一个很大的数字。Cohere 让我对经济和资金的感知发生了转变,现在 5 亿美元已经不再显得那么多了,特别是和我们的竞争对手相比。
斯特宾斯:真的吗?这会让你感到担忧吗?
戈麦斯:不,我的意思是,这是我们战略的一部分。比如,如果我们想接受那笔交易,我们就可以接受那笔交易。但我们的战略一直是追求独立,自己来做这件事。
斯特宾斯:如果你的董事会可以塞世界上任何一人,你找谁?
戈麦斯:Mike Volpi 和 Jordan Jacobs,他们已经在我的董事会里了。
斯特宾斯:Mike 有多好?很多人都在说他好。
戈麦斯:Mike 太不可思议了,感觉他以前什么都见过。好像我几乎可以向他提出任何问题。他以前遇到过三次这种情况。第一次是这样的,第二次是那样的,第三次是那样的。「我觉得你们可能应该这么做……」,他有如此丰富的经验和建议。
斯特宾斯:Hinton 和 LeCun,你更倾向于哪位?
戈麦斯:我更倾向于 Hinton。我和 Hinton 的私人关系比和 LeCun 更紧密。
斯特宾斯:你认为 LeCun(对 AI 的态度)是否过于乐观了?
戈麦斯:我更认同 Yann 及其关于人工智能的观点。Jeff 很悲观,他认为这项技术会毁灭世界。相比之下,Yann 则要乐观得多,我也赞同这种看法。不过遗憾的是,Yann 有点变成了回应 Elon Musk 的人。我觉得 Jeff 和我的一个合伙人很像。Jeff 非常聪明,富有智慧,而且思考深刻。
不,我和 LeCun 对 AI 的信念非常一致。Hinton 对技术的未来持更加悲观的看法,认为这项技术会毁灭世界,而 LeCun 则更加乐观,我更加倾向于认同 LeCun 的观点。不过可惜的是,Yann 似乎有些成为了 Elon Musk 的「回复哥」。但 Hinton 有点像我的联合创始人 Nick Frosst,他和 Hinton 关系很亲近,他们每个周一一起下国际象棋。Hinton 非常聪明、非常睿智、非常深思熟虑,他是一个有深度的思想家。
斯特宾斯:你现在在伦敦有团队,你也住在伦敦。每个人都在谈论欧洲的衰落。你现在感觉怎么样?你在伦敦建立了令人难以置信的工程研究团队。
戈麦斯:在欧洲人的思维中,解决科技问题的方法是通过监管。我认为变革的压力是存在的,我们需要更加进步,这可能需要一段时间。
我们几乎是远程办公,我们的业务遍布各地。但也并不是完全远程办公,我们在多伦多、伦敦、纽约、旧金山都有办事处。
斯特宾斯:每天都有人来?
戈麦斯:当面交流工作要好得多。
像我经常被问到,事情会怎样发展?我也经常被问到关于技术的风险。当人们想到人工智能时,他们心中充满了恐惧,而关于我们拥有的机会的讨论却少之又少。我认为人们并没有讨论这些。
斯特宾斯:你希望 AI 怎样发展?
戈麦斯:我们现在面临的主要问题之一是供应紧张。我们今天拥有的每一种奢侈品都来自于发展起来的技术,这些技术提高了生产力,增加了物品的供应,使它们更加丰富,价格更低。因此,我真正关心的是这项技术能否推动全球的生产力,并使人类更加高效,能做更多的事情。我觉得像生产力这样的东西虽然不够吸引人,感觉就像是被低估了,但事实确实如此。
文章来源于“机器之心”
【开源免费】n8n是一个可以自定义工作流的AI项目,它提供了200个工作节点来帮助用户实现工作流的编排。
项目地址:https://github.com/n8n-io/n8n
在线使用:https://n8n.io/(付费)
【开源免费】DB-GPT是一个AI原生数据应用开发框架,它提供开发多模型管理(SMMF)、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL(智能体工作流编排)等多种技术能力,让围绕数据库构建大模型应用更简单、更方便。
项目地址:https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file
【开源免费】VectorVein是一个不需要任何编程基础,任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤,并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。
项目地址:https://github.com/AndersonBY/vector-vein?tab=readme-ov-file
在线使用:https://vectorvein.ai/(付费)
【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。
项目地址:https://github.com/Significant-Gravitas/AutoGPT
【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md
【开源免费】FASTGPT是基于LLM的知识库开源项目,提供开箱即用的数据处理、模型调用等能力。整体功能和“Dify”“RAGFlow”项目类似。很多接入微信,飞书的AI项目都基于该项目二次开发。
项目地址:https://github.com/labring/FastGPT
【开源免费】graphrag是微软推出的RAG项目,与传统的通过 RAG 方法使用向量相似性作为搜索技术不同,GraphRAG是使用知识图谱在推理复杂信息时大幅提高问答性能。
项目地址:https://github.com/microsoft/graphrag
【开源免费】Dify是最早一批实现RAG,Agent,模型管理等一站式AI开发的工具平台,并且项目方一直持续维护。其中在任务编排方面相对领先对手,可以帮助研发实现像字节扣子那样的功能。
项目地址:https://github.com/langgenius/dify
【开源免费】RAGFlow是和Dify类似的开源项目,该项目在大文件解析方面做的更出色,拓展编排方面相对弱一些。
项目地址:https://github.com/infiniflow/ragflow/tree/main
【开源免费】phidata是一个可以实现将数据转化成向量存储,并通过AI实现RAG功能的项目
项目地址:https://github.com/phidatahq/phidata
【开源免费】TaskingAI 是一个提供RAG,Agent,大模型管理等AI项目开发的工具平台,比LangChain更强大的中间件AI平台工具。
项目地址:https://github.com/TaskingAI/TaskingAI
【开源免费】MindSearch是一个模仿人类思考方式的AI搜索引擎框架,其性能可与 Perplexity和ChatGPT-Web相媲美。
项目地址:https://github.com/InternLM/MindSearch
在线使用:https://mindsearch.openxlab.org.cn/
【开源免费】Morphic是一个由AI驱动的搜索引擎。该项目开源免费,搜索结果包含文本,图片,视频等各种AI搜索所需要的必备功能。相对于其他开源AI搜索项目,测试搜索结果最好。
项目地址:https://github.com/miurla/morphic/tree/main
在线使用:https://www.morphic.sh/
【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台,可以对大语言模型(LLM)和多模态图文模型(VLM)进行预训练和轻量级微调。XTuner 支持多种微调算法,如 QLoRA、LoRA 和全量参数微调。
项目地址:https://github.com/InternLM/xtuner