这期对谈如果要提炼出一个核心观点,我想就是——人工智能的持续进步,现在需要开创性的用户界面和产品体验,但这不只是一个技术活儿,也是一个艺术活儿,才能把尖端科技用柔软轻盈的方式带入到大众的生活里。
虽然 Daniel Gross 和 Nat Friedman 现在的身份是风险投资人,我认为他们状态像是 2008 年左右移动互联网时期的 Marc Andreessen 和 Ben Horowitz(A16Z 的两位创始合伙人),他们都是技术背景和创始人出身,在技术细节和宏观趋势上都有深刻研究。
在科学基础奠定之后(不一定要完善),一个跨时代的技术总是需要跨时代的创造者和创业者,他们是「科技艺术家」(technological artists ),他们不是只满足于谈论技术成就而获得同行之间认可的人,他们是曾经的沃尔特·迪斯尼,史蒂夫·乔布斯,乔治·卢卡斯,拉里·埃里森,埃德温·兰德,宫本茂等等。人工智能时代也并不会例外。
在 2007 年的苹果发布会上,乔布斯在发布 iPhone 之前,半开玩笑地展示了他们本来的产品创意:iPod phone。
这次对谈末尾还举了一个有趣的例子,「人类登月」和「带轮的行李箱」哪一个先实现的?
1969 年人类实现登月,1972 年历史上第一个给行李箱装上轮子的设计专利诞生,一直到 1991 年我们才看到现在习以为常的拉杆带轮行李箱。人类社会可以动员起来投入最好的人才和资源实现各个领域的「登月工程」,在最前沿也拥有足够的科学和技术基础,但是「带轮行李箱」这种让普通人获益的产品,这样后来看起来非常简单的「技术组合创新」,却花了快 100 年迭代才最终找到人们喜爱它的样子。
我猜想若干年以后再回望现在,人们会说," 真不敢相信当时发明了那么多人工智能模型和隐藏在神经网络里的知识,和这么多的机器人技术还有这么多种材料和硬件,竟然没有人想到去发明 _____ ! "
为了更容易阅读,我在文章中添加了部分备注和配图。希望这篇文章会对你有启发。
阅读长文之前,摘录一些精彩观点:
与 Daniel Gross 和 Nat Friedman 的访谈:关于苹果和人工智能
An Interview with Daniel Gross and Nat Friedman:About Apple and AI
作者:Ben Thompson
编辑:范阳
原文发布日期:2024 年 6 月 13 号
很高兴再次欢迎丹尼尔·格罗斯(Daniel Gross)和纳特·弗里德曼(Nat Friedman)参加我们在 Stratechery 的访谈,这是我们持续进行的系列访谈的第七次。
本周标志着开发者大会季的结束,苹果(Apple)公司有望成为大赢家。我们讨论了是什么使苹果公司独具一种转型能力,以及打造引人注目的产品所带来的那种强大力量。
然后,我们探讨了其他主要人工智能参与者的现状,包括 OpenAI、微软和谷歌;讨论我们是否处在科技泡沫中,如果是,为什么这次情况与互联网泡沫时代不同;最后,按照我们的惯例,我们会聊到哲学层面上,讨论为什么以人类的术语来思考人工智能可能是一个错误。
Ben:让我们从目前的焦点——苹果公司开始。显然,我们有了一个新的 AI 领域的明显赢家。如果你一直在关注的话,我认为最初的明显赢家是谷歌,然后是 OpenAI,然后是微软,再然后是谷歌,再之后大家决定不再纠结,直接买 Nvidia 股票就好了——其实这一点现在还依然成立。
现在我们说到苹果,顺便提一下,它似乎并没有使用 Nvidia 的产品。这里有一个元问题(a meta question):在更广泛的环境中,是否有任何变化让我们可以以某种信心说出谁是最有优势的,为什么,或者这只是媒体和分析师们像无头苍蝇一样四处乱窜的结果?
Nat Friedman:我认为对苹果非常有利的一点是,似乎有市场上多个玩家达到了相同的模型能力水平。如果 OpenAI 更明显地在竞争中脱颖而出,以至于他们在模型质量方面比其他人高出 10 倍好甚至只是 2 倍好,这会让苹果现在处于更难受的位置。苹果现在受益于这样一个观点,即要么他们自己的能力可以赶上,要么他们可以选择与多个人工智能公司合作,看起来我们有三到五家公司都在全力以赴提高自己的实力,其中大多数计划通过 API 提供他们的模型。
市场上有谷歌、OpenAI、Anthropic、X、Meta,所以如果你在应用程序开发这一侧,这通常是个好消息,因为价格会继续每年下降 90%,模型能力会不断提高。这些玩家中没有一个会有定价权,你可以选择用哪一个服务,或者在苹果公司的情况下,苹果可以暂时选择一家合作,并有时间把自己的能力赶上来。
事实上,在主要模型发布之间,没有任何一个玩家脱颖而出或显示出市场主导地位。目前我们还没有看到 GPT-5,也没有看到 Q*。
是的,基于当前的现实,我认为这对那些擅长产品、专注于产品和应用并拥有大规模分销渠道的人来说是好消息。
Ben: 那就是苹果公司了。
Nat Friedman: 那就是苹果公司。
Ben: 丹尼尔,你怎么看?我觉得在这些采访中,你一直对苹果的潜在终局位置持积极态度。你觉得这个说法现在被验证了吗?你的这个感觉更强烈了吗,还是你会在带头这样说一段时间后,选择不同的观点?
Daniel Gross: 是的,你邀请我们来这个节目几次了,我确实一直在说,苹果有一副很强的牌。纳特说的所有内容,我还要补充一点,我认为苹果是世界上唯一一家可以比英伟达预定更多台积电产能的公司。如果你相信你实际上需要大量的芯片,并且解决了所有的产品封装问题等等,问题会只是你能从台湾的智能源中购买多少智能出来,他们有能力首先做到这一点。我认为这就是为什么英伟达在 2022 年防御性地预购了大量产能。你可以看到这些动态在起作用,也可以看到英伟达他们理解这一点。
是的,我认为苹果一直拥有成为这个领域主导赢家的要素我一直说他们具备这些成功要素,现在我们看到了这一点。对我来说,从苹果大会的主题演讲中得到的有趣内容是,他们今天描绘的画面是,高端大语言模型是一种类似搜索的东西,他们将与不同公司建立合作关系,但如果事情朝这个方向发展,我认为苹果可能会占据市场主导地位。
如果你最终进入一个动态环境,不管出于什么原因,前沿模型能力转化为一种颠覆性创新,使你能够直接吸引客户,那么可能苹果会遇到问题,但迄今为止,这并不是故事的走向。
Ben: 是的,本周我三次写到了苹果公司,但最新的一篇是,我认为苹果有两个风险因素。一个是你刚才提到的,就是有一个模型实际表现出色到让苹果变成了提供访问该模型的商品化的硬件供应商。苹果在这种情况下业务也会不错,但不如他们现在设置的利润上限高,因为现在模型是商品化的,这是风险因素之一。
风险因素之二是,他们能否真正落地执行所展示的发布会内容?这个设备端上的推理能否像他们声称的那样有效?使用他们自己的芯片,我认为可能会相对低效,但鉴于他们的规模和他们可以搭建架构,他们可能可以实现这一点,与云端一对一连接。如果他们能做到,那很好,但也许他们做不到。他们在这方面做了很多新的有趣的事情。在这两个风险因素中,你认为哪一个更重要?
Daniel Gross: 我不完全理解,也从未完全理解为什么本地模型不能变得非常非常好,我认为人们通常不喜欢听到这一点的原因是缺乏足够的认知,即我们所做的大多数事情从热量能量角度来看是多么简单,以及为什么不能有一个本地模型来完成很多工作。我认为一个静止的人可能消耗 100 瓦,而一部 iPhone 消耗,我不知道,应该是 10 瓦,但你的 MacBook 可能消耗 80 瓦。总之,我相信在可实现的范围内可以创造出具有类似人类能力的东西,在本地模型上合成信息。
我不知道该如何看待这对更广泛的 AI 市场意味着什么,因为至少到目前为止,我们显然并不完全相信这一点。整个市场正在构建所有这些复杂的数据中心容量,并且在云端做了很多事情,这与本地模型可以变得非常好的观点存在认知失调。
经济是围绕平均智能构建的,而不是中位数的智能。大部分劳动是相当简单的任务,我还没有看到任何数学上的反驳证明本地模型不能变得非常好。你可能仍然会因为很多其他原因需要云端模型,而且有很多非常高端、高复杂度的工作你会需要云端模型来完成,比如化学、物理、生物学,甚至是做你的税务申报,但对于基本的事情,比如知道如何使用你的 iPhone 和总结网页结果,我不太明白为什么本地模型不能变得非常好。
我要补充的一点是,这基本上肯定会发生,即在 TSMC 的节点密度方面(on the node density side from TSMC),以及每个主要的 AI 实验室的效率提升方面,将会有大量工作做出来。即使他们在云端运行他们的模型,或者因为他们要在云端运行他们的模型,他们会非常关心他们的成本(they really care about their COGS)。这是一个非常稳定的过程,每年都会发生,当一个新的前沿模型推出时,运行它的成本非常高,然后它被蒸馏、量化或压缩,以使公司的成本支出更有效率。
如果你继续这样做,你确实会想,「等一下,为什么消费者自己不能运行这个模型呢?」有大量的经济上的压力迫使这些模型不仅非常智能,而且要让它们的运行成本非常低。在极限情况下,我不知道它是否会像你的苹果电视(Apple TV)一样,由家里的电脑来完成后台工作,甚至真的在你的手中的设备上完成,感觉本地模型会变得非常强大。
Nat Friedman: 对,六个月前,Andrej Karpathy 发表了关于 LLM 操作系统(LLM OS)的愿景,他的想法是语言模型在某种程度上是一种新型计算机,一种新型操作系统,它将连接到各种外围设备和工具,通过函数调用来使用它们,我认为这是一个非常有趣的愿景。
至于如何实现,还有待观察,但我认为苹果的发布会上宣布的东西确实支持了他的观点。实际上,苹果在设备上安装了一个小型的 LLM 内核,它监听你的请求并决定如何处理这些请求,它可以尝试自己处理,也可以调用本地应用程序的部分功能,或者将部分或全部工作分配给苹果在其云端运行的模型,甚至现在可以在得到你的批准后调用 ChatGPT。
我认为苹果通过这种架构设计,为自己提供了一种对本地模型质量的对冲措施和一个使用的坡道(both kind of a hedge on the quality of local models and a ramp that they can use)。随着本地模型的改进,它们可以根据需要在本地处理更多请求,同时随着它们在云端芯片上运行的自有模型的改进,它们也可以使用这些模型,并且在适当的情况下,还可以使用第三方模型。
我认为 Daniel 可能是对的,本地模型的性能还会显著改进,但苹果的策略不需要本地模型能够做所有事情,它们可以平稳地进行调度。它们在手机上有一个小路由器,我认为苹果的梦想是拥有一个 2B 或 3B 参数的模型在你的手机上运行,主要是作为一种工具使用模型(tool-use model),它基本上执行函数调用(It basically does function calling)。
Ben: 在 AI 领域,最重要的代理将是那个决定在哪里分派任务的本地代理。它不需要很大,也不需要很复杂,但它是关键所在,它将控制所有的价值。
Nat Friedman: 是的。我认为在短期内,即使是处理中等复杂度的任务,使用远程模型也有很好的理由。在手机上维持一个 3B 模型在内存中的能耗成本并不小,将其加载到内存中的成本也很高。你现在必须部署的计算量很大,但正如 Daniel 所说,摩尔定律、英伟达的「Jensen 定律」或台积电定律以及量化和蒸馏等技术将继续改进,所以本地模型将变得越来越好。随着时间的推移,苹果对此可能并不是完全不在意,但在某种程度上它现在是无所谓的。他们可以在这个基础上下注,并随着模型情况的改善,从远程模型平稳过渡到本地模型(a smooth transition from remote to local as things get better)。
Ben: Daniel,我实际上很好奇,你曾经是苹果公司机器学习部门的负责人。这已经过去好几年了,所以不能说你一定对去年发生的事情有深入的了解,但对我来说,苹果智能系统只能在 iPhone 15 Pro 上运行这一事实让我确信,苹果在这方面确实是晚了一步,因为我认为,如果他们能回到过去重做一遍,至少 iPhone 15 会有 8GB 的内存,至少在整个上一代产品中都是如此。当然,他们当然希望销售新硬件,但他们也不想让人们感到被坑。
这对我来说确实是一个「全员上阵,我们必须解决这个问题」的情况,而且大部分都是积极信号。
积极的点是,我认为可以安全地假设他们的芯片还没有完全设计好来支持这种使用方式。我们可以期待不仅仅是台积电的工艺改进,当苹果为本地模型定制专用苹果芯片时,它的设计和支持也会变得更强大和高效。
然后第二点,我的假设是这个苹果私有云只是由 M2 Ultras 组成,我认为这可能决定了这些云上模型的大小,但是当他们真的设计了自己服务器芯片时会发生什么,我认为可以肯定地说,他们现在会设计自己的服务器芯片。整个 Nuvia 团队可能在想,「我们很久以前就告诉过你们了!」
但第三个我很看好他们的迹象是,如果这一切都属实,他们似乎传达了一个非常有潜力的愿景,并且足够证实了这一点——很多东西还处于测试阶段,将在这一年内逐步推出——这有点让人回想起曾经的苹果公司,像史蒂夫·乔布斯时期的风格,「我们要做 iMovie,哦,等等,实际上我们要做的是音乐,我们需要发布 iTunes,我们将在六个月内发布 iPod」。这是一个恰当的描述吗?你对过去 18 个月苹果内部发生的事情有什么看法?
Daniel Gross: 具体来说,当我在苹果工作时,我是一个年度项目「OS Intelligence」的直接负责人,该项目涵盖了公司内所有的机器学习和 AI 的努力,我是这个项目的核心人物(a tent pole)。核心人物是苹果用来宣布在特定年度内特别关注的六到七个项目之一。
当我在苹果发布会主题演讲中看到「Apple Intelligence」时,显然这是一个有趣的缩写,但我看到的是内部组织在外部的反映,这是年度的一个核心项目。即使在核心项目内部,公司也有一个内部的层次结构。真正的问题是,当你在苹果工作时,核心项目的分类代码是什么?你是 P0、P1、P2 还是 P3?你希望是 P0 或 P1。P0 会是像新的硬件支持这样的东西,这意味着如果这个项目不成功,公司将陷入困境,比如新的四频 LTE 模块从中国运来的零件,你必须与之合作。
如果让我猜测,你所描述的组织表达就是从 P1(我以前所处的位置)提升到了 P0 级别。我不确定这是否属实,但我感觉是这样。
Ben: 感觉今年 WWDC 的其余部分就像是说「没人一整年在做其他任何事情」。将所有其他内容放在第一小时几乎是有用的,真正强调了「我们确实没有在做其他事情,除了 Apple Intelligence 这件重要的事」。
Daniel Gross: 我认为苹果是一家灵活度很高的公司。在我在苹果工作的头一年或头几个月里,我们致力于一个核心项目(a tent pole),但在接近发布的时候被搁置了,因为我们开发的东西还不够好,那是我职业生涯中一个非常痛苦的时刻。苹果工程高级副总裁 Craig Federighi 到我的办公室来安慰我。我知道那是一个痛苦的时刻,因为我记得那一天的每一秒,但他们在一年中对积极和消极的事情都抱有灵活态度。如果东西不够好,他们会把你推到明年再说,如果看起来很重要,他们会非常迅速地重组公司团队开始干。
我认为这在某种程度上是乔布斯的天才之处,即直接负责人 DRI 模型并不特别依赖于组织结构图。例如,我主要在苹果服务高级副总裁 Eddy Cue 的团队中,但因为我是直接负责人 DRI,我指挥的是 Craig 团队中的完全不同的一些人。如果让我猜测,他们确实进行了一个 P0 冲刺,并且它成功了,有很多东西是先拼凑在一起的,包括,我不确切知道情况是什么,但我假设你关于苹果芯片的理论是正确的。
我也认为,从苹果的角度来看,在云端和客户端使用相同或相似的处理器是相当合理的。也就是说,你可以设想一种协议,客户端尝试流式传输 tokens,并且由于它与云端具有相同的架构和模型,甚至到比特和硅芯片层面都相同,它可以非常灵活地回退,本地化生成一些内容,也可以从云端生成一些内容。就像我现在和你说话一样,有些词语比其他词语更容易想到。例如,我脑中的最简单的方式是,如果你正在解决一个特定的数学问题,写出来这个数学问题实际上是相对低复杂度的计算,然后你写到了等号,突然间你有了这些高复杂度的 tokens。你可以想象他们会制定这种相当灵活的协议,而且在本地和服务器模型之间切换,你会得到非常可靠的性能标准和特性。
显然,从苹果的经济性角度来看,这与他们的商业模式高度一致,而且即使他们暂时没有足够的数据中心能量容量等,这也可能帮助他们在他们擅长做的事情上处于业界前沿水平。
我想,为了先收尾前面的评论里的脑洞,我需要补充一点,因为你可能会从那个主题演讲中得到启发,展望未来,并想知道我们究竟在做什么,为什么 Vertiv 今年上涨了 4 倍,Nvidia 也在那样的位置上。
有时我真的试图想象这相当于现在在观察曾经 90 年代末电信行业的泡沫,并开始想象社交网络的等价物是什么,我认为那真的很难做到。我们很容易看着电信泡沫并想象 pets.com 或 Webvan 会被做出来,但你很难想象到社交网络这样的产物。
在人工智能领域,我认为可以想象到的是,相对容易的飞跃会是「哦,尽可能多地做所有当前经济中的基础工作就行了」,然后问题是「什么是现在还难以想象的类似社交网络这样的东西?」。
我觉得可能会是一种对硬科学和硬物理的重新发现。人类进步今天在这些领域到达了瓶颈,仅仅因为智能发展的速度(the rate of intelligence)。你可以想象,AI 市场是如何展开的?实际上,很多本地的经济或很多经济活动可以在本地完成,但真正的奇迹,比如新的流体力学、新的 Ozempic 药物、新型能源,这是一个庞大的产业,它们可能是在云端完成的,这就是我们错过的部分,就像无马的车厢(horseless carriage)一样。
范阳注:无马的车厢(horseless carriage)是在汽车进入大众视野之前,人们对汽车的临时称呼。
我们过于专注于工具使用和间歇性上瘾地浏览手机屏幕,而没有意识到「哦,有全新的科学领域将被发现也是超级有利可图的」,新时代的礼来制药公司也许相当于新时代的社交网络一样规模。无论如何,这至少是我今天的想法。
Ben: 我完全同意。而且我的一个看法是,我认为这有点借鉴了互联网时代的经验,我有点怀疑创新的深刻性与它实际产生影响所需的时间之间存在反比关系。
互联网用了 20 年时间才到达了你提到的那一点,至少用了 15 年时间,不管是哪一个,我认为动态信息流是上一波互联网核心的创新。
信息流是以前无法做到的事情,创建一个动态生成的内容列表,这个列表永无止境,且能针对每个人进行个性化推荐,这根本上是全新的事物。互联网花了 15 年时间才走到这,从而解锁了广告模式,解锁了整个互联网经济。这改变了我们的政治,改变了社会。虽然事后看起来很明显,但这确实花了很长时间—我用不同的角度在说明你的社交媒体观点。
但似乎在这发生之前的 15 年间,我们在做什么?我们只是把文章放到网上挂着,在旁边加个广告,就像我们在报纸上做的一样,然后感叹,「哇,互联网可赚不了什么钱」。对于人工智能,我觉得,我们在 18 个月前开始这个播客系列时就在说,「哇,没有人在用人工智能构建产品」,而现在几乎感觉情况还是这样。
Ben: 人们确实在构建产品了,但没有人真正找出那个别人无法想象到的产品。
Nat Friedman: 是的,我想特别是针对苹果来说。这在 AI 领域是一个大争论,关于人工智能进步的速率限制(rate-limiters on progress)是什么,纯粹的规模扩展派(the scaling purists)认为我们需要更大的规模、更多的算力。有些人认为我们需要算法的突破,因此我们受到优秀的 AI 研究人员的限制,还有人认为我们正撞上了数据墙,我们真正受限于高质量数据,可能是标记数据,可能是原始数据,或许是视频可以提供这些数据。
但至少在实际感受到的进步方面,我认为人工智能进步的关键是用户界面和产品(I think it is UI and products)。仍然存在巨大的 AI 能力过剩问题,我们仍在学习如何让这些模型对人们有用。令我震惊的是,到目前为止,竟然很少有人做好这方面工作。
我想,回应你关于信息流的观点,这确实需要时间就足够。整个行业都在进行分布式搜索,寻找 AI 领域可行的东西。当我们制作 GitHub Copilot 这个产品时,主要的——也许也不是主要的——但有很大一部分问题要解决是,「这个的 UI 是什么?可容忍的延迟是多少?它看起来像什么?它如何知道该做什么?以及当它犯错时,如何使这些错误是用户可以容忍的?」,因为它肯定会犯一些错误。
Ben: 是啊。
Nat Friedman: 我喜欢苹果发布会的一点是,我们真正开始看到 UI(用户界面)的具体愿景是什么样了,他们做的事情是将他们的应用分解成一些对用户有用功能的小块,并且这些功能有完全独立的 UI。显然,通过某种方式,你可以与设备进行对话,例如说:「今晚的晚餐地点在哪里?到那里需要多长时间?」
延伸阅读:AI 在把传统软件当早餐吃掉
Ben: 那个女士想知道她妈妈的航班什么时候降落,以及他们在哪里吃晚餐的演示,是近年来最好的科技演示之一,我是完全真诚地这么认为的,因为它如此简单,却让每个人立刻理解了这是一个多么难的问题,以及获取这些信息是多么让人头疼。
Nat Friedman: 苹果在那个演示中打破了很多技术界限,我认为这是苹果经常表现出色的一点。他们显然有一群人,或者是就不知道现有 AI 的工作方式是什么,或者能够忽略现有 AI 的工作方式,只想着用户体验应该是什么样子,几乎是显得有点肤浅,但我说这是一件好事,不是坏事。
Ben: 我在和 Sharp Tech 的联合主持人 Andrew 交谈时,他是科技领域的新手,他简直被惊呆了。我说,「看,这就是苹果粉丝的心路历程。」这就是为什么人们爱苹果,因为他们有这种持续解决问题的能力。
Nat Friedman: 是的。苹果能够说:「忘掉应用程序吧,它们不应该是你总需要在其间切换的独立存在的事物,但它们会提供这些用户意图或这些小功能或智能能力,它们分别会有一些用户界面,在适当的时候出现在对话中。」演示的神奇之处在于你可以说,「到那里需要多长时间?」
它知道「那里」指的是什么,并且有上下文参照。所以这让我感到非常兴奋,这是令人惊叹的。听起来如此简单,事后看来是显而易见的,但我确实认为他们指明了用户体验的方向,超越了迄今为止其他人的做法。
Ben: 嗯,就像 Daniel 刚刚解释过的,我也写过的,苹果的功能组织及其所带来的灵活性,你可以让一个直接负责人(Directly Responsible Individual, DRI)进来并组建一个团队来完成某件事。这有点像苹果展示他们的方法,「看,手机上有很多垂直的孤岛,也就是应用程序,比如消息应用和邮件应用都是独立的,而你真正需要的是,Apple Intelligence 就像你个人的直接负责人 DRI,它会跨越这些不同的东西并提取出各个部分」,这非常有吸引力,也非常实用。
Nat Friedman: 是的,这很有效。还有一些小细节,比如在邮件应用中,每封邮件下方的简短摘要传统上是邮件的前八个字,现在是 LLM(大型语言模型)生成的摘要。就像,「哦,天呐,我怎么没想到?这太显而易见了。」
Ben: 通知功能也是,「当然,这才是通知应该的工作方式。」
Daniel Gross: 好的产品设计有点像一个非常好的笑话, 或非常好的日常观察性幽默笑话,事后看来非常显而易见。但这也是 Nat 一直在强调的一个观点,我认为他是对的,这在事前是非常难做到的。
也许魔术是一个更好的比喻,因为构思和想象它是非常困难和毫无感激之情的工作,因为如果魔术师真的做得好,没人会注意到这些背后的细节。
Nat Friedman: 你看到了别人没有看到的东西,而这些东西其实一直都在我们身边。所以是的,我喜欢 LLM OS 的方法,我喜欢他们的 UI 和产品愿景。当你问到苹果面临的最大风险是什么时,我真的认为是执行能力,让这一切运转起来。我们在 AI 中看到,演示很容易。我们在 2020 年开始研发 Copilot 的第一个月就学到了这一点,但让它可靠地工作,并让失败是可以接受的,而成功时又能带来商业回报,这真的很难。
我们在大型语言模型(LLM)中看到的一个现象是,它们真的很依赖数据。我认为过去几年让我深刻认识到的一点是,如果你希望模型具备某种能力,那么在你的训练数据中必须有很多这方面的优秀案例。三年前我创建了 natbot,这是我最早学到的东西之一。
范阳注:natbot 的演示 https://github.com/nat/natbot
那是一个使用 GPT-3 来浏览网页并在网页上执行操作的小机器人。当时它基本上勉强能工作,是一个很酷的演示,然后我获得了 GPT-4 的早期访问权限,并将其插入其中,以为我的 natbot 的表现会大大改善,因为 GPT-4 模型显然要好得多,可惜它并没有。它只是稍微有所改善,因为浏览和执行操作的数据并不在数据集中。所以我认为苹果要做好这件事,他们可能需要在数据方面做得很好。他们可能需要收集大量高质量的数据样本。
Ben:苹果会被自己束缚住吗?因为我觉得,他们有很多非常有用的数据,但他们承诺不利用这些用户数据。
Nat Friedman:嗯,你可以做到这一点。获得高质量数据的最先进方法,我认为用户数据引擎(the user data engine)在 AI 领域有点被高估了。我觉得如果你把 OpenAI 的 ChatGPT 用户数据拿走,他们仍然会做得很好,因为他们愿意每年花费十亿美元来获得高质量的标注数据。
其他实验室也在这样做。我想有些人看到了最近 Scale 的融资公告。Scale 是那些真正抓住这波 AI 浪潮的公司之一,因为他们帮助人们收集这些高质量的数据,并且每年通过这种方式赚取超过十亿美元。所以苹果也可以做到,但这需要成千上万的标注人员,并且在操作上非常人力密集且需要极其关注细节。我不知道,这是否符合苹果的公司 DNA,你怎么看,Daniel?
Daniel Gross:这是个有趣的问题。我认为,当我在苹果工作时,似乎现在也是如此,苹果公司对用户隐私有一种极端的痴迷,他们是真诚的,并不是因为商业模式驱动,而是真正来自于高层人员的一种精神。这么说,正如你所说,Nat,数据护城河的概念在 LLM 领域并不明确,因为每个额外数据点的影响范围非常大,你可以用少量非常高质量的数据走得很远。他们多年来一直在为 Siri 的语音识别收集数据,通过付费的方式,而且苹果有很多钱,他们知道如何为一些能保护用户隐私的东西付费。
我认为,这里的问题是,「你是否知道如何收集适量的信息?」,这本身比起科学来说更多的是一种艺术。我想,在一方面,你可能会认为,「也许苹果真的不太理解机器学习,所以即使他们有预算,可能也很难做到这一点」,但另一方面,我认为我们之前讨论过的一件事是,苦心收集数据的神学和哲学,与苦心设计像素的神学和哲学并没有太大的不同。非直觉的做法可能是让苹果的设计团队来理解机器学习,然后收集数据。但苹果公司有那种关注细节的心理,我认为其他一些实验室迄今为止在这方面挣扎的原因之一,比如与法国的 Mistral AI 公司相比,是因为他们没有那种关注细节的文化。他们有一种规模扩展文化,而这两者通常是相互对立的。
所以,如果苹果能够传递出那种「我们要非常在意设置页面上没人会注意到的动画」的神话般的态度,他们实际上可能会非常擅长收集任何高质量的数据。这中间有一种不同领域语言翻译的因素,我的意思是,在苹果,设计师的重要性和得到的尊重远大于 AI 工程师,所以问题是,组织能否欣赏这种新的类型?
Ben:组织的痛苦将来自模型总是出错。我认为他们发布的关于模型的评分是最显著的事情之一,当然,这些评分来自苹果,我会持保留态度, 有关拒绝的响应数量。他们的准确性与比较对象大致相同,他们的准确率与他们所比较的所有产品持平,但他们的敌意或任何被归类为敌意的产品却明显较低。
Daniel Gross:拒绝响应(Refusal)。
Ben:拒绝响应(Refusal),谢谢。这表明他们不想出错,如果他们认为模型可能会出错,他们会转交给 OpenAI 做这件事,让他们承担品牌风险。
Daniel Gross:一直存在的问题是,「Apple TV+可能实现吗?」,因为苹果品牌如此高端,他们能制作大胆内容吗,甚至是有暴力场景的内容?这不是 Steve Jobs 设想的苹果品牌。或许你认为美剧《为了全人类》是个无聊的节目,但归根结底,他们确实有一些有血腥、暴力和性爱场景的节目,我认为他们处理得相当好。
Nat Friedman:我的意思是,他们正步入一个全新的管理挑战,或政策挑战,面对对话式人工智能。我们看到 Gemini 的出错,我们也看到 OpenAI 有时受到巨大抨击。苹果将如何应对这些挑战?
Ben:你刚才提到这点,我认为稍微有点夸大。
我认为值得注意的一点是,他们甚至还没有涉足(对话式人工智能)这一领域;他们的模型基本上不生成任何文本,主要是做摘要和语气变化。如果想进行任何形式的生成,他们会把这个任务交给 OpenAI。顺便说一下,这让我觉得他们更有可能把 Apple Intelligence 带到像中国这样的地方,那里的环境对很多人工智能公司不太友好,但他们可以自信地说,「我们的模型不在创造内容」。
他们在创造内容的地方是图像生成器,但它只做三种风格,不做照片写实风格(photorealistic)。他们昨晚在 [John] Gruber 的 Talk Show 上说,「是的,我们不想涉足深度伪造技术」。我们通过小道消息听说,政治家们特别关心深度伪造技术,其他的就不是特别重要。但我认为苹果在这里有一个非常明确的选择,就是实际上做非常少的生成式创作,有趣的是我们称赞他们在生成式 AI 中具有潜力,但他们实际上生成的创作很少。
Daniel Gross: 是的,我认为这是个合理的观点。Nat,对于你的问题,一个好的衡量标准是,「他们在 Apple TV+ 的剧本上亲自进行多少微管理?」我之前说的都是积极方面,但从消极方面来看,我不知道他们是否因为 Jon Stewart 想谈论中国而取消了他的节目,还是因为收视率不好,这是他们的借口。但如果他们真的如此苛刻,以至于说「我们不喜欢你的剧本」,那么是的,公司可能会遇到些困难。
从某种程度上说,如果你是苹果,你可以说,「好吧,我们有个压力释放阀是,我们将连接所有这些其他大语言模型(LLM),比如 Google 的模型、OpenAI 的模型,来处理生成奇怪内容带来的声誉损害,我们只负责控制你的手机。」我认为这将是一个非常明显的苹果的立场。
Nat Friedman: 既然你和 Ben 都这么说,我有点觉得这就是会发生的事情。他们只会代表你采取行动,尝试做一些对你有帮助的事情。他们不会给出个人建议,也不会生成政治性的文章之类的东西。我认为这对他们来说是一个简单直接的方法。
Ben: 他们还在 State of the Union 中也谈到了很多关于向开发者提供本地优化外部模型的工具,这是他们的推销点,「如果你想做这些事,我们会帮助你在本地完成,但我们不会自己实际做这些事。我们会提供所有这些框架和方法来优化别人提供的模型,如果你想把它放在你的应用程序中,但我们自己的模型不会涉足这些。」
Daniel Gross: 是的,我认为这是他们的首要答案。
Ben: 第二点,回到昨晚的 Talk Show,Gruber 问了在台上的苹果高管关于你刚提到的内容审核问题 ( the moderation question )。他们回答说,「是的,我们相信人们是有创造力的,我们不想妨碍他们,我们只是一个工具。」第一,这正是我想听到的,我为此鼓掌。第二,这是一种经典的策略,因为如果他们实际上不生成任何内容,他们就不会被追责。
几个月前我在一篇文章更新中发布了一则笔记,其中我们的一个共同朋友写了一种思考审核问题的框架,这个框架是关于你需要在这些工具是工具的背景下构建这些工具,这就是你如何获得社会认可并能够解决这些问题的方法;当某些麻烦明确归因于大语言模型 LLM 时,LLM 将承受品牌风险。如果明确归因于用户的行为,那么你基本上可以做任何你想做的事。这似乎正是苹果的做法。
Daniel Gross: 我认为这是对的,我认为对苹果的最大赞美就是他们没有更早推出某些东西。我一直被告知,当你在苹果工作时,你要在比赛的第四节才上场,你的角色是成为最好的球员,而不是第一个出场的球员。所以你现在看到的苹果的后发优势,他们从其他公司在公众眼中的挣扎中获益良多。
Ben: 此外,在优化和提高效率方面也产生了大量的进展。如果你回头看看 ChatGPT 的初始发布版本与最新发布的 GPT-4o 的对比,我的理解是这个「o」代表的就是「优化」(optimization )。他们如何上规模实现这一点?这似乎是迄今为止最大的突破。
Nat Friedman: 我能再补充一下关于苹果的观点吗?至少提出一个反面观点(one bear statement),因为我们之前的讨论都是赞扬它的。
那么,反面观点是,这些模型主要在生成方面证明了自己的能力。苹果在这个工具使用和函数调用的世界中押注了这些模型,虽然已经有一些演示表明这是可行的,但还没有人在苹果现在需要的大规模和可靠性上做到这一点。所以我认为这是完全可行的,我并不认为这是一场必输的战斗,但这是竞争的前沿。他们现在必须推动这一点,以使他们的愿景得以实现,而这并不是这些模型迄今为止表现最出色的地方。
Ben: 是的,这是一个很好的观点,苹果实际上必须在这个领域创新,所有我们谈论的都是快速跟进别人家的工作,实际上你需要在做一些没有人展示过的新事物。
Ben: 那么,OpenAI 在市场当中扮演什么角色?我把他们比喻成相对于电商平台亚马逊的联邦快递(FedEx)和 UPS,亚马逊只是把亚马逊不想做的最糟糕的任务丢给了物流快运公司,而亚马逊自己承担了所有简单的任务。但与此同时,我一直以来的一个观点是,OpenAI 有机会成为一家消费科技公司,他们刚刚获得了史上最大的分销协议。你如何看待他们今天的位置,相对于上周?
Daniel Gross: 我不完全理解他们和苹果协议中分销能起到的价值。也许有点道理,但也许这更像是当年雅虎和谷歌的合作协议。我认为在 AI 领域,如果你专注于企业市场,这是不同的情况。如果你专注于消费者市场,旧的资本主义规则仍然适用,你需要一个颠覆性的用户界面,这样人们才能记住你,才能想使用你的产品,而不是使用现有的产品,或许对于 OpenAI 这就是 chat.openai.com。
Ben: 现在改成 chatgpt.com 了。
Daniel Gross: chatgpt.com,或许改得还不够。我认为能看到一个暗示,不仅仅是 OpenAI,而是所有这些人工智能实验室在他们的产品发布中看到自己的发展方向,他们创造了一个你可以直接对话的东西,这很有可能足够成为一个革命性的新用户界面,以至于他们可以创造自己的硬件,如果做到这一步基本上可以指挥客户的注意力。
但我觉得一般来说,如果你要进入消费者市场,你希望自己处于价值链的顶端。我的意思是,当然,OpenAI 是一家非常强大且令人印象深刻的公司,但与苹果的合作协议并不真正表明他们处于产业价值链的顶端。所以问题实际上是我们在这个播客上已经讨论了多年的老问题:「什么是新的革命性的用户界面能够真正改变用户行为?」
Ben: 这是否意味着谷歌现在处于市场当中的最佳位置?他们拥有所有苹果公司所拥有的智能手机产品属性,他们在模型和技术方面应该更强。
尽管他们在产品本身或获得消费者信任方面表现较差,比如他们没有你之前详细描述的「灵活的组织形式」,你觉得这一点重要吗?上次交流我们谈论谷歌时花了很多时间,有什么改变了你对谷歌的潜力的看法吗?
Daniel Gross: 我认为这真的完全取决于你是否能创造出足以证明用户行为改变的一种体验,而且一直以来成功的关键都取决于这一点。
举个例子,我认为有一段时间,尽管实际上用户界面非常简单,但生成高质量的图像也足以导致用户行为的巨大转变。Midjourney 之所以是 Midjourney,并不是因为它有什么漂亮的斜栏,可以捏合缩放。而是因为它创造过非凡的奇迹。它创造了非常好的图像,并赋予了它一定的用户粘性。所以,这就是默认的用户体验和劣质产品,与新的革命性体验之间的矛盾,以及它们是否足以打破现有产品的「僵化」。
很有可能,如果没有人提出任何新的绝妙想法,即使谷歌的模型在消费者眼中看起来并不那么出色,他们也会存活下来,因为他们有一些安卓用户基础,当然还有 Google.com。让我感到惊讶的是,虽然谷歌模型的技术能力看起来很令人印象深刻,但消费者产品一边的执行实际上比「还行」还要差。我认为他们将语言模型整合到搜索中的做法简直糟糕透顶,抱歉,我要完全坦诚说出我的观点。比如谷歌搜索结果里引用了并非事实的 Reddit 评论,这种问题其实不难解决。所以我认为他们需要至少做好最基本的工作来维持他们在市场层级中的地位。可能他们做不到这一点,也可能新的革命性的用户界面会被创造出来,也有可能他们会迎头赶上,一路摸索着走过来,然后就过得还好。
但我认为,主要的问题是对于那些挑战者人工智能实验室来说,如果他们朝着消费者产品的方向发展,那么问题就是,「如何打造一个如此出色的产品,以至于人们会真正放弃默认选项?」,而我认为我们总是低估了想做到这一点,需要达到的卓越水平。企业应用市场的情况有点不同,顺便说一句,OpenAI 在企业市场的动态方面是一个非常好的「卖柠檬水的摊位」,但消费者市场在某种程度上更容易理解。你只需要有一个奇迹般的产品来改变一切,如果那没有发生,那么是的,也许你应该长期看好谷歌、苹果和现有的巨头。
Nat Friedman: 是的,在 OpenAI 这方面很难排除它们的影响力,他们有很多优势。确实,他们没有 Meta、苹果或微软的分发能力。但至少从 SimilarWeb 的数据看,ChatGPT 的增长可能是通过最近 4o 模型发布重新点燃的,如果是这样,那非常有趣。
然后在模型建立方面,他们仍然领先,我认为他们对 4o 的演示真的很令人印象深刻。它的语音能力很棒,OpenAI 能够提供具有这些功能的如此小型且廉价的模型让人印象深刻。4o 是一个全新的预训练模型,而不是对 GPT-4 进行了微调,这肯定是为了他们提供的多模态功能。显然,根据它的价格和性能,这是一个小型模型,而且他们还免费提供它给所有用户使用,因此我不得不想象他们正在训练一个更大的模型。GPT-4o 有可能是一个 GPT-5 的检查点,也有可能是 GPT-5 训练的失败产物,所以他们可能会训练一个更大的模型出来。从人们的使用情况来看,4o 显然并不比 GPT-4 更聪明。
Ben: 在我看来,GPT-4 仍然更聪明,但 4o 速度快得多。而且正如你所说,它是免费的,它有些产品属性比仅仅正确回答深奥的问题更重要。
Nat Friedman: 是的,确实如此。所以如果他们很快就有一个更聪明也更大的 4o 模型,或者 GPT-5 能够实现预期,我们知道他们在 Q* 方面有一些令人惊奇的东西,我们还没有看到,他们在科研、扩展规模和产品执行方面做得比大多数公司都要好,现在他们与微软和苹果有分发协议。再说句实话,他们在许多重要方面都有非常强大的领导能力,能够筹集资本、落地执行和重定向组织。看看那些 4o 团队成员的演示视频,显然在录制这些视频之前,他们没有一个人怎么睡过觉,所以我认为这种努力强度不容忽视。
Ben: OpenAI 现在是 AI 界的「Kleenex」(一个领域的代表性品牌)。这是去年整个 OpenAI 宫廷政变风波中被低估的问题之一,即「好吧,整个 OpenAI 团队都去了微软」,实际上失去 ChatGPT 这个名字会带来天文数字的代价。我认为,科技公司的价值有很大一部分在于无形资产,而这确实是一个很大的无形资产。你能够自行掌控而不必通过任何平台进行分发的任何能力都很有意义,他们大约有 1 亿以上的用户吗?
Nat Friedman: 是的,我认为这是对的。另一方面,他们面临许多挑战。相对于我们讨论的这些大公司来说,OpenAI 基本上还是一家小公司,产品分发规模不够大(subscale product distribution)。显然他们与微软之间存在紧张关系,我们看到了微软收购了 Inflection AI,我看到有媒体报道称微软对 OpenAI 与苹果的交易感到不满,我们也看到 Mustafa 和微软 AI 团队现在正在努力赶上甚至可能超越 GPT-4 的模型能力。
Ben: 除了作为去年十一月「宫廷政变」之后直接衍生的对 OpenAI 的风险对冲策略,你还怎么看待微软对 Inflection 这个收购呢?
Nat Friedman: 我认为这显然是微软对 OpenAI 的对冲策略。此外,它也可以被视为新产品领导力和 AI 原生产品的领导力的体现,特别是对于 Copilot 以及微软自己对 OpenAI 的整合。也许微软 CEO 萨提亚 ( Satya ) 认为他出于某种原因需要这些领导力,所以我认为两者兼有。我肯定他们乐于与 OpenAI 合作,但鉴于该合作的公司治理结构和合作伙伴关系的脆弱性,萨提亚可能会有一些自己的考虑。上次我专门去查看时,萨提亚自今年一月初以来就没有在推特上发布任何提到 OpenAI 的推文。但他提到了 Cohere 模型和 Mistral 模型。
Ben: 这是一个重要的变化。当我几周前采访萨提亚 ( Satya ) 时,他一直在说,「哦,说到合作伙伴关系,我们有各个层次的合作。我们相信模块化的合作方式。」这与去年十月份的财报电话会议形成了鲜明对比,那时距离 OpenAI 的「宫廷政变」事件发生只有一个月。他在那次会议上谈到,「我们正在从模型到基础设施再到芯片设计进行全面整合,所有这些都考虑到了与 OpenAI 的合作伙伴关系。」在沟通方面,确实发生了 180 度的反转。虽然萨提亚·纳德拉(Satya Nadella)做得非常专业和微妙,但与不久前他的说法已经大不相同。
Nat Friedman: 所以我不知道他(萨提亚)的想法是什么或者究竟发生了什么。目前,OpenAI 和微软确实需要彼此,这是一个非常重要的合作关系,我认为这种关系会继续下去。但显然,萨提亚也想构建自己公司内部的第一方能力,这就是他正在做的事情。
至于谷歌,我认为他们还没有完全搞清楚状况,但让我相当印象深刻的一个事儿——我们的一位朋友最近和我说,当谷歌发布一些质量不太好的东西时,这实际上是谷歌的一个利好信号,因为这意味着他们能够突破组织上对发布产品的犹豫不决,他们愿意犯错误了,并且他们想要胜利得如此强烈,以至于愿意不断迭代。
Ben: 这样说会不会有点简单化了?也许正如 Daniel 前面说的,之所以产品做不好是因为组织的问题,所以为了克服这个问题,你就拼命挣扎先把产品发了,然后你意识到,"糟糕,我发了一个用胶水粘起来的披萨"。(Crap, I shipped a glue on pizza)。」
Nat Friedman: 是的,组织内部的缝隙确实很难解决,你可以把它看作是种拼命挣扎。也许这确实是拼命挣扎,但如果他们从中吸取教训并改进自己,那么这种挣扎是有价值的,就像 SpaceX 火箭在发射台上一开始总是爆炸,直到它最终能成功着陆在船上。
我确实认为 Gemini 是一个不错的模型——如果你看了他们在 I/O 开发者大会展示的多模态模型演示,他们展示了眼镜的功能演示,我觉得那很有趣,也有一些视觉方面的东西。我认为真正的问题是执行能力,以及商业模式的结构性问题。基本上,这些东西确实在某种意义上与谷歌自己的谷歌搜索竞争,但他们正在尝试,他们可能会更加犹豫,而这会让我觉得——谷歌不是苹果,苹果花时间的时候,意味着他们会把事情做对。
Ben:对,因为苹果的商业模式暂时没有风险。所以他们有的是时间。
Nat Friedman:是的。所以我不知道,我觉得谷歌依然在游戏中,我认为我们应该对谷歌愿意快速发布产品和迭代的态度整体上持积极看法。
Ben: 有件事是英伟达(Nvidia)首席执行官黄仁勋在最近一次英伟达财报电话会议上说的,我在这里引用他的话:
「让我举个例子来说明时间真的很宝贵,为什么能立刻建立起来数据中心这个想法如此宝贵,而获得训练时间又如此宝贵。原因在于,下一个达到重要里程碑阶段的公司将宣布一项突破性的人工智能。而之后的第二家公司则会宣布一些仅仅比它提升了 0.3% 的东西。所以你要问自己的问题是,你是想成为一再交付突破性 AI 的公司,还是成为一个只提升了 0.3% 性能的公司?
这就是为什么这场竞赛如此重要,正如所有技术竞赛一样。你会在多家公司之间看到这场竞赛,因为拥有这个领域的技术领导力、让公司信任你的技术领导力并愿意在你的平台上进行建设,同时知道他们正在建设的平台会越来越好,这一点至关重要。因此,技术领先于业界非常重要,获得训练时间也非常重要。为了获得三个月的训练时间优势,我们必须提前三个月完成项目,而提前三个月开始训练,这两者之间的差别就是一切。因此,这就是为什么我们现在像疯了一样建立 Hopper 超级芯片系统,因为下一个重要里程碑阶段就在眼前。」
这基本上是在说我们前面提到的 Midjourney 的问题。Midjourney 在恰当的时间,或者说因为它出现的早,所以它吸引了大量用户,因为当时它是新奇的事物,而现在有很多模型可以生成类似的图像但这并不重要。一旦你学会了使用 Discord 并使用 Midjourney,你就会觉得它不错,并且基本上被锁定在这个平台上了。
Daniel,你之前提到,一旦人们心中有了使用案例,要让他们转变观念就会遇到天文数字般的困难。这基本上就是黄仁勋所说的为什么我们毫不犹豫地预先宣布我们的产品,因为现在有如此多的渴望尽快推出产品的竞争对手,因为如果你的产品稍微好一点,但晚了一个月推出,你就已经输了。
我认为这是一个非常有趣的观察,因为第一,它听起来是正确的,第二,当黄仁勋这么说的时候,我突然对互联网泡沫时代有了切身的理解。回顾当时发生过的事情,现在很容易说,「你怎么能看不到这点呢?」。答案其实是,「不,你能看到它,但你就算看到它,除了投资之外什么都做不了」,你看看微软、谷歌和 Meta 以及所有这些公司。我在 Computex 上与不同的人交谈,这就是结论。就像,「是的,现在可能是一个科技泡沫,但我们别无选择,我们必须继续推进,如果不这样做我会失去工作」。我不知道,也许我们正处于一个科技泡沫中,也许我们不在。对我自己的心智模型的更新是,无论我们现在是否处于科技泡沫中,做出的决定都是一样的。
Nat Friedman:我们显然就是处在一个科技泡沫中,这点毫无疑问。在某些方面像早期的互联网泡沫时期,在其他方面又太不像。但看看这些融资轮次和资金密集度,就知道这一切太疯狂了。
但泡沫对消费者来说并不是坏事,它们对那些在泡沫中亏钱的投资者不利,但对消费者来说却是好事,因为你可以进行大规模的分布式搜索,找出什么是管用有效的,即使是失败的公司也会为其他人留下后来进步的沉积层遗产。
我喜欢举的例子是 Webvan 这家失败的明星公司,这是一家互联网泡沫时期的杂货配送服务公司。因为他们当时没有移动技术,只能自己建立仓库,他们无法派遣拣货员到杂货店,还试图自动化这些仓库。由于当时互联网市场规模太小,他们的需求量不大,网上订购杂货的人不多,所以他们失败了,烧掉了大量资金。你可以把它看作是一次彻底的失败,但 Webvan 一些从事仓库工作的人员后来创办了 Kiva Systems 这家公司,做仓库自动化机器人,后来被亚马逊收购后,制造了数万台仓库机器人。因此,Webvan 的机器人技术遗产推动了亚马逊的仓库运作,而其中一些高管最终负责了亚马逊的生鲜业务,最终他们收购了 Whole Foods(全食超市),所以当年这一切为后来其他人带来了很多进步。
当然,另一个事实是,很多资金被这样烧掉了,许多公司失败了,但技术在前进,用户也在学习,比如当年会在电影预告片末尾放上 URL 链接,人们学会了使用 URL 链接。在这个过程中,总会有一些伟大的公司诞生,尽管总是少数,但确实会发生。
所以,是的,我认为我们显然处于科技泡沫中,但我认为这不是没有道理的。AI 是一场巨大的革命,将会取得令人难以置信的进步,我们应该感谢风险资本,它们慈善般地资助了许多进步,这些进步我们将在未来几十年里慢慢享受。
Ben: 谢谢你们俩。丹尼尔,请你继续。
Daniel Gross: 好吧,除了涉及到我们发起的「AI 识别赫库兰尼姆碳化卷轴」项目的时候,我们可不认为自己是慈善家,Nat 对吧?但我同意 Nat 说的,完全有理由相信我们处在科技泡沫中,许多人会失去一切东西,但同时也会诞生像谷歌和亚马逊这样的历史性公司,我认为这些都会是事实。
有一点我一直不太确定如何看待它,那就是为什么有时市场非常具有前瞻性,有时却完全不是。例如,市场正在传递信息——如果你看看英伟达(Nvidia)的股票价格,并预测和推算未来的收益,你会发现市场对通用人工智能(AGI)非常感兴趣。另一方面,苹果的股价直到发布会后的第二天才有所变动,而在我的世界里唯一有关于苹果的新信息是 Ben Thompson 的文章。
Ben: 我觉得你这样说有点夸张了,但我会接受这个赞誉,当然。苹果股价的「咆哮猫」(Roaring Kitty)是谁?那就是我。
范阳注:"咆哮猫"(Roaring Kitty)是 Keith Gill 的网名绰号,他是一位互联网上知名的金融分析师和散户投资者,通过 YouTube 和 Reddit 等平台分享他的投资观点,尤其是在 GameStop 股票事件中引起了巨大关注。他的深入分析和大胆预测吸引了大量普通投资者的关注,并推动了 GameStop 股票价格的飙升和波动。
Daniel Gross: 但这可比「咆哮猫」要大的多,可能是 10 倍、20 倍的规模。但是,我总是想知道是什么驱动了这些动态发展。
在某些方面,我觉得 AI 几乎过热了,在某些方面我又觉得它明显被低估和定价过低,我不知道市场中的这些错位是什么驱动的。我确实认为在互联网泡沫期间,你有一个电信泡沫(telco bubble),可能有一万亿美金的支出,和资本支出建设等等,问题是显然消费者到来的时间比市场预期的要长一些。我不认为我们这次会有这个问题,因为世界已经完全互联互通了。
范阳注:在互联网早期,上世纪 90 年代末期,互联网和相关技术的快速发展引发了大量投资者对电信基础设施的高度兴趣。大家都预期互联网将会彻底改变通信方式,所以电信公司和投资者大量投资于光纤网络、数据中心和其他电信基础设施。最终,当市场意识到这些投资无法带来预期的回报时,泡沫破裂,许多电信公司破产,投资者遭受巨大损失。这段时期也被称为互联网泡沫(dot-com bubble)的一部分。但是积极的一面是,过量建设的电信基础设施在泡沫破裂后被其他公司以低廉的价格购买并使用,推动了后续的互联网普及和发展。
Ben: 是啊,当苹果推出这个功能时,它会立即送达到十亿人手中。
Daniel Gross: 是的,它就在那里,所以我们总是想知道究竟是什么会导致下一个里程碑阶段,或是繁荣的速度放缓。
Ben: 整个股票市场都将取决于 GPT-5 的模型质量吗?
Daniel Gross:对,有几个事件,我认为他还有一两个非常好的想法可以分享。但显然,下一代前沿系统革命如果只是能力一般般,我认为这可能会引起某种市场暂时放缓,这对一些谨慎下注的投资者来说显然是个好消息,他们会获得更好的入场价。但美国资本主义是一个奇妙的体系,它期望每季度都能得到奇迹,如果没有奇迹发生,它往往会变得非常沮丧和阴郁。所以有可能 GPT-5 只是一个小奇迹,或者其他类似的模型只是一个小奇迹。有可能之后的模型也只是小奇迹,这会导致市场放缓。Nat,你认为还有其他情况会导致暂时放缓吗?至少在目前的狂热方面?
Nat Friedman:我认为有两种情况很关键,我不知道是「和」还是「或」的关系。一种是,基本上模型的能力不会有足够的提升,我们现在正处于两代模型之间。推出新模型、新的大型预训练模型大约需要三年时间,所以我们现在处于 GPT-4 之后、GPT-5 之前的时代,在这段时间里,创新已经转向了后训练(post-training)阶段,我们实际上已经了解到,在后训练阶段可以做很多事情,模型能力可以大大改进。我们已经看到了多模态方面的一些进展,现在我们开始看到一些用户界面上的进展。
好的,另一种情况是,如果模型能力就是无法太大提升,GPT-5 感觉就像是 GPT-4.5 的聊天机器人没什么区别,我认为这至少会让市场减少资本支出投资(CapEx investment)。
范阳注:模型的后训练也称为微调或调优,是在预训练之后的阶段。在这一阶段,模型会在特定的、较小的任务数据集上进行进一步训练,以便针对特定任务进行优化。例如,将预训练好的语言模型在特定领域的数据(如医学文本或法律文档)上进行后训练,使其在该领域表现更好。
Daniel Gross:为什么会这样?什么样的根本限制因素(the fundamental constriction )会导致这种情况发生?
Nat Friedman:嗯,我认为可能是因为三件事情。
第一,我们可能达到了规模扩展的极限。我们希望在对数-对数图(the log-log graph)上画一条直线,但这条线开始弯曲。为什么会弯曲了呢?可能是因为我们无法从更多的数据中提取更多的智能,可能是因为我们用尽了新数据,这些数据已经超出了分布范围,我们无法从每一个 token 中学习到更多东西了。
也有可能是因为在这一前沿领域开展业务的参与者并不够多,而且我们已经多次看到,即使是最优秀的公司也有可能搞砸这些预训练运行,因为它们很难做好。我们知道 OpenAI 也迟迟未能获得他们想要的所有计算资源,我们知道这些集群很难保持运行,我们知道你可能会做出错误的参数选择和架构决策,所以这条线可能会因为前两三家公司各自犯下的错误而弯曲,因此 GPT-5 会让人有点失望。
Ben:这里是否存在这样的角色,比如说,资本支出是 750 亿美元左右,而收入有几十亿美元,而且这些收入没有显示出来?这不是更有可能的情况吗?
Nat Friedman:嗯,这确实是另一种可能会放缓发展的因素。也许模型能力不断提升,但由于某种原因,它们没有转化为应用层的经济价值,所以你有一个应用程序,你是这些超大规模企业之一,会想,「为什么我们要花 1000 亿美元在一个计算集群上,如果我们在这些产品上都不能突破五六十亿美元的收入?」 我也不知道。
我认为一个可以预警的风向标可能是微软 Copilot 的收入。我确信现在有很多公司在采用它,因为他们急于应用 AI。如果他们不喜欢这个产品,而且 Copilot 没有增长,那就很困难了。如果你看看现在谁在人工智能市场上赚钱,Nvidia 在赚钱,CoreWeave 在赚钱,Scale 在赚钱,还有几十家初创公司每年赚超过 5000 万美元,但不是 100 家,至少我不知道有 100 家。所以,是的,我确实认为人工智能的进步必须转化为应用层的收入,但这点怎么发展我们现在还看不太清。因此,我认为这两种情况都可能会减缓投资。我认为 2025 年的资本支出已经是既定的(the 2025 CapEx is just baked in),如果这些大公司取消他们 2025 年的订单,我会非常惊讶。
Ben:那些资金已经流向了台积电。
Nat Friedman:基本上是的,这已经在发生了。我认为问题是 2026 年是怎么样的。如果出现一个小的冬天,可能是暂时性的,可能会有一些发展平坦的时期。
Ben:我想在这一点上插句话。我认为你们关于这只是一个小问题的看法是错误的,如果出现放缓,其影响将非常大。我认为泡沫的含义是,在很多方面,过度修正的幅度会更大。就像 2001-2002 年的科技行业非常低迷,然后我们回顾这段时期时会说,「哦对,所有伟大的公司都是在那个时候建立的」——它们的建立是因为工程师找不到工作,而且他们的工资很低,你可以像谷歌那样买下所有这些黑暗光纤(dark fiber)。这很有趣,因为我认为关于黑暗光纤的一个问题是,它之所以成为如此宝贵的资产,是因为你可以通过更新端点来改进光纤,光纤就是光纤,所以这是一笔巨大的资产。最大的问题是,如果真的出现泡沫,一切都变得一团糟,所有人都破产倒闭了,我也不得不开始付钱给你们来参加我的采访,因为你们需要一份工作。
范阳注:"dark fibers"(黑暗光纤)是指已经铺设好的光纤电缆,但尚未被使用的网络基础设施。谷歌在早期互联网泡沫破灭后购买了大量的黑暗光纤,因为当时因为经济下行,这些光纤的价格很低。后来,谷歌通过更新这些光纤的端点设备,使其可以传输更多的数据,从而将这些未使用的光纤变成了非常有价值的资产。也帮助谷歌以相对低廉的成本建立起强大的网络基础设施。类比于现在的人工智能领域,什么基础设施建设可能相当于当年的「黑暗光纤」资产呢?有可能是大规模算力集群和数据中心,高质量数据集,专用 AI 加速芯片,具身智能机器人硬件技术等等。
Nat Friedman:别担心,Ben,我们俩会没事的。
Ben:(笑)那么这些 GPU 会怎么样呢?理论上,GPU 会逐渐磨损,而且新一代 GPU 的能效提升如此显著,以至于旧的都不值得再运行了。我认为这是一个问题,这些 GPU 到底有多有用?
不过在这个对话中,我突然想到,可能会像曾经「黑暗光纤」那样持续存在并重要的基础设施建设,将发生在台积电(TSMC)和英特尔这一层。我们将迎来大量的尖端制造,因为英特尔正在全力冲刺。TSMC 需要回应他们,回应 Nvidia 的需求,Apple 也基本上表示,「我们将大幅增加我们所获得的大型芯片的数量」。因此,我可以预见一种情景,如果确实有一个泡沫,并且泡沫破裂,GPU 可能确实变得相当无用,也许这是夸大其词,但我们会有大量的尖端晶圆厂,它们的边际成本基本会为零,突然间芯片总体变得相当便宜,而可怜的台积电(TSMC)股东将陷入困境。
Nat Friedman:我对此并不担心,我的意思是我们会找到这些芯片合适的用途。有两种情况:一是,如果你是 Meta,例如,马克·扎克伯格已经公开表示过,他们可以把不用于 AI 的芯片用在 Instagram Reels 上,用于排名和推荐,以及更好的广告等方面。而且有很多传统的机器学习可以利用这些闲置的计算资源,比如我们会有「黑暗张量」(dark tensors)、「黑暗矩阵乘法」(dark matmul, 即 darkmatrix multiplication)或「黑暗浮点运算」(dark FLOPS),我认为这些都会找到好的用途。
另一个情况,科研实验目前受到计算能力的限制,科研的想法比运行它的计算能力要多得多,因此,如果出于某种原因我们减少推理工作,这意味着我们可以做更多的科研工作,我只是相信我们有一些世界上最聪明的人在研究人工智能,这些人的数量从未如此之多,没有人缺乏研究想法,有很多想法需要去探索。因此,我认为即便有一个小的人工智能寒冬,也会带来更多的研究实验机会,我不认为所有研究人员都会失去工作,GPU 也不会闲置。如果 GPU 变得更便宜,且不用于推理或大规模训练,它们就会被用于科研,还有很多东西可以发现。
范阳注:我非常同意以上 Nat 的预见,有关于小团队和学界的研究者对于 GPUs 的需求,可以延伸阅读我的上一篇文章:《旧金山计算公司: 像 Airbnb 一样短租 GPU,算力就像科技行业的「房地产」。》
Ben:正如你前面说的,(和互联网泡沫时期)一个很大的区别是,我们现在有了这些能够立即将新事物传播到全世界的巨型公司,它们也能够承受数十亿美元的损失。虽然它们的股票会因此下跌,但作为实体公司,它们会没事的。
Nat Friedman:是的,它们会没事的。除了小公司之外,没有人在现在对大型科技公司的生死存亡下过赌注,所有这些发现回想起来都是超级简单和显而易见的,我认为这种趋势可能会继续下去,所以我们可能需要进行几年的实验。可以肯定的是,五年后的 AI 会比现在聪明得多、强大得多。从现在到那时的发展曲线的具体形状,没人能确切知道,但我不认为一个小的人工智能冬天对五年后的前景是灾难性的。
Ben:你怎么看,Daniel?我们这边刚刚有了点小争论。
Daniel Gross:假设 H100 系统的价格减半,而且假设现在的头条新闻是大语言模型(LLM),而且就是我们当下所有的一切,而它们并没有那么好。我认为,至少因为它们已经显示出相当大的价值,企业会抢购这些系统,即便只是为了尝试扩大现有技术的规模。因为我们不确定资本支出与智能增加之间的比例,但即使这个比例是我们今天预期的一半,潜在回报仍然是如此之大,我认为那些有现金或有能力举债的人可能还是会继续投入。
再说一次,我认为现在更接近大航海探索时代,而不是互联网泡沫时代,因为你已经有一两艘船从新大陆带回了一些贵重金属。因此,我认为即使有一年没有带回有价值的东西,遇到了不景气,继续探索也是合理的。
我认为,新经济价值上线的速度在斜率方面可能完全是错误的,不仅仅应该有科技夏天和春天,还应该有科技冬天和秋天。有人说事情会变得像 2000 年那么糟糕,我觉得这样的类比有点问题,因为互联网泡沫破裂时的一个问题是当时经济需求需要时间才能转移到线上。不管你在 Fry's 店里发放多少 AOL CD 光盘,你都无法真正加快这个基础速率。而现在,你真正受限的是你能够改进模型的速度,我认为这是可以更好控制的。
Ben: 现在有更多的市场需求。2001 年存在市场需求问题,但今天不存在这个问题。
Daniel Gross: 是的,没错。我们试图创造的是一个生产智能的工厂,市场对智能有明确的需求。我认为现在是一个执行力风险问题,而不是市场风险问题。或许这是区分这两者的一个好方法,所以可能会有些时候人们怀疑「还有没有可能性去执行任何事情呢?」。
顺便说一下,我认为我们可以看到的最暗淡的场景可能是自主驾驶系统作为例子。2011 年,你走在旧金山街头,人们会告诉你,到 2024 年不仅会有自动驾驶汽车,还会有飞行汽车,但显然这些都还没有发生。不过,Waymo 坚持了下来,现在在旧金山确实有完全自动驾驶的汽车。所以我认为这可能会出现一个非常暗淡的结果,但不是一个真正的互联网泡沫寒冬。
Ben: 我前几周和一个华尔街的朋友交谈时,他说他越来越认为模型会成为 ( 没有差异化的)商品,但他最大的疑虑是这种观点正在成为共识。我认为在整个对话中,有一点是关于苹果处于有利位置的——你在开头提到,更看好苹果的原因之一是所有这些领先的模型尚未完全趋同,但大体上处于同一水平线上。
可能对于大语言模型来说这是真的,但还有其他事情正在发生吗?Sora 有什么真正的潜力吗?Q* 有什么不为人知的东西其实比表面看起来更接近?也许我们已经看到了一些证据,比如使用视频来理解真实世界的想法。是否我们再过四五个月再对谈,今天讨论的基本前提就已经过时了,这是一个可能性吗?
Nat Friedman: 是的,我昨天采访了 Sora 的创作者,是在一个活动的舞台上,听到他们的观点非常有趣。我认为我们将 Sora 视为一个媒体制作工具,但这并不是他们的观点,媒体工具只是一个副作用。
他们的观点是,Sora 是一个世界模拟器(a world simulator),实际上可以模拟世界上任何类型的行为,我们甚至可以对它说,「让我们制作一个视频,让 Ben、Daniel 和我来讨论这个问题」,然后看看讨论会走向何方。他们还认为,目前的 Sora 仅达到了 GPT-1 的规模,数据量不大,计算量也不多,因此我们应该期待未来随着他们的简单扩展,Sora 会有绝对显著的改进。
而且还有一点,网络上的视频数据远远多于文本数据。我认为 YouTube 大约有一艾字节的数据,而 Common Crawl 的数据量则小得多,且仅限于文本。另外,我前几天也和安德烈-卡帕奇(Andrej Karpathy)交谈过,他说:「似乎有些奇怪的事情正在眼下发生……」
Ben: 俗话说,一张图片胜过千言万语,因此图片的 tokens 数量是天文数字。
Nat Friedman: 安德烈-卡帕奇(Andrej Karpathy)在探索一个想法,即世界模型和图像及视频模型实际上可能比文本模型更好。你可以向它请求一个汽车引擎的图像,或者一个人在修理化油器的图像,里面的细节水平是惊人的。也许我们在用从 Common Crawl 提取的文本进行训练时犯了错误,我问他最疯狂的研究想法是什么。他说我们应该做的是用网页的图片进行训练。当你向模型提出问题时,它会输出一个包含答案的网页图片,可能我们会从中获得更多的智能和更好的结果。
所以我认为这是未来人工智能研究的路径之一,图像和视频是否是更好、更丰富的信息源?这些模型是否某种程度上更聪明?Q* 是另一个例子,我们能否使用合成数据来生成推理能力?还有测试时计算(test-time compute)。我们已经看到了 Devin 和 Cognition 的智能体代理演示,我认为这些演示非常令人印象深刻,总的来说,似乎有很多前进的路径,所以它们不必全部奏效。如果有一个奏效了,我们就会获得比现在更多的智能。
范阳注:感兴趣的朋友可以搜索最近发表的这篇预印本。
Ben: 我有一个观察。这涉及到我最喜欢的丹尼尔的一个观点,在我们过去进行过的对话里,即文本的根本缺陷在于它是整个思维系列的最终状态,实际上你可以从最终状态中获得的智能水平令人震惊的小,因为在生成输出的整个价值链中,它只是在最顶层,你错过了所有的中间层。
在人的智能背景下思考这一点很有趣,比如你看一个婴儿,你看一个孩子,他们是如何获取知识的。我对研究盲婴或聋婴最感兴趣,他们在构建自己的世界观和世界模型时,如何处理减少的输入信息?是否有一种情况是,我们一开始使用的模型能力较弱,但当我们添加图像和视频时,是否会有一种解锁的效果,而我们一直低估了这种效果,因为我们一直高估了文本的作用?我只是在重复你刚才说的,Nat。
Nat Friedman:是的,丹尼尔在这方面的见地确实走在了前面。我记得在我们第一次对谈中,丹尼尔就提到了这一点,现在这是一个非常活跃的研究领域。我们正在研究如何合成内心独白、思维过程和死胡同(the thinking and the dead ends)以及通向最终答案的思维链,这些答案都编码在互联网上的文本中。
Eric Zelikman(现就职于 xAI)的 Quiet-STaR 论文和 STaR 论文也涉及这一点。我不确定这与 Q* 是否有任何关系,但他基本上是使用当前模型来合成通向正确答案的推理链,然后选择最佳的推理链进行微调。当你这样做时,你会从模型中获得更多的智能。顺便说一句,这也是各个实验室正在花钱进行的一项研究,即「我能否让律师坐下来生成他们推理过程的记录,并将其输入到模型的训练数据中,使模型在法律推理方面变得更好,因为它看到了整个过程,而不仅仅是最终答案。」所以,思维链的概念是一个重要的发现,但在我们的训练数据中,它的应用还不够广泛。
Ben:思考这些的生物学原理真的很有趣。回到关于数据的讨论,丹尼尔,你提到如果我们对输入的数据非常小心,这里有一个类似于人类摄取营养的类比。什么是内在遗传能力与环境影响之间的关系——我们对此几乎不了解。实际上,每天我们都会看到新的研究,揭示我们对人类这一关系的理解程度还非常有限。但如果存在类比并且推理和预测下一个 token 是我们人类经常做的事情,那么我们和机器之间可能存在比预期更多的相似之处。
Daniel Gross:是的,我认为婴儿天生自带一些能力,婴儿可以检测到蛇和蜘蛛的存在。所以总是有一个问题,即知识在多大程度上是通过 DNA 编码获得的,而在多大程度上是通过经验后天学习的。
我认为我们不一定要教语言模型或人工智能学习我们学习的方式,这肯定不是我们人类实现飞行的方式,但有趣的是,当你在 Common Crawl 的文本数据集上训练模型时,它只看到了人类认知的最终层,因此缺少了所有中间步骤。应该有很多方法可以补救这一点,但我认为这可能解释了今天一些语言模型的缺陷原因。
Ben:那只是产品定义的问题。试图重现人类的推理链条其实是徒劳的。我们在等待的突破,人工智能的社交网络「动态信息流时刻(feed moment)」,是以只有 AI 能做到的根本不同的方式来解决问题。这就像「同时处理消息线程、电子邮件线程和 FlightAware 数据,提供有用的东西」。我们陷入的整个概念陷阱是模仿人类思维,实际上我们应该创造一种「外星智能体」,让它以和人类完全不同的形式思考。我们在「网页文章旁边放上广告」的现代版是不是就是在让 AI 试图模仿人类的思维?
Daniel Gross:我完全认为这是可能的。我还认为,也许可以回到我们之前的讨论,如果今天停止所有 AI 的进展,只是尝试用现有的技术来制造有价值的产品,我也认为你可以做到这一点。我并不是说人工智能的进展应该停止,我只是说现有模型的潜在经济价值很大,即使没有更深层次的突破。
Nat Friedman:完全同意。
Daniel Gross:显然,希望人工智能会有更好的突破,模型会变得更容易使用,但你也可以利用今天的模型做出很棒的东西。为什么这种情况没有发生,顺便说一下,尽管这个播客做了最大的努力,我认为这是一个非常深刻且有趣的问题。硅谷整体到底发生了什么,从研究突破(research breakthrough),到 iPhone 这样产品的创新管线是否有些减弱了?我不确定。
Ben:还是说苹果只是继续扮演好他们一直以来的角色,也许这只是一个完整的循环?微软并没有错过移动时代,在 iPhone 问世之前,他们花了将近十年时间尝试打造一款有吸引力的智能手机,直到苹果说,「哦,这才是你真正需要的界面,这才是它的样子」,然后我们就有了接下来 15 年的爆炸性增长,我们仍然生活在其中。
Daniel Gross:是的,但为什么类似 iPhone 时刻如此罕见?是什么潜在的特点解释了这一点?是拥有创意人员的良好组织真的很难做到吗?真的只是「伟人理论」(Great Man Theory)的事情吗?新一代的创始人在做这类事情方面是否和他们的前辈一样优秀?
范阳注:"Great Man Theory"(伟人理论)是一种历史观,认为历史的重大变革主要由具有非凡才能和有远见的个人推动。上面提到为什么苹果公司能推出 iPhone 这样跨时代的产品,可能是因为苹果的由科技创意人士组成的组织结构和团队,但也许就是因为史蒂夫·乔布斯这样的伟大的人物。
我想这是 Stripe 创始人 Patrick Collison 和经济学家 Tyler Cowen 的关于在我们的小世界中衡量进步的想法,但这确实是让我感到非常惊讶的事情,我认为 Nat 可能也感到非常惊讶的是,我们可以坐在这个播客上,想出五个尚未创建的十亿美金公司的创意,但他们确实不知道为什么这些公司还没有被创建。
Nat Friedman: 是的,我也一直在思考这个问题,但我得出的结论是,这需要时间,这确实需要一段时间。
我认为我们看到的第一波 AI 初创公司大多是研究人员,他们不是产品思考者,主要想做好研究本身,模仿 OpenAI 的形式,基本上这就是去创建一个科技公司或者研究实验室,它需要同时具有研究自由度和科技公司的好薪酬。然后我认为我们最近才开始真正吸引到一些最优秀的创业者和产品思考者。他们之前都很忙——那些真正出色的人都很忙。
我认为有这样一种效应,即那些真正优秀的人无论做什么都很顺利,所以他们经常会陷入「局部最优化」的困境,因此可能有很多应该从事这项工作的优秀人才没有从事这项工作,他们在做其他重要而有意义的事情,我想说的是,这种情况似乎正在发生变化。
所以,是的,这就像为什么过去社交网络上的「动态信息流」花了这么长时间才出现。如果你看看 Tim Berners-Lee 最初的网络设计,它实际上有一些 Web 2.0 的特征了,它有生成的网页内容,但却花了很多年才得以在互联网上广泛应用。所以,虽然我不想这么说,但我想我们需要耐心。
Tim Berners-Lee 最初的万维网构想。
Ben: 这就是这个时代的主题,耐心。大家都需要耐心等待我们再次展开讨论。虽然感觉间隔时间会很长,但实际会比你想象中快发生。
Daniel Gross: 是的,这又回到了科技泡沫的问题,在我看来,如果你看看以前一些最大的宏观经济变化的历史,以及那些「成功交易了这些变化」的人,你很容易就会高估地球上的进步速度,而不是凭自己脑中的进展速度。所以我认为,时机可能是所有事情中最重要的。
即使我们运营的是十年时限的投资基金,时机依然是关键。最初的几批移动互联网应用其实并不那么出色,我认为花了大约三到四年的时间才有了 Uber 和 Instacart 这样的产品。
显然,互联网泡沫时期的最初几个季度看起来情况不错,然后情况就变得不太好了,我猜这次也会是一样的情况。也许这是一个古老的问题,人们在发明算盘之后,就在思考,「为什么人们还不用算盘?我们刚刚发明了三角函数,为什么我们在埃及的耕作技术还没有变得更好?」我不知道,这很可能是一个古老的争论。但我们的工作是既有正确的想法,也有正确的时间视野来进行投资。
Nat Friedman: Ben 和我年纪比较大,所以我们都经历过在机场需要自己手提行李的时代。突然某个时候有人提出来,「为什么我们不把轮子装在这些行李箱上?」轮子早就存在了,我们也有溜冰鞋,有滑板,但不知为何,没有人想到这一点把这些东西组合在一起。
范阳注:1969 年登月,1972 年第一个把轮子放在行李箱上的专利设计,1991 年才有了现在我们习以为常的滚轮拉杆行李箱。现在回头看觉得很简单的技术组合创新,行李箱其实迭代了快 100 年才找到了大众真正想要的「product market fit " ( 产品市场契合)。我好奇的一点,如果在 1960 年代让 NASA 的工程师设计一个方便大众旅行,也节省体力的行李箱,什么样的方案会胜出?
Ben: 这既令人鼓舞又有点让人沮丧,的确。
Nat Friedman: 是啊,我们在等待 AI 的「带轮行李箱」。
文章来源于“Founder Park ”
【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。
项目地址:https://github.com/Significant-Gravitas/AutoGPT
【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md
【免费】ffa.chat是一个完全免费的GPT-4o镜像站点,无需魔法付费,即可无限制使用GPT-4o等多个海外模型产品。
在线使用:https://ffa.chat/
【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台,可以对大语言模型(LLM)和多模态图文模型(VLM)进行预训练和轻量级微调。XTuner 支持多种微调算法,如 QLoRA、LoRA 和全量参数微调。
项目地址:https://github.com/InternLM/xtuner