Andrej Karpathy：AI革命，从自动驾驶到教育重塑

3900点击 2024-09-09 10:29

核心观点

自动驾驶技术的现状和发展

自动驾驶技术的成熟速度被监管限制和实际应用问题拖慢，虽然技术本身早已准备好，但从演示到广泛应用之间存在显著的差距。
这种现象与实现通用人工智能（AGI）时的情况类似：尽管技术上可能已经到位，但其全球普及和实际影响仍需时间。

特斯拉和Waymo在自动驾驶领域的对比
特斯拉在自动驾驶技术上领先于Waymo，因为特斯拉主要面临的是软件问题，而Waymo则面临硬件问题。
特斯拉通过大规模部署和不断改进其软件，尤其是采用端到端的深度学习系统，显示出显著进步。
尽管Waymo目前在某些方面表现出色，但长期来看，特斯拉在软件和系统架构上的优势预计将使其在规模和收入方面取得更大的成功。
此外，特斯拉的技术和方法论在汽车和人形机器人领域具有高度的可转移性，这表明机器人技术的发展可以从汽车技术中受益。

人形机器人技术及其应用
人形机器人的首批应用应集中在工业领域，如特斯拉工厂的物料搬运，而非家务，因为当前技术尚不成熟，法律风险较高。
之后，机器人将进入企业对企业市场，如仓库和重工业。
虽然家用机器人未来会出现，但会在经历工业应用的孵化后才实现。
构建通用人形机器人平台比专用机器人更具优势，因为人形设计能够通过迁移学习处理多任务，并且人形外观有助于与人类的互动。
尽管有更低成本的替代方案，如机械臂加轮子，但从长远来看，人形机器人由于其普适性和熟悉性，更具发展潜力。

大型语言模型(LLM)的发展和未来
大型模型研究已经进入一个关键阶段，Transformer架构的创新（如残差连接、层归一化和注意力机制）使其成为极其通用的计算结构，能够有效扩展并处理各种任务。
当前的瓶颈主要在于数据集和损失函数的创新，而非模型架构本身。
互联网数据虽然有用，但仍不足以全面满足训练需求，因此重构数据集和生成合成数据成为研究重点。
合成数据对模型进步至关重要，但必须注意保持数据的多样性和高熵，以避免模型崩溃。
尽管人工系统和人脑存在根本差异，Transformer在某些任务上，如序列记忆，可能比人脑更高效，但整体认知能力仍未超越人类。

AI作为人类的"外部皮层"
AI系统对人类能力的增强是可能的，并且这种增强已经在某种程度上实现。
当前的挑战在于减少与工具使用之间的输入/输出瓶颈，使AI像外部皮层一样无缝地集成到大脑功能中。
随着技术的进步，人们可能会越来越依赖这些工具，甚至在没有它们时感觉缺失。
未来，智能设备和AI可能会成为人脑的延续，提供类似外部存储和处理能力的功能，但这也带来数据控制和隐私的挑战。
开源解决方案的进步对于保持技术的开放性和多样性至关重要。

AI模型的规模和性能
小型模型在理论上可以非常精简，1亿参数可能足以实现有效的认知核心，因为当前模型中大量容量用于处理无关信息。
通过蒸馏技术，可以将大模型的能力压缩到小模型中。
认知能力的实现并不需要极大规模的参数，而是通过并行化和专门化的角色组合来优化效率，这类似于公司中的层级结构。
未来，小型模型可能在本地设备上实现认知功能，而不是依赖于庞大的云计算资源。

AI在教育领域的应用
教育工作不仅是对教学的热爱，也关乎在AI领域推动人类赋能而非取代。
未来的教育可能依赖AI来扩展教学资源，AI助教可以提供个性化教学和跨语言支持，实现全球化的优质教育。
AI的潜力在于能为个人提供更符合其背景和能力的学习资源，而不仅仅是覆盖范围的扩展。
AI教育的目标是打破传统的“血统”限制，让更多人平等获取学习机会，同时也需要关注文化环境对教育的影响。

学习文化和激励机制
目标是使学习变得更简单，同时提升其内在激励。
教育不仅要促进实际技能和经济进步，还应鼓励人们在精神和认知层面上不断成长。
学习应像健身一样，需要努力，但这努力应该是有意义的。
在AGI出现后的社会中，期望教育能成为一种高度重视的、类似于锻炼的活动，让人们在精神上得到提升。

Andrej Karpathy正在开发的AI教育课程(Eureka)
首个课程主要面向本科水平的技术人员，但也适合任何年龄段的有兴趣者。
课程旨在适应技术迅速发展的环境，使人们能更频繁地回到学习状态。
对于未来的教育，推荐重点学习数学、物理和计算机科学，以培养解决问题的思维能力。
这些学科为人们提供了强大的思维基础，并在AGI出现之前和之后都非常重要。
虽然学习的多样性很重要，但建议将大部分精力集中在这些核心领域。

Andrej Karpathy：AI革命，从自动驾驶到教育重塑

节目：No Priors

时间：2024年9月5日

主持人：

Elad Gil，投资人
Sarah Guo，Conviction创始合伙人

嘉宾：

Andrej Karpathy，Eureka Labs

-----

自动驾驶技术的现状和发展

Sarah Guo

您曾主导特斯拉自动驾驶项目,目前市面上已有全自动驾驶乘用车投入使用。请问您如何看待当前自动驾驶技术的发展状况?您预计何时能看到技术的进一步突破以及在乘用车领域的更广泛应用?

Andrej Karpathy

我在自动驾驶领域工作了大约五年,发现这是一个非常引人入胜的领域。目前该领域的发展令人瞩目。我经常将自动驾驶与通用人工智能(AGI)进行类比,也许是因为我对前者更为熟悉,但我感觉我们在自动驾驶方面已经触及到了AGI的某些特征。

现在已经有一些系统可供付费客户使用。例如,在旧金山,Waymo的服务已经相当普及。您可能也体验过Waymo,我也多次使用过,体验非常出色。它可以将你送达很多地方,而且是一项付费服务。

有趣的是,我第一次体验Waymo是在十年前,大约是2014年。当时我的一位在那里工作的朋友为我做了一次演示,带我兜了一圈。十年前,那次演示几乎是完美的。然而,从那次演示到现在成为一个我可以付费使用的产品,并在整个城市范围内推广,整整花了十年时间。

Elad Gil

您认为这个过程中,有多少是受到监管因素的影响,又有多少是技术因素造成的?您认为技术在什么时候已经成熟到可以应用的程度?

Andrej Karpathy

我认为技术早就已经准备就绪了。但是在30分钟的演示中,你无法看到全貌。你看不到他们在这十年间必须解决的所有问题。所以,从演示到产品之间存在着巨大的差距。我认为其中很大一部分原因也来自监管等方面的制约。但我确实认为,从某种程度上说,我们在自动驾驶领域已经实现了人工智能。

真正有趣的是,全球化进程并没有如预期那样快速展开。你有一个演示,你可以在特定地点使用,但世界并没有因此而改变。这个过程将需要很长时间。因此,从演示到真正的全球化之间存在着巨大的鸿沟。这就是为什么我将其与AGI联系在一起的原因——我推测当我们实现AGI时,也会看到类似的情况。你会拥有它,但随后需要时间来推广并产生广泛的影响。

特斯拉和Waymo在自动驾驶领域的对比

Andrej Karpathy

在自动驾驶领域工作一段时间后,我发现很多人认为Waymo领先于特斯拉。但就我个人而言,我认为特斯拉领先于Waymo。我知道表面上看起来并非如此,但我仍然对特斯拉及其自动驾驶项目抱有很高的期望。我认为特斯拉面临的主要是软件问题,而Waymo面临的是硬件问题。我相信软件问题更容易解决。特斯拉已经在全球范围内大规模部署了这些汽车,而Waymo还需要做到这一点。

因此,一旦特斯拉达到实际部署并且可靠运行的程度,我认为这将是令人惊叹的。最新版本——我昨天刚试驾过——他们做了显著的改进。现在它可以带我到很多地方。我可以说他们最近取得了巨大的进展。

Elad Gil

是的,你最近使用得很频繁,实际上它的表现相当不错。

Andrej Karpathy

确实如此,它昨天为我展示了一些令人惊叹的驾驶技能。我对团队的工作印象深刻。因此,我仍然认为特斯拉主要面临的是软件问题,而Waymo主要面临的是硬件问题。我认为从目前来看,Waymo似乎占据优势,但我相信当我们展望十年后,看看谁在规模上做得最好,以及大部分收入来自哪里,我仍然认为特斯拉在这方面会领先。

Elad Gil

你认为我们还需要多长时间才能解决软件问题并达到某种同等水平?因为显然,如你所说,Waymo的汽车内置了大量非常昂贵的激光雷达和其他传感器来支持软件系统。特斯拉的方式是仅使用摄像头,这意味着你可以消除巨大的成本和复杂性,并将其应用于多种不同类型的汽车。你认为这种转变何时会发生?

Andrej Karpathy

我的意思是,在未来几年内,我希望能看到这样的进展。但真正有趣的是,我不确定人们是否意识到特斯拉实际上确实使用了很多昂贵的传感器——只是他们在训练阶段使用它们。他们有一些配备激光雷达和额外传感器的汽车在行驶。他们进行地图绘制和其他不具备规模化优势的工作,但这些都是在训练阶段进行的。然后,他们将这些数据提炼成一个在测试阶段使用的软件包,这个包仅依赖视觉信息。这就像是在传感器和成本之间进行一种权衡。

我认为这是一个非常聪明的策略,尚未被充分理解,我相信它会取得好的结果,因为像素中包含了丰富的信息。神经网络将能够利用这些信息。是的,这些传感器在训练阶段非常有用,但我不认为它们在测试阶段那么重要。

Elad Gil

我感觉你没有——看起来发生的另一个变化或转变就是从处理大量边缘案例、采用确定性方法转向更多的端到端深度学习。这是最近发生的另一个变化。你想谈谈这个吗?

Andrej Karpathy

是的,我认为从一开始,特斯拉的计划就是这样。我之前提到过,神经网络可以"贯穿整个系统架构"。当我加入时,有大量的C++代码,而现在在汽车中运行的测试阶段软件包中,C++代码大大减少了。后端仍然有很多内容,但神经网络正在逐步接管整个系统。首先,它在图像级别进行检测,然后利用多个图像进行预测。接着,多个图像随时间变化提供更精确的预测,你正在逐渐淘汰C++代码。最终,你只需给出转向命令。

所以,我认为特斯拉正在逐步接管整个系统架构。据我了解,竞争对手的当前系统,比如Waymo,并没有完全做到这一点。他们尝试过,但根据我的了解,他们没有完全实现端到端的方法,虽然我不能确定,因为他们不太谈论这方面的情况。但我确实从根本上相信这种方法。

我认为这是最后一个需要解决的问题,如果你想这样看的话。我估计大约十年后,特斯拉的端到端系统将完全是一个神经网络。视频流输入到神经网络中,直接输出控制命令。你必须逐步建立起来,逐步实现。所有的中间预测和我们迄今为止所做的工作并非是无用的;我认为它们是整个过程的必要部分。

在驾驶中,当你模仿人类驾驶员时,你用于训练一个庞大神经网络的监督信息非常有限。信号太少,无法训练如此多的参数。这些中间表示帮助你开发特征和探测器,使得端到端部分的问题更容易解决。所以,我推测,虽然我不能确定,因为我现在不在团队中,但我认为有大量的预训练工作,然后是端到端控制的微调。

基本上,我觉得逐步解决是必要的,这也是特斯拉所采取的方法。我认为这是正确的路径,而且看起来确实在奏效。

Sarah Guo

如果你从一开始就采用端到端的方法,你也没有数据,这样就说得通了。在你离开之前,你还参与了特斯拉的人形机器人开发。我有很多问题,但我们从这里开始——从汽车到人形机器人有哪些技术可以转移?

Andrej Karpathy

基本上,几乎所有技术都是可以转移的,我认为人们并没有充分认识到这一点。汽车本质上就是机器人,而特斯拉并不仅仅是一个汽车公司——它是一家机器人公司。实际上,是一家大规模的机器人公司。"大规模"这一点也是一个完全不同的维度。他们不仅仅是在制造单一产品;他们还在制造用于生产这些产品的机器,这涉及到一种完全不同层次的复杂性。

在汽车到人形机器人的技术转移方面,几乎不需要做太多额外工作。事实上,早期的Optimus——也就是那个机器人——甚至认为自己是汽车,因为它使用了完全相同的计算机和摄像头。这真的很有意思,因为我们在机器人上运行了汽车的神经网络,但它却在办公室里走来走去。它试图识别可驾驶的空间,但现在这只是步行空间。经过一些微调,它的泛化效果令人惊讶。

Sarah Guo

是否可以将这理解为"这本质上是一个机器人,许多技术是可以转移的,但你只是缺少像执行和动作数据这样的特定内容"?

Andrej Karpathy

是的,你确实会缺少一些组件。但有很多技术是可以直接转移的。Optimus的开发速度令人印象深刻。正如Elon所说的,"我们在做这件事",人们带来了所有合适的工具。CAD模型和供应链相关的内容迅速整合起来。特斯拉在机器人技术方面有丰富的内部专业知识,这些工具和他们用于汽车的工具是一样的,只是重新配置了一下。这就像变形金刚电影——一切都在重新排列,但都是相同的组件,硬件方面的思考方式和"大脑"都是一样的。

对于"大脑"部分,也有大量的技术可以转移。不仅仅是具体的神经网络,还有方法论、标注团队以及整个协调工作的方式。可以转移的内容非常多。

人形机器人技术及其应用

Elad Gil

您认为人形机器人或人形机器人技术的首个应用领域会是什么?

Andrej Karpathy

很多人设想机器人会做家务,比如洗衣服,但我认为这将是后期的应用。我不认为面向消费者(B2C)是合适的起点。我们不能冒险让机器人可能不小心伤到老年人——那样的法律责任太大了。这些技术还不够完善,需要进一步改进。我认为最佳的首批用户是特斯拉自身,特斯拉很可能会在自己的工厂中使用这些机器人进行物料搬运等工作。这样就不涉及合同或第三方,一切都在内部进行。

之后,我认为企业对企业(B2B)市场将是下一步,机器人将被部署在仓库或重工业领域,在这些地方可以签订合同,设置安全围栏,更严格地控制环境。一旦机器人在这些领域证明了自己的价值,面向消费者的应用就会随之而来。到那时,我们将看到家用机器人,但这会在经过大量工业应用的孵化之后才会实现。

我特别期待的一个任务是落叶清扫挑战。我希望Optimus机器人能在街道上行走,安静地捡起落叶,这样我们就不需要使用噪音大的吹叶机了。我认为这是可行的——这是一个很棒的任务,我希望它能成为现实世界中的首批应用之一。即使是安静地耙落叶也很不错。

Sarah Guo

实际上已经有专门的落叶清扫机器了,只是不是人形的。不过,我们可以讨论一下人形机器人的理论吗?最简单的观点是,世界是为人类建造的,所以你构建一个人形机器人来处理为人类形态设计的任务。但也有另一种观点认为,人类并不是为每个任务都优化的——为什么不根据不同任务来制造更强、更大或更小的专用机器人呢?您如何看待这个问题?

Andrej Karpathy

我认为人们低估了构建任何专业化平台的复杂性和固定成本。创建任何新的机器人形态都有较大的前期投入,将这些成本集中在一个可以完成多种任务的平台上是合理的。

人形设计有几个吸引人的原因。其中之一是远程操作——人们可以轻松地控制和指导它,这有助于数据收集和系统改进。当然,还有一个原因是世界本来就是为人类建造的。因此,虽然我们可能会看到一些形态的变化,但我认为坚持人形平台是有意义的,尤其是因为它可以在不同任务之间受益于迁移学习。

在AI领域,你希望有一个能够多任务处理并从多种活动中学习的神经网络——这正是智能的来源。这也是为什么语言模型如此有趣的原因。它们在文本领域中的不同问题之间进行多任务处理,分享知识并从彼此中受益。机器人技术也是如此——你希望有一个平台,其中一个任务的数据(如捡落叶)可以对其他任务产生益处。

Sarah Guo

这很有道理。但有一种观点认为,在特定的物料清单(BOM)成本下,构建一个非常有能力的人形机器人似乎很困难。难道不能以更低的成本实现类似的功能,比如把一个机械臂安装在轮子上?这种想法对你来说合理吗?

Andrej Karpathy

是的,这种想法确实有道理——你可以把一个机器人手臂安装在轮子上而不是脚上。但我怀疑这种方法是否会让你陷入局部最优解。我认为选择一个统一的平台并不断完善它从长远来看是更好的选择。人形机器人还有一个熟悉性因素。人们会更容易理解它们,甚至可能会想与它们交谈。拥有一个人形外观在心理上可能是有益的,除非人们对它感到恐惧。

Elad Gil

这很有趣,因为另一种形态因素,比如Unitree的机器人,是仿狗设计的。它似乎更容易让人感到熟悉或友好。

Andrej Karpathy

是的,但人们看了《黑镜》之后,突然狗形机器人就变成了令人恐惧的东西。很难预测人们的反应。我只是觉得从心理学角度来说,人们更容易理解人形机器人的行为和意图。

Elad Gil

你认为在技术里程碑方面还有什么缺失,以推动机器人技术、人形机器人或任何其他形态机器人的未来发展?

Andrej Karpathy

我不确定我是否对这个问题有全面的认识。我确实觉得有趣的是,例如,在人形因素方面,尤其是下半身,我不确定是否应该通过示范来进行模仿学习,因为对于下半身,涉及到很多倒立摆控制等问题。对上半身来说,需要更多的远程操作、数据收集和端到端训练等。在这个意义上,一切都变得非常混合,我不确定这些系统如何相互作用。

Elad Gil

当我和从事这个领域的人交谈时,他们大多关注于执行、操控、数字化操作等方面。

Andrej Karpathy

是的,我确实预计最初会有大量的远程操作来推动进展,模拟操作,并实现95%的有效工作。之后,你会开始讨论人机比例,逐步让人们监督机器人,而不是直接执行任务。这一切都将随着时间的推移而逐渐发生。我认为没有特别突出的技术障碍。这只是需要大量的基础工作。很多工具都是现成的。Transformer模型是一个可以执行任意任务的优秀结构,但你需要将数据整理成合适的形式,需要训练、实验、部署和迭代。这些都是大量的基础工作。我认为没有单一的技术瓶颈在阻碍我们的进展。

大型语言模型(LLM)的发展和未来

Sarah Guo

我们目前在大型模型研究方面处于什么状态?

Andrej Karpathy

我们处于一个非常好的状态。我不确定这一点是否被充分认识到,但Transformer模型比人们可能意识到的要惊人得多。它不仅仅是另一种神经网络——它是一个极其通用的神经网络架构。例如,当人们谈论神经网络中的扩展法则时,这些扩展法则在很大程度上是Transformer模型的特性。在Transformer出现之前,人们主要使用LSTM,堆叠它们等等,但你无法得到清晰的扩展法则。Transformer是第一个各方面都能扩展的架构。它是一个通用的训练机器。我将其视为一个可微分的计算机,可以接收输入和输出,通过反向传播来调整自身以执行任务。这是我们在算法空间中偶然发现的神奇结构。几个关键的创新融入其中——残差连接、层归一化、注意力机制,以及去除了像tanh这样的饱和非线性(这些非线性会破坏梯度信号)。这些创新都汇聚在一起,突然间,我们获得了扩展法则,使得我们能够有效地训练大型模型。这是一个重要的突破。

Sarah Guo

你觉得我们是否接近了这个突破的极限?有讨论提到遇到数据瓶颈,以及进一步扩展的成本将变得非常高。你怎么看待这个问题?

Andrej Karpathy

我认为神经网络架构不再是瓶颈了。在Transformer之前,它确实是瓶颈,但现在不是了。现在,更多的是关于损失函数和数据集,这些已经成为瓶颈。Transformer是一个可以根据任务重新配置的通用计算结构。因此,现在的重点是创新数据集和损失函数。这是目前研究的主要方向。使用这些技术的公司并没有在Transformer架构本身上进行太多创新。例如,随着Llama的发布,我们可以看到Transformer在过去五年里变化不大,除了引入了基于位置的相对编码。现在的主要创新是围绕数据和损失函数,而不是架构本身。

Sarah Guo

关于这种观点,即在使用互联网数据时较为简单,但现在我们数据资源枯竭,因此重点转向合成数据或更昂贵的数据收集,你怎么看?

Andrej Karpathy

这是一个很好的观点。当前大型模型的许多研究都集中在创建更好的数据集上。互联网数据并不完全符合训练Transformer所需要的数据类型。它更像是一种最近邻检索,虽然非常有用,但并不完美。互联网数据主要是网页,而你真正需要的是人类解决问题的内部思维过程。如果我们有数十亿这样的数据,我们就接近通用人工智能(AGI)了。因此,目前的大部分工作都集中在将数据集重构为更好地捕捉内部独白和思维轨迹的格式上。合成数据生成在这里发挥了重要作用。有趣的是,当前的模型正在帮助我们创建下一代模型。这是一种迭代改进的过程。

Elad Gil

你认为合成数据能对我们帮助多大?正如你所说,每个模型都帮助训练下一代模型。合成数据似乎是其中的重要组成部分。你认为它的重要性如何?

Andrej Karpathy

我认为合成数据对取得进展至关重要。然而,我们需要谨慎,因为模型可能会悄然崩溃。例如,如果你让ChatGPT讲笑话,它通常会重复相同的笑话,或者最多是一小部分笑话。这是模型崩溃的一个迹象。你在单个输出中可能不会注意到这一点,但当你查看整体分布时,多样性就消失了。在生成合成数据时,你希望数据集具有高熵和多样性。否则,你可能会导致模型行为崩溃。也有一些技术可以避免这种情况。例如,有人发布了一个"Persona"数据集,其中包含10亿个虚构的人物背景。你可以指导模型不仅完成任务,还要像向特定人物解释任务一样,这样可以给过程注入更多的多样性。保持熵是至关重要的,这也是人们可能没有充分认识到的困难部分。但合成数据是未来,我认为我们不会遇到数据枯竭——我们只需要小心如何生成这些数据。

Sarah Guo

从这些研究中,我们现在对人类认知有什么新的了解?有人可能会说,弄清楚推理痕迹的形状有助于我们更好地理解大脑。

Andrej Karpathy

我会对这些类比持谨慎态度。虽然存在一些相似之处,但重要的是要记住人工系统和人类大脑在根本上是不同的。然而,确实可以找到一些类比。例如,我认为Transformer在某些方面比人脑更优秀——在某些方面更高效。它们现在没有像大脑那样工作的主要原因主要是数据问题。Transformer可以比人类更好地记忆序列。如果你向Transformer展示一个序列,它可以在经过一次传递后几乎完美地记住并重现这个序列。人类做不到这一点。在某些领域,如序列记忆,Transformer可能比人脑更高效,这得益于基于梯度的优化。这些模型可能最终在认知任务中超越人类,前提是有合适的输入。

Sarah Guo

所以在有了正确的输入后,它们实际上可能会比人类认知更好?

Elad Gil

这在许多应用中对计算机来说一般是对的,对吧?特别是在记忆方面,正如你所指出的。

Andrej Karpathy

是的,确实如此,我认为人脑确实有很多限制。工作记忆非常小。我认为Transformer有更大的工作记忆,这种情况将会继续。它们是更高效的学习者。人脑在各种限制下运作;很明显,人脑并没有做反向传播,对吧?反向传播是如何在大脑中工作的并不明确。它是一个非常随机、动态的系统,存在许多限制——环境条件等等。因此,我确实认为我们所拥有的AI实际上可能在潜力上优于人脑,只是现在还没有达到这个水平。

AI作为人类的"外部皮层"

Elad Gil

随着时间推移,你如何看待不同AI系统对人类能力增强的影响?你认为这是一个可能的方向,还是不太可能?我指的是AI模型对人类能力的增强。

Andrej Karpathy

当然,不过具体以什么方式呢?总的来说,这绝对是可能的,因为...

Elad Gil

我指的是两个层面——一个是抽象的版本,把AI作为外部工具使用;另一个是"融合"场景,这是很多人讨论的情况。

Andrej Karpathy

是的,我的意思是,我们在某种程度上已经实现了融合。问题在于存在输入/输出瓶颈。但在大多数情况下,如果你掌握了这些模型,你就会...

Elad Gil

这有点不同,因为人们已经争论了40、50年——技术工具只是人类能力的延伸,对吧?

Andrej Karpathy

是的,计算机就像是人类思维的自行车。

Elad Gil

没错。但AI领域有一部分人认为,例如,我们在与未来AI的潜在冲突中可能会通过某种形式来解决...

Andrej Karpathy

是的,比如Neuralink的提议等等。确实如此。我不确定这种融合会是什么样子,但我肯定看到我们希望减少与工具使用之间的输入/输出障碍。我将这视为一个外部皮层,建立在我们的大脑新皮层之上。这只是下一层,结果可能存储在云端等地方,但它实际上是大脑的下一层。

Elad Gil

是的,在2000年代初的《加速时代》这本书中,有一个设想基本上是所有东西都体现在一副连接到你大脑的计算机眼镜中。你戴上它们,如果你丢失它们,你会感觉像失去了部分个性或记忆。

Andrej Karpathy

我认为这非常可能发生。今天,智能手机几乎就是这样。我觉得这种情况会变得更加明显——当你把这些技术设备放在一边时,你就只剩下一个赤裸的自然人。

Elad Gil

一个简单的例子就是地图。现在我注意到很多人实际上已经无法很好地在他们的城市中导航,因为他们总是依赖逐步指引。

Andrej Karpathy

比如,我认为通用翻译器离我们不远了——如果你把这些设备放在一边,你可能会失去与不讲英语的人交谈的能力。

Sarah Guo

我很乐意将我大脑中的那部分空间用于进一步的研究。

Andrej Karpathy

不知道你是否看过那个小孩试图滑动纸质杂志的视频。令我着迷的是,这个小孩分不清什么是自然的,什么是建立在自然之上的技术,因为技术变得如此透明。我认为未来可能会出现类似的情况——人们会开始习惯工具的存在,当你拿走这些工具时,他们会意识到他们不知道什么是技术,什么不是。如果你穿戴着某种始终在翻译或为你执行任务的设备,人们可能会失去一些基本的认知能力。比如,"怎么回事,我现在听不懂讲西班牙语的人了?"或者像迪士尼那样,所有物体都是活的——我认为我们可能会来到一个我们可以和物体对话的世界。今天,你已经可以和Alexa对话并请求它做事了。

Elad Gil

是的,我见过一些玩具公司在玩具中嵌入了大型语言模型,以便与孩子互动。

Andrej Karpathy

是的,奇怪的是,当你走到门前时,你不能直接说"开门"?这是怎么回事?另一个例子——不知道你是否看过《毁灭战士》或《我,机器人》——人们嘲笑不能直接和物体对话的想法。这怎么可能?

Sarah Guo

如果我们讨论外部皮层,那么使其普及获取似乎是一个根本重要的事情。你认为目前LLM研究市场的结构——少数大型实验室主导下一代训练——如何转化为未来人们可以获得的资源?

Andrej Karpathy

你提到的有点像生态系统的现状,对吧?我们有几个封闭平台的寡头垄断,然后有一个稍微落后的开放平台——比如Meta的LLaMA等。这种情况与开源生态系统有些相似。我确实认为,当我们开始把它视为外部皮层时,有句话在加密领域说得好:"不掌握密钥,就不掌握代币。"这是否意味着,如果不是你的权重,就不是你的大脑?

Elad Gil

这很有意思,因为公司实际上是在控制你的外部皮层,从而控制了你的一部分。

Andrej Karpathy

如果这是我的外部皮层,它开始感觉有些侵入性了。

Sarah Guo

我认为人们会更加关注所有权——是的。就像,你...

Andrej Karpathy

是的,你意识到你在租用你的大脑。租用大脑似乎很奇怪。

Sarah Guo

这个思想实验是:你是否愿意放弃所有权和控制权来租用一个更好的大脑?因为我愿意。

Andrej Karpathy

我认为这就是一个权衡。我们将看看情况如何发展,但也许默认使用封闭版本是可能的,因为它们非常出色,但在各种情况下也要有备用选择。我认为现在的情况就是这样。例如,当某些封闭源提供商的API出现问题时,人们开始实现对完全控制的开源生态系统的备份,他们因此感到有力量,对吧?所以,也许这只是大脑将要经历的延续——如果发生任何意外情况,你可以依靠开源的解决方案,但大多数时候,你实际上...

Sarah Guo

所以,开源解决方案继续进步是非常重要的。

Andrej Karpathy

我认为是的,百分之百同意。这不是一个显而易见的观点,或者说人们目前并不一定都同意,但我百分之百支持这个观点。

AI模型的规模和性能

Elad Gil

我一直在思考一个问题:最小规模的模型能达到什么水平?无论从参数量还是其他角度来看。你对蒸馏和小型模型有很多见解,我很想听听你的观点。

Andrej Karpathy

我认为它可以非常小。目前的模型在记忆一些无关紧要的信息上浪费了大量容量,比如SHA哈希值、古老的...

Sarah Guo

这是因为数据集的整理方式不够理想。

Andrej Karpathy

没错。我认为这种情况会消失。我们只需要达到认知核心,而认知核心可能非常小。它只需要具备思考能力,并且知道如何使用不同工具来查找信息。

Sarah Guo

那大约需要30亿参数?20亿参数?

Andrej Karpathy

我认为1亿参数就足够了。我们可能会达到那个规模。模型可以非常小,因为从本质上说,蒸馏是非常有效的。蒸馏的效果令人惊叹。它通过使用一个超大模型或大量计算资源来指导一个极小的模型,能够将大量能力压缩到这个小模型中。

Elad Gil

是否存在某种数学表达?一些信息理论的公式?感觉你现在应该能够计算出...

Andrej Karpathy

也许可以这样考虑:回到我们使用的互联网数据集,互联网中99.99%是纯粹的信息,只有0.001%是认知。大部分内容对思考过程并没有帮助...

Elad Gil

我想换个角度问:是否有描述认知能力与模型规模关系的数学表达?如何在实现目标的前提下,从最小或最大规模的角度来衡量认知能力?

Andrej Karpathy

可能没有很好的方式来表示这一点。但我认为1亿参数可能就足以提供一个不错的认知核心。甚至1亿可能都太多了 - 我不太确定。

Sarah Guo

我们拭目以待。考虑到边缘设备与云计算的问题,这确实令人兴奋。

Elad Gil

还有使用模型的基础成本等因素。是的,非常令人期待。

Sarah Guo

没错,如果参数少于1亿,我甚至可以在本地设备上拥有自己的外部皮层。

Andrej Karpathy

是的,而且可能不是单一模型,对吧?考虑这些实际情况很有意思。我认为需要利用并行化 - 你不会希望是一个顺序过程,而是并行过程。公司在某种程度上也是工作并行化的。但由于信息处理和组织内部需要进行简化,公司中存在层级结构。因此,我们可能会得到针对各种领域的专门模型,比如程序员等。这在很大程度上会类似于公司 - 你会有程序员、项目经理以及类似的LLM角色,它们并行工作,为你协调计算。所以,也许将其视为单一模型并不准确 - 更像是一个群体。

Elad Gil

就像一个生态系统,类似生物生态系统,其中有专业化的角色和生态位。

Andrej Karpathy

我认为它会开始呈现这种形态。

Sarah Guo

你可以根据问题的难度和专业程度自动升级到群体的其他部分。

Andrej Karpathy

CEO就像一个非常智能的云端模型,但普通员工可能便宜得多 - 甚至可能是开源模型等。

Sarah Guo

而且我的成本函数与你的不同。

Andrej Karpathy

是的,这可能很有意思。

AI在教育领域的应用

Sarah Guo

你离开了OpenAI,现在在从事教育工作。你一直都是一位教育者 - 为什么选择这条路?

Andrej Karpathy

首先,我一直是一名教育者,我热爱学习,也热爱教学。所以,这实际上是我长期以来非常热衷的领域。另一方面,推动我的是一种宏观视角:AI领域有很多活动,我认为大多数是为了替代或取代人 - 可以说是将人从主流中挤出。但我一直更感兴趣的是能够赋能于人的事物。从更高层面来看,我站在人类这一边。我关注的是AI如何赋能于人。我不希望未来人们处于被自动化的一方,而是希望他们处于一种被赋能的状态,比现在更加出色。

另一个有趣的方面是,如果一个人有一位完美的导师,他能走多远?我认为如果他们有完美的课程,可以走得非常远。我们看到一些富人有私人导师,他们确实取得了很大进步。我认为我们可以用AI接近甚至超越这种情况 - 这方面有明确的研究支持。

Elad Gil: 这其实可以追溯到80年代的研究,对吧?一对一辅导显示人们可以提高一个标准差 - 这是Bloom的研究。确实有很多有趣的先例。从AI的角度,你如何看待这些?能够帮助实现这一目标的第一个产品是什么?我想到了像《钻石时代》这样的书,它们谈到了年轻女孩的图解启蒙读物等内容。

Andrej Karpathy

我确实从这些方面受到了一些启发。在实践中,我正在尝试构建一个完整的课程。我希望它能成为学习AI时的首选课程。问题是,我曾在斯坦福教授过231n这样的深度学习入门课程,取得了成功。但现在的挑战是:如何将其扩展到可能达到80亿人的目标受众,他们讲不同的语言,能力水平也各不相同?单个教师无法应对如此庞大的受众。关键在于如何利用AI来扩展一位优秀教师的工作。

我的设想是,教师设计课程和教材,但由AI来负责与学生的直接互动。AI可以解释教材,用不同语言授课,并指导学生。教师不再直接面对学生;教师在幕后,AI在前台,扩展教学体验。

Sarah Guo

我应该把这理解为类似助教的体验吗?还是说这不是一个恰当的比喻?

Andrej Karpathy

把它看作AI助教是一种思路。但我更倾向于将其视为学生与教材之间的接口。这在目前是可以实现的——虽然还不存在,但我认为可以做得很好。随着AI能力的提升,你可以重新设计这个框架。我试图找到AI能力与现实相匹配的领域。一些公司在过于超前的方向上投入过多,或者不够有雄心。我认为这是一个可能实现且非常令人兴奋的平衡点。

Sarah Guo

你的观点很有启发性,尤其是基于你对AI研究现状的理解。我们还不知道在人类学习方面,有了更好的工具后能达到什么样的极限。一个很好的类比是奥运会。今天的运动员比十年前的要快得多——这不是因为使用了兴奋剂,而是因为我们开始更早地训练,有更好的训练计划、更科学的理解和更好的技术。我们可以借助更好的工具和课程走得更远,这个想法令人惊叹。

Andrej Karpathy

没错,我认为我们甚至还没有触及可能性的边界。这里有两个维度:第一个是全球化,让每个人都能接受优质教育。第二个是个人能力的极限。这两个方面都非常有趣且令人振奋。

Elad Gil

通常,当人们谈论一对一学习时,他们强调适应性,即根据学生当前的水平来挑战他们。AI现在能做到这一点吗,还是更多地体现在覆盖范围、多语言等方面?

Andrej Karpathy

当前的模型在翻译方面表现出色——它们可以实时翻译材料。因此,语言是一个相对容易解决的问题。对个人背景的适应性并不那么简单,但也不遥远。这种适应性确实很重要,因为不是每个人的起点都相同。将学生已知的内容作为类比也很有用,这在教育中非常有效。但这种适应性并非易事——它需要努力。你可以设想向模型提示"我懂物理学",并获得有用的信息。但我说的是像人类教师一样可靠的东西。

Elad Gil

这就是我问适应性问题的原因——人们的学习速度不同,某些概念对他们来说比其他概念更具挑战性。你可以随着时间的推移,将一个人擅长或困难的内容重新引入到模型中。

Andrej Karpathy

这就是AI的特点——很多能力似乎只需一个提示就能实现。你总是会看到演示,但能得到一个产品吗?我会说演示离得很近,但产品还很遥远。

Elad Gil

之前我们谈到了研究社区中的"血统"现象,即来自某些实验室的人有这种聚集效应。就像很多诺贝尔奖得主曾在同一实验室工作。在以AI教育为中心的世界中,你如何看待"血统"的作用,或者说这是否重要?

Andrej Karpathy

我不希望看到一个"血统"过于重要的世界。我希望AI能在某种程度上打破这种结构——这感觉像是一种门槛控制。只有有限的人拥有特定的背景,我希望AI能让机会变得更加平等。

Sarah Guo

"血统"确实是一个方面,但实际的学习经历是另一个方面。

Elad Gil

这也是一种聚集效应,就像为什么AI社区大多集中在湾区,或者金融科技集中在纽约一样。你将聪明的人和志同道合的人聚集在一起,他们从一个共同的核心向外传播。很多这种现象已经转移到了线上,尤其是对年轻人来说。

Andrej Karpathy

是的,其中一部分是教育因素——处于一个社区中可以获得学徒经验和知识,这是一种赋能。但还有一个文化方面——你受什么激励,社区重视什么,崇拜什么。在学术界,它是H指数、论文数量。我曾是那个圈子的一员,现在我看到其他社区重视不同的东西。这对人们的激励、他们获得社会认可的方式以及真正重要的事物有很大影响。在斯洛伐克和后来在加拿大成长,我经历了非常不同的环境。

Sarah Guo

在那里什么是重要的?

Andrej Karpathy

举个例子,在加拿大,我在多伦多大学就读,多伦多并不是一个很有创业精神的环境。你甚至不会想到自己应该创业。这不是人们普遍在做的事。你身边没有朋友在创业。你不知道应该以此为目标。人们不会阅读创始人的传记,也不会讨论他们。这根本不是你所期望或关心的事。大家讨论的是:"你要去哪里实习?毕业后要去哪里工作?"大家都接受了应该从一组固定的公司中选择并加入其中。所以这些文化因素非常强大,可能是主导变量,因为我感觉今天教育方面的资源已经比较丰富了。所以我认为大部分影响来自于你所处的文化环境。

学习文化和激励机制

Sarah Guo

我们前几周讨论过一个相关话题——你也在网上提到过——就是学习和娱乐之间的区别。学习本质上应该是有挑战性的,我认为这与社会地位有关,而地位是一种很好的激励因素——比如谁是偶像。你觉得通过这样的系统能在多大程度上改变激励机制,如果这是一个阻碍因素的话?你是专注于为人们提供资源,让他们在自身能力范围内尽可能地进步,比历史上任何时候都要远?还是你实际上想改变有多少人*愿意*学习,或者至少引导他们走上这条道路——"愿意"这个词含义很丰富。

Andrej Karpathy

我希望让学习变得更简单。当然,可能有些人不愿意学习。比如,现在人们学习往往出于实际原因,对吧?他们想找一份工作,这完全可以理解。因此,在AGI出现之前的社会中,教育是有用的,我认为人们会有动力去学习,因为这能帮助他们在经济阶梯上不断攀升等等。

Sarah Guo

包括教育带来的成功结果,对吧?不仅仅是让内容从头脑中流过。

Andrej Karpathy

是的,我认为如此——比如理解、学习、能够贡献新知识等结果,无论你如何定义它。

Elad Gil

回顾200或300年前,从事科学研究的人通常是贵族或富人,这并非偶然。

Sarah Guo

我们都会成为贵族,跟着Andrej一起学习。

Andrej Karpathy

我觉得这与你之前的比喻很相似。我认为学习某样东西就像去健身房锻炼大脑。去健身房是有意思的——人们喜欢举重等。有些人不去健身房...

Sarah Guo

不,不,不——有些人去,但这需要努力。

Andrej Karpathy

没错,这需要努力,但这种努力也有点意思,而且你会有收获,比如各方面感觉良好。我认为教育也是如此。所以,当我说教育不应该是"有趣"的时候,我的意思是它有一点趣味,但是一种特定类型的趣味。我希望在AGI之后的世界里,人们能够去"健身房"锻炼,不仅是身体上,还有心智上,而且这是我们所推崇的,高度教育化的社会。

Andrej Karpathy正在开发的AI教育课程(Eureka)

Sarah Guo

我可以问你最后一个关于Eureka的问题吗?我想这对大家会很有意思——第一个课程的目标受众是谁?

Andrej Karpathy

课程的目标受众?我主要将其定位为本科水平的课程。如果你在技术领域读本科,那将是理想的受众。但我们现在看到的是一种过时的教育观念,即你上学、毕业,然后工作。显然,这种模式在一个变化如此迅速的社会中会崩溃。随着技术的快速发展,人们会更频繁地回到学校学习。因此,这个课程有点像本科水平,但我认为任何年龄段的相关人群都在考虑范围内。我预计学员的年龄会很多样化,但主要是那些希望对AI有较好理解的技术人员。

Sarah Guo

他们什么时候可以上这个课程?

Andrej Karpathy

我希望能在今年晚些时候,但我有很多干扰因素堆积起来。明年初可能更现实。我正在努力使它变得非常优质,这需要时间。

Elad Gil

最后一个问题,虽然有点偏题:如果你今天有小孩,你觉得他们应该学习什么来为未来做好准备?

Andrej Karpathy

在我看来,有一个正确的答案:数学、物理和计算机科学。这是因为它们有助于培养思维能力——在我看来,这是思维能力的最佳基础。当然,我有特定的背景,所以我会这样认为。但这只是我的观点。学习物理学和其他课程塑造了我的思维方式,这对解决问题非常有用。在AGI到来之前,这些能力将会很有用。在AGI之后,你仍然希望拥有能在任何能力范围内发挥作用的人才,因此我认为这是正确的答案。其他很多东西可以在之后添加,但在关键时期,当人们拥有大量时间和注意力时,我认为应该主要投入在这些解决问题的任务上,而不是记忆性的任务上。

Elad Gil

我学的是数学专业,我觉得这像是在我的大脑中开辟了一条新的思维通道。

Sarah Guo

长大后再开辟这样的思维通道会更困难。

Andrej Karpathy

我当然也会包括其他学科——我并不反对其他学科。学习的多样性是美好的。但80%的学习应该集中在这些核心内容上。

Sarah Guo

相比于我们的工具,我们并不是高效的记忆者。

Sarah Guo

非常感谢你来参加这次对话——内容很精彩。

Andrej Karpathy

我很高兴能来到这里。

文章来自于微信公众号“Andy730”，作者“常华Andy”

Andrej Karpathy：AI革命，从自动驾驶到教育重塑

关键词: AI革命 , AI , 人工智能 , 大模型

AITNT资源拓展

根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考

微调

【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台，可以对大语言模型（LLM）和多模态图文模型（VLM）进行预训练和轻量级微调。XTuner 支持多种微调算法，如 QLoRA、LoRA 和全量参数微调。
项目地址：https://github.com/InternLM/xtuner