本篇内容是「AGIX 投什么」的第 6 篇。AGIX 指数是从全球上千家科技上市公司中精选出的 40 家“高 AI 纯度”公司的组合。AGIX 指数即是定位 AGI 进程的坐标,也为投资人捕捉 AI-alpha 提供了价值工具。在「AGIX 投什么」板块,我们会对 AGIX Index 的组合公司进行深度分析,为市场输出全面的 AI 投资参考。
Tesla 是 AGIX Index 组合的前 10 大持仓公司之一,公司在过去 10 年在自动驾驶和机器人的大规模投入让其有机会成为物理世界 AGI 最强玩家。近期,Tesla 迎来2024 年内第二波股价上涨,不仅达到最近 2 个月以来的最高水平,还抹平了今年以来所有跌幅并转涨,AI 是驱动这轮增长的最重要因子。
10 月 10 日, Tesla 将正式发布的 Robotaxi,根据 ARK 的分析, 预计到 2029 年,特斯拉近 90% 的企业价值和收益将归因于自动驾驶出租车业务。本周,Tesla 还调低了 FSD 的选装价格,推动新车销售同时,FSD 选装率的提升也会帮助 Tesla 收集更多数据改进 FSD 表现。虽然 Optimus 机器人距离大规模商业化还很远,但如果用 Optimus 替代 Tesla 工厂工人、提升人效也能极大程度改善利润,参考 ARK 对 Tesla 的建模,如果在未来 5 年实现 Optimus 在 Tesla 工厂的部署,最大能节约 30-40 亿美元成本。
本篇内容是前 Tesla 计算机视觉团队负责人 Andrej Karpathy 的深度访谈。Andrej Karpathy 亲手搭建了 Tesla 计算机视觉团队,并参与了 Optimus 机器人项目。他详细分享自己关于自动驾驶技术的进展以及对市场竞争的看法,Andrej Karpath 认为, Tesla 探索的端对端是自动驾驶最理想的实现路径,Tesla 汽车在全球的大规模部署是它的最大优势,接下来只要解决软件问题就能够真正实现自动驾驶的大范围推广,从 10 年的长度来看,Tesla 会在规模化和收入模式上做到全球领先。
Sarah Guo: 你怎么看今天自动驾驶的发展?还有多久我们会看到自动驾驶全面普及?
Andrej Karpathy: 我在自动驾驶领域呆了 5 年,我觉得这个领域非常有趣。从现阶段这个领域的发展情况来看,自动驾驶和 AGI 之间非常相似,也可能因为我对自动驾驶领域很熟悉,但我确实觉得我们在自动驾驶领域已经快接近 AGI 了,比如现在已经有成型的产品可以让用户付费使用,Waymo 就是一个很好的例子,Waymo 现在在旧金山很常见,很多人都体验过,我自己就常常体验 Waymo,它已经成为了一个商业化的产品。
我第一次体验 Waymo 差不多是 10 年前,当时有一位朋友在 Waymo 工作,他带我乘坐 Waymo 环绕了一整个街区,10 年前从技术角度 Waymo 就已经很好了,但从 demo 到成为大规模铺设在城市中的产品这个过程经历了 10 年,当然今天 Waymo 也还在持续扩张。
Elad Gil: 从 demo 到成功的付费产品之间经历了 10 年,有多少程度是监管的原因?你认为自动驾驶技术什么时候就已经 ready 了?
Andrej Karpathy: 我认为自动驾驶其实在 10 年前就已经达到相当成熟的水平,但 30 分钟的 demo 并不能完全展示他们过去 10 年所面临的所有挑战,demo 与实际产品之间有很大差距,当然这里面会有部分监管的原因。
但我认为,我们已经一定程度上已经在自动驾驶领域达成了 AGI。与此同时,demo 和在全球范围内得到推广之间也存在着很大差距。虽然 Waymo 已经可以在旧金山运行,但从在全球市场普及角度,还没有产生很实质性的影响和结果。这也是我认为 AGI 和自动驾驶相似的地方。
回到自动驾驶领域,许多人认为 Waymo 在技术上领先于 Tesla,但我个人认为 Tesla 实际上要比 Waymo 走得更前,这个观点可能和目前的主流声音不太一样,但我对 Tesla 的自动驾驶确实很有信心。
Tesla 面临的是软件层面的问题,Waymo 的挑战来自于硬件,相比较来说,软件问题的解决要更容易。Tesla 已经在全球范围内大规模部署了车辆,而 Waymo 还没有达到这样的规模。因此,我相信一旦 Tesla 的系统能够真正大规模落地并高效运转起来,效果会很惊人。昨天我刚试驾了 FSD 的最新版本,驾驶体验非常流畅。Tesla 自动驾驶系统的一系列操作,让我觉得 Tesla 今天自动驾驶上已经取得了相当不错的结果。
整体上,我觉得 Tesla 的自动驾驶最大的挑战在于软件角度,Waymo 的挑战则更多来自硬件。从今天的情况看,Waymo 似乎处于优势位置,但我相信,如果从 10 年的长度来看,Tesla 会在规模化和收入模式上更领先。
Elad Gil: 你认为解决软件问题需要多长时间?你刚刚提到 Waymo 的车辆上有很多昂贵的激光雷达和传感器,这些硬件给软件系统提供了支持,如果像 Tesla 一样,仅仅只是依赖摄像头系统,不仅能够显著降低成本,还能减少系统的复杂性,并且适用于更多车型。这种转变大概什么时候能够实现?
Andrej Karpathy: 我个人希望未来几年内就能解决。其实 Tesla 在训练阶段也使用了很多昂贵的传感器,还做了很多没办法大规模推广的技术,比如无线传感器信任模型研究和地图测绘等。而在测试阶段,Tesla 将这些数据精简成一个只依赖视觉系统的测试包,部署到量产车上。很多人可能并没有意识到,这其实是一种很精明的传感器与成本之间的“套利”。因为摄像头能够捕捉到足够的信息,神经网络也有能力处理这些信息。在训练阶段,这些传感器非常有用,但在测试阶段,它们的作用并不那么重要。所以,我认为只依赖摄像头已经足够。
Elad Gil: 自动驾驶领域最近出现的一个趋势是,开始从基于边缘案例设计的启发式算法逐渐转向端到端的深度学习,背后的原因和逻辑是什么?
Andrej Karpathy: 端对端其实就是我们一开始想要做的。我刚加入 Tesla 时,我们就讨论过,神经网络最终一定会替代整个技术栈。当时系统中有大量的 C++ 代码,但今天测试包中运行的 C++ 代码已经很少了。神经网络逐步取而代之,一开始神经网络只是用在图像识别处理上,后面又扩展到处理多帧图像并生成预测结果,随着时间推移,C++ 代码逐渐被替代。最终,系统只需要给出驾驶指令,神经网络就能输出结果。
所以 Tesla 在做的就是端对端的 AI 驾驶,但 Waymo 应该是没有选择这个技术路线的。虽然他们有过尝试,但效果不太理想。
我个人很相信端对端的路线才是正确的,是未来发展的必然方向。如果从这个角度看,十年后的 Tesla 系统很有可能会发展成一个端到端的神经网络,视频流输入后直接输出驾驶指令。当然,这个过程需要逐步完善系统的各个模块。我并不认为当前所有的中间预测(intermediate predictions)会对开发进程产生误导,恰恰相反,它们是系统的重要组成部分。因为在训练一个完全端到端的神经网络时,模拟人类驾驶的监督信号十分有限,无法支撑如此庞大的网络进行训练。中间预测则能帮助开发出特征和检测器,从而使得端到端的问题变得更加可行。因此,我猜测他们在进行大量的预训练,以便未来实现端到端的微调。
总的来说,我认为神经网络取代整个技术栈的过程是必要的,但过程需要循序渐进。Tesla 目前的尝试已经展现了初步成效,让人对未来充满期待。
中间预测(Intermediate Predictions):在模型训练或推理过程中,生成的非最终结果或输出。这些预测在多步计算过程中作为中间步骤,帮助模型逐步逼近最终结果。它们在复杂任务中非常有用,比如分层决策、机器翻译或多任务学习,可以通过评估这些中间结果来优化模型性能,纠正偏差或提高模型的训练效果。此外,中间预测还帮助解释模型的内部工作机制,并可能为模型调优提供参考。
Sarah Guo: 离开 Tesla 之前,你也参与过 Tesla 的人形机器人项目。从自动驾驶到机器人,有哪些技术是可以迁移的?
Andrej Karpathy: 基本上所有技术都可以迁移。但我觉得大家可能还没有意识到这一点。机器人和汽车本质上并没有太大的差别。我觉得把 Tesla 简单理解为一家汽车公司其实是对它的误解。
Tesla 其实是一家大型的机器人公司,它不仅仅是在生产汽车,而是在制造自动化的机器。大规模生产是一个很不一样的领域,我认为 Tesla 是一家专注于大规模机器人技术的公司。
从汽车技术迁移到类人机器人技术,其实并不需要太多的额外工作。事实上,早期的 Optimus 机器人甚至还认为自己是一辆车,因为它使用了与汽车完全相同的计算机和摄像头。有趣的是,我们在机器人上运行的是为汽车设计的神经网络,而机器人在办公室里行走时,识别的“可驾驶空间”实际上成了“可行走空间”。虽然需要一些 fine tuning ,但这确实展示了技术的通用性。
Sarah Guo: 从某种角度来看,Tesla 确实可以被看作是一家机器人公司,很多核心技术是可以跨平台迁移的。生产机器人所缺乏的关键部分,其实主要在于执行机制和相关的行动数据。
Andrej Karpathy: 是的,虽然有些地方还不够完善,但我想强调的是,很多技术是可以直接迁移的。比如 Optimus 项目的启动速度相当惊人,Elon Musk 宣布这个项目之后,相关的团队和工具就已经迅速到位了。像 CAD 模型、供应链等资源都很快准备好了。当时我会感觉 Tesla 内部其实已经具备了相当丰富的机器人制造资源,这些都是从 Tesla 汽车那里拿过来的。这个感觉有点类似于《变形金刚》里面所展示的,车变形为机器人之后,所有的东西都一样,只是需要对一些东西稍加调整、重新配置。除了硬件之外,整个思维方式、标注团队、各个组件板块之间的协调等都会变化。但总体上,有一部分经验和资源是可以迁移的。
Elad Gil: 你认为人形机器人的第一个应用场景会是什么?
Andrej Karpathy: 很多人会认为机器人可以帮助我们完成像洗衣服这样的日常任务。但我认为这些技术的实际落地可能还需要很长时间。我并不认为直接面向消费者对于人形机器人来说是一个好的起点,因为我们目前还无法完全确保机器人在与老年人等人群互动时的安全性,比如避免“把老奶奶撞倒”这样的意外,这类情况会带来巨大的法律风险,所以我觉得这个方向并不太合适。即使在很多简单互动场景下,机器人也很可能会直接撞倒人。
但今天的技术还不够成熟,需要进一步改进。因此,我认为对于机器人开发商来说,第一阶段最好的客户应该机器人自己,如果机器人开发者们能够意识到这一点的话,首先要做的就是应该在内部使用这些技术进行孵化,然后就可以在工厂中应用,比如物料搬运(material handling)等领域,这样就也不需要和第三方签合同,避免了涉及律师和合同等繁琐的过程。
通过内部孵化并成功后,就可以进入 to B 市场,和一些有大型仓库业务的企业合作,做物料搬运等任务。在这些合作中,机器人公司就可以搭建起市场的安全体系,在多个公司成功实践后,再逐渐过渡到面向消费者的应用领域。我相信我们未来会看到很多面向消费者开发的机器人,比如 Unitree 开发的产品就很值得期待,我自己会想买一台 Unitree G1.
等到机器人在各个场景都有普及的时候,会有一个完整生态,即大家会基于机器人平台来开发各种类型的机器人。但从规模化的角度看,我认为逐步推进的路径是最合理的。
最开始可能是处理一些物料搬运(material handling)相关的工作,接着逐步扩展到更为细分且需求量大的领域。我个人特别感兴趣的一个项目是“吹叶机”。比如某一天我们可以看到 Optimus 机器人在街道上行走,轻轻地把每一片落叶拾起来,这样我们就不需要再使用吹叶机了。我觉得这是一个非常棒的项目,希望这能成为早期应用中的一个场景。
Sarah Guo: 在机器人形态上,有人认为人形机器人会是更好的选择,因为今天物理世界的很多设计都是依照人类行为习惯展开的,所以基于人形机器人的统一硬件形态开发模型就能完成越来越多的任务,另外一种观点认为,人形机器人并不一定是通用机器人的唯一答案。你怎么看这个问题?
Andrej Karpathy: 我觉得很多人其实都低估了不同机器人平台的固定成本的复杂性,每种机器人平台都要求很高的 fixed cost,因此通用机器人的路线就会更合理一些,我们基于一个统一的平台来做各种尝试。
所以我会认为人形机器人其实具有很大潜力,人类可以轻松地对它进行远程操控,从而去帮助收集数据。同时,就像你刚刚提到的视角之一,整个世界都是围绕人类行为习惯展开的,这是为什么人形机器人会很重要的另外一个原因。
当然,在未来可能围绕人形机器人还会有各种形态的变化,但对于任何一种新的机器人平台来说,fixed cost 都是需要去考虑的重要问题。
我还想强调的是,通过不同任务之间的信息共享和互相学习,你将能获得更多收益。
在 AI 领域,我们想要构建一个能够处理多任务的神经网络,通过多种任务相互学习进而提升整体的智能水平。语言模型的有趣之处在于它们作为处理文本的多任务模型,能够处理多种不同类型的问题,同时还能在这些任务之间共享信息。但所有这些任务其实都是通过一个单一的神经网络进行的。
同样,我们希望拾叶子任务中收集到的数据能够帮助你完成其他任务,但如果专门为某个特定任务开发一个系统,那么你的获利范围可能就会变窄。
Sarah Guo: 像 Unitree G1 这样的机器人目前售价在 30 万美元左右,就目前看来人形机器人领域实现低成本、高功能的平衡很难,但如果我们采用轮式结构,并在其基础上增加机械臂来完成特定任务,是不是更有机会能实现一种更具性价比的通用形态的机器人?
Unitree G1机器人
Andrej Karpathy: 从硬件角度寻找更便宜的通用平台是合理的。某些环境下,用轮子等其他结构代替双脚来完成任务可能是个更高效的选择,但我觉得这可能是在追求一种局部最优解。从长远来看,我认为选择一种形态并将其打磨到完美可能是更明智的做法。并且从人类心理层面来说,类人形态的机器人优势会更明显,它让人感到熟悉从而想要与它进行互动。
当然,考虑到恐怖谷效应,也许抽象的形态会更受用户欢迎。因为其实我也不确定人们对不同形态的机器人会给出什么样的反应,如果我们最后用一个八轮怪物来完成工作,我不确定人们会喜欢它还是会更害怕。
Elad Gil: 机械狗也是一种形态路线,并且狗也属于人类更熟悉的形态。
Andrej Karpathy: 是的,不过很多看过《黑镜》的人可能会把机械狗与某些恐怖场景结合在一起,所以每个人的心理接受度也会不同,相比之下类人形态可能更容易让人接受,也可以让人更容易理解它的功能和行为。
Elad Gil: 如果要实现类人形态,从技术角度,还要实现哪些关键进展?
Andrej Karpathy: 我认为这个问题目前还没有很明确的答案。这里面有一个比较有趣的讨论是,在人形机器人的设计中,下肢部分(the lower body)不太适合使用模仿学习来实现,这部分更多涉及到倒立摆控制(inverted pendulum control),对于上半身(the upper body),则更多依赖远程操控、数据采集以及端到端学习等方式。从某种意义上讲,机器人系统需要将多种技术结合在一起,但我目前还不太确定这些系统之间是如何起作用的。
倒立摆(Inverted Pendulum):涉及到使一个摆保持在不稳定的直立位置,作为一种经典的控制问题在机器人学、航空航天等领域有着广泛的应用。传统的倒立摆控制方法有 PID 控制、线性二次调节器(LQR)、滑模控制等。
随着 AI 的发展,强化学习的方法逐渐被引入到倒立摆的控制中,RL 路径下,因其具备无需精确模型即可学习最优策略的能力而备受关注。基于强化学习的倒立摆平衡控制算法是一种非常实用的技术,在机器人学、自动化等领域有着广泛的应用。
Elad Gil: 在和一些机器人领域的人交流时,我发现他们很关心动力驱动、操控以及数字操控(digital manipulation)等问题。
Andrej Karpathy: 是的,我觉得在初期阶段,确实会有很多远程操控的场景,比如让机器人模仿人类从地上拾取物品,直到系统有 95% 的时间可以自主运行。然后逐步增加机器人的工作比例,让人类从操作员变成监督员。
其实我认为技术上并没有什么特别的障碍,更多是需要做大量基础性的工作。我们已经有了合适的工具和资源,比如 Transformer 架构,这样的技术就像优秀的“协调者”,我们只需准备好正确的数据,经过训练和实验,最终实现部署。虽然过程繁杂,但其实并没有特别多本质上的技术瓶颈。
Sarah Guo: 你觉得在 Large Blobs 研究上,我们走到什么阶段了?
Large blobs research :通常指的是在深度学习和计算机视觉领域中的一种研究方向或技术。Blob 是 “Binary Large Object”的缩写,即“二进制大对象”,是图像或特征图中的大块连续区域,这些区域可能包含重要的视觉信息或表示特定的对象或场景部分。研究这些大块区域有助于提高模型对大尺度视觉特征的理解和处理能力。
Andrej Karpathy: 我觉得我们现在正处于一个快速发展的阶段。Transformer 并不只是一个神经网络,而是一种功能强大且通用的神经网络。
举个例子,当大家讨论 scaling law 时,其实很多时候指的是 Transformer 架构的特性。在 Transformer 之前,人们主要用堆叠 LSTM 来做一些工作,但并没有发现明确的 scaling law。Transformer 是第一个让这件事变得很清晰、并且可以有效扩展的模型。
堆叠LSTM(Stacked LSTM)是指将多个LSTM(Long Short-Term Memory)层叠加在一起形成的深层神经网络结构。
Transformer 像一个通用计算机,更确切来说是一台可微分神经计算机(Differentiable Neural Computer,DNC)。我们可以让它做超大规模的输入和输出,并通过反向传播法对这个计算机进行训练,最终,它会成为一个可以自我进化的一个任务完成系统。
可微分神经计算机(DNC):一种特殊的神经网络,能够存储和检索信息,类似于计算机中的内存系统。它是“可微”的,意味着可以通过反向传播优化它的参数,使其在解决复杂任务时表现更好。
Transformer 虽然是我们在算法领域偶然发现的一个奇迹,但它背后确实有很多个关键创新,比如残差连接(residual connections)、层归一化(layer normalizations)和注意力机制(attention block)。和传统方法不同,Transformer 没有使用那些会导致梯度消失的非线性激活函数,而是像它们的技术论文里提到的进行了创新技术的融合,极大的提高了训练效率和性能。
Sarah Guo: 这段时间一直有关于数据墙(data wall)的讨论,以及下一代模型再 scale up 的话成本会特别高。你怎么看数据的问题?
Andrej Karpathy: 这也是我们一开始就讨论的。我觉得今天神经网络的架构本身已经不再是瓶颈了,虽然在 Transformer 诞生之前,架构问题确实是一个阻碍,现在新的瓶颈主要集中在损失函数和数据集上,所以很多公司和研究者不再专注 Transformer 架构的变化,比如 LlaMA 也没有特别明显的架构创新。唯一比较大的变化可能是“旋转位置编码”(RoPE positional encodings)。过去五年 Transformer 本身并没有太多变化,大家只是在现有基础上专注于训练、数据集和损失函数的创新。
“旋转位置编码”(RoPE,Rotary Positional Encodings):一种用于 transformer 模型的位置编码技术。它通过旋转向量的方式来表示输入序列中的位置信息,与传统的位置编码相比,RoPE 可以使模型在处理长序列时更具优势。其关键特点是通过旋转向量的角度来编码序列中每个元素的位置,同时保持相对距离的信息。这种方法允许模型在不同位置上具有更好的灵活性和扩展性,尤其适合处理长距离依赖关系的任务。
Sarah Guo:当互联网上数据不够用时,我们就要开始用合成数据,或者类似的更贵的数据收集方式吗?
Andrej Karpathy: 目前很多研究都集中在语言模型上。虽然互联网数据并不是 Transformer 最理想的数据来源,但它们可以作为一种工具,不断去提升模型能力。互联网数据只是大量网页的集合,但真正有价值的是我们大脑中的“内部独白(inner monologue)”——那些复杂、深层次的思维轨迹。
如果我们能拥有亿万条类似“思维轨迹”的数据,那么就可能在某种程度上接近 AGI。但目前这些数据并不存在,所以现在的研究主要集中在将现有数据集重组,形成类似“内部独白(inner monologue)”的格式,这就是合成数据的重要性。今天的模型可以帮助我们生成下一代模型,这是一个不断迭代进步的过程,就像在爬阶梯,一步步接近目标。
Elad Gil:合成数据的作用到底有多大?就像你说的,每个模型都能帮助我们去训练下一个模型,或者至少能为数据标注等任务提供工具,其中一部分可能就是合成数据。
Andrej Karpathy: 我觉得对于模型能力提升上,合成数据是必不可少的,但在使用合成数据时要很小心,因为模型不知道什么时候就“崩塌”了。比如,当我们让 ChatGPT 给我们讲笑话时,如果多试几次我们会意识到它可能只知道 3 个笑话,虽然表面上看它懂很多,但其实它只知道那几个,这就是“崩塌”,即单次输出没问题,但如果在这个特定方向的输出上,模型的多样性和灵活性大大降低,这就是生成数据时的问题,尤其在生成合成数据时很容易出现“崩塌”的情况,因为我们那实际上很需要数据的多样性和丰富性,也就是“熵”,以免数据集过于单一而出现问题。
模式坍塌(Mode Collapse):这是生成对抗网络(GANs)中的一个现象,指的是生成模型开始生成非常相似或重复的样本,而不是多样化的样本。这通常被视为一个问题,因为它表明模型没有能够学习到数据的丰富多样性。
举个例子,有人发布了一个包含 10 亿条虚构人物背景组成的人物形象相关数据集,比如“我是老师”或“我是艺术家,我住在这里,我从事这个工作”等。在生成合成数据时,其实是让它想象与特定人物互动的过程,这能给模型更多的探索空间,从而输出更多的信息,增加数据集的多样性。因此,我们需要小心地注入熵的同时保持数据分布的稳定性,这就是生成合成数据最大的挑战。
Sarah Guo: 你觉得我们可以从这个研究中学到哪些和人类认知有关的东西?比如有人认为,理解思维轨迹的形成过程有利于我们去理解大脑是如何运作的。
Andrej Karpathy: 研究模型和人类认知是两件完全不同的事情,但在某些情况下还是可以类比的。比如,我认为 Transformer 在某些方面比人脑更强的,模型是比人脑更高效的系统,但因为数据限制,它们目前的表现还不如人类大脑。不过这只是一个粗略的解释。
比如就记忆能力而言,Transformers 在处理长序列时的表现要比人脑更出色。如果你给它一个序列,让它执行一次前向和后向计算,它能记住序列的前后部分并完成任务,而人类记忆则很难做到这点。因此,在某些方面我认为基于梯度优化的训练方式确实比人脑更高效,甚至未来在某些认知层面上,模型可能真的会超越人类。
Elad Gil: 记忆能力是计算机的优势之一。
Andrej Karpathy: 是的,我认为人脑其实有很多限制,比如工作记忆(working memory)的容量非常有限,而 Transformers 的工作记忆相比之下则大得多,并且他们之间的差距还在不断扩大。此外,Transformers 的学习效率也更高。人脑的运行会被很多隐性因素所限制,比如背景、责任、环境等等,这使得人脑系统更加随机且受限。所以,我觉得其实在某些方面这些模型已经比人脑更强了,只是还没发挥出全部潜力。
Elad Gil: 在人和 AI 的关系上,一种论调是说我们把它当作外部工具来使用,也有人说人类和 AI 模型会有更深层次的融合。你怎么看这个问题?
Andrej Karpathy: 我觉得我们已经在某种程度上实现了人类和 AI 的融合,技术工具一直是人类能力的衍生,就像人们常说的,“电脑是人类大脑的自行车”。只不过今天模型的问题在于信息输入输出过程中的瓶颈,所以人类与 AI 的融合还需要进行不断的尝试。不过在模型已经完善的情况下,使用这些模型是很简单的,只需要简单的动几下手就可以实现。所以,虽然存在一些障碍,但现阶段的技术已经让这种融合变得相对容易和可行。
Elad Gil: AI 领域的一些人认为,如果未来我们与 AI 之间发生冲突,是可以
通过某种人类与 AI 融合的形式来解决的。
Andrej Karpathy: 是的,这与 Neuralink 的理念很相似。虽然我不确定这种融合的具体形式,但可以肯定的是,我们希望减少人与工具之间输入输出的延迟。可以把它想象成,在我们的大脑皮层上增加一个新的皮层,这个新皮层或许是基于云的,本质上相当于大脑的下一层。
Elad Gil: 在 Accelerando 这本书中确实有类似的设定,所有事物都通过一种可佩戴智能眼镜传递给大脑。如果失去了这些眼镜,就仿佛失去了一部分人格或记忆。
Andrej Karpathy: 我觉得这种情况很可能发生。现在的手机几乎已经成了我们生活的一部分,像大脑的外接设备一样。每次我们把手机放下时,就感觉回到了原始状态。
再比如如果我们有一个“通用翻译器(Universal Translator)”并长期依赖于它,那么当我们一下子没有它的时候,可能就会失去和说不同语言的人直接交流的能力。就像有个视频里面呈现的,一个小孩拿着杂志想用手指滑动,他根本分不清什么是天然的、什么是技术带来的。这让我觉得,随着技术变得越来越无处不在,人们可能会逐渐依赖这些工具,直到它们消失时才意识到自己无法分辨什么是技术,什么不是。特别是像翻译器这样始终帮你执行任务的设备,会大大降低人们对技术和自然界限的敏感度。
Sarah Guo: “外皮层”(exocortex)听起来是个很重要的东西,对于每个人都很重要。今天 LLM 研究是由少数几个 AI Labs 主导的,只有他们有资源推动下一代模型训练的发展。你怎么看今天 LLM 研究中的这种结构?它会对未来 AI 技术的普及带来哪些影响?
Andrej Karpathy: LLM 的生态系统今天确实是被几个封闭平台垄断的,排名靠后的 Meta LlaMa 则相对开放,这个现象在某种程度上也是开源生态系统的映射。当我们 LLM 看作“外皮层”时,就会涉及到信息和数据私密性的问题。加密领域有句话是“not your keys,not your tokens”,可能在 LLM 领域未来我们会去强调“ not your weights, not your brain”。如果 AI 是未来每个人新的大脑皮层,如果这个皮层被某个公司掌控,人们会觉得是在“租用”一个大脑,而不是真正拥有它。
Sarah Guo: 你愿意放弃对自己大脑的所有权和控制权,去租用一个更强大的大脑吗?
Andrej Karpathy: 我认为这是一个很关键的 trade-off,未来的趋势可能是,大多数人会把功能强大的闭源模型作为默认选项,但在一些特定情况下,开源系统会成为备选方案。就像现在一样,当一些闭源模型提供商的 API 出现问题时,人们转向开源生态,也因此感受到更多的掌控感。
这或许也会是未来大脑技术发展的方向:当问题出现时,我们可以切换到开源系统,而在大部分情况下,我们仍依赖封闭系统。保持开源系统的发展是很重要的,但今天可能并不是所有人都意识到这个问题。
Elad Gil: 你怎么看小模型?今天小模型的性能能到什么水平?
Andrej Karpathy: 我认为模型的规模还可以缩得更小。因为数据集的问题,我们觉得现在的模型在存储一些无关紧要的信息上浪费了很多容量,小模型的关键是要聚焦在核心认知,而这个核心其实可以非常小。它更像是一种思维方式,当我们需要查找信息时,能灵活运用各种工具来获取,而不是让模型存储大量不必要的细节。
从参数上,我认为可能只需要 1 亿个参数就能达到我们的目标。高效的压缩技术可以让模型变得非常小,压缩的原理很简单:用一个非常大的模型或大量计算资源来 supervise 一个更小的模型,这个过程就可以把很多能力塞到小模型里。
这件事的本质是,今天大模型处理的是互联网数据集,而其中只有大约 0.001% 的内容与认知相关,其余 99.99% 实际上是一些无关紧要的信息,比如 Copy right 这种文本。大部分信息并没有对思维模式的提升起到实质作用。
Elad Gil: 这个过程可以被数学或者某种信息学理论解释吗?模型规模和认知能力之间的关系是可以被量化的吗?比如可能未来只需要一个 10 亿参数模型就能有不错的认知了。
Andrej Karpathy: 甚至可能用不到 10 亿,模型就可以有这种认知能力,考虑到模型成本、端侧设备等。而且在我们要讨论的可能不是一个单个认知模型,我认为模型应该具备并行处理的能力,而不只是依赖顺序处理。这就像公司运作一样,很多工作可以并行完成,但也需要层级结构来更好地处理信息。因此,我认为未来可能会出现“LLM 公司(companies for LLMs)”的模式:不同的模型专注各自的领域,比如一个是程序员模型,另一个是项目经理模型,大家一起并行处理很多工作,彼此之间也可以协同合作,形成一个由 LLMs 构成的“群体大脑”。
Elad Gil: 这个 LLMs 集群像是一个生态系统,其中每一部分都有自己独特的专长和位置。
Andrej Karpathy: 我觉得未来一定会朝这个方向发展,云端模型是最智能的,可以看作是 CEO,还有很多更便宜的、开源模型是这个群体中的员工,但系统遇到很复杂的问题时,就会自动把任务升级并分配给群体的其他部分。
Sarah Guo: 你从 OpenAI 离开之后开始做自己的教育项目,为什么选择教育?
Andrej Karpathy: 我一直热爱教育行业,喜欢学习、也喜欢教学,对这个领域很有热情。
Karpathy 创立了 Eureka Labs,这是一个以 AI 为核心的教育平台,旨在通过人工智能技术革新学习方式。Eureka Labs 的第一门课程 LLM101n 将指导学生构建自己的大型语言模型,目的是让 AI 教育变得更加互动且普及。这个平台计划通过整合 AI 教学助手和人工课程设计来增强学习体验,反映了他多年来致力于将 AI 与教育相结合的愿景。
推动我进入这个领域的一个重要原因是,我觉得现在很多 AI 都是在尝试取代人类,导致很多人失业,但我更感兴趣的是那些能够增强人类能力的技术。总体而言,我站在人类这一边,希望 AI 能帮助人类变得更强大,而不是被边缘化。
另外,我认为有一个可以实现所有学科辅导任务的 “Perfect Tutor”是一个相当不错的想法,如果每个人都有这样一个 AI 导师来指导他们学习所有学科,我相信每个人能取得更大成就。
Elad Gil: 从 80 年代开始,就有文献明确指出一对一辅导能够使个人的水平提高 2 个标准差,围绕个性化 tutor 也有很多案例,你认为要怎么把 AI 和 tutor 结合起来?
Andrej Karpathy: 我的确也从这些例子中得到了很多启发。现在我正在构建一个完整的课程,目标是让它成为人们学习 AI 时的首选,我之前教授了斯坦福的第一门深度学习课程,虽然学生人数只有 20 到 30 人,但效果不错。现在的挑战是如何将这种课程规模化,覆盖全球 80 亿人,考虑到语言和能力的差异,这很难靠一个老师实现。
因此,关键是如何利用 AI 来扩展优秀教师的作用。教师的核心任务应该是课程设计和编写材料,而 AI 则可以在前端与学生互动,传授内容。目前的 AI 还不能独立创建完整课程,但已经足够能帮助解释和传递知识。通过这种方式,教师可以专注于后端设计,AI 则在前端使用多种语言与学生互动,帮助他们完成学习。
Sarah Guo: 可以把 AI 比做助教吗?
Andrej Karpathy: 助教是我考虑的方向之一,我把它看作一个前端,直接和学生互动,带领他们完成课程,我认为这是当前技术下的可行方案,而且市面上还没有类似的产品,所以我觉得这个领域有很大的潜力,并且随着技术进步,我们还可以对它做各种各样的调整。我觉得今天很多公司对模型能力的理解并不足够直观,也因此,它们开发的产品过于超前或者还不够准确。所以我觉得这个领域的潜力很大。
Sarah Guo: 有了好的工具之后人类能力极限可以到什么程度?比如,如果类比奥运会的话,因为过去 10 年训练科学和技术的进步,顶级跑者的表现也比 10 年要更好。
Andrej Karpathy: 我觉得我们今天还没触碰到潜力的最大可能。我们可以从两个角度来想这个问题,首先是全球化,我希望每个人都能接受到高水平的教育,其次是个体的能力极限。这两个角度都很有价值。
Elad Gil: 通常我们讨论 1 对 1 学习指导的时候,都会提到个性化、自适应,即根据每个人的水平来给到相应的学习挑战任务,你觉得 AI 今天可以做到这一点了吗?
Andrej Karpathy: 我觉得今天 AI 教育领域的“低垂果实”还是翻译这些应用,现阶段的模型很擅长这类任务,能做的事情还是基础的任务。
要做到适应每个人水平的个性化很难,但也并不是做不到,我觉得这也应该是 AI 要去重点发展的方向,它也明显有潜力做到这点。但这个可能就会涉及到新的领域,可能比较简单的模式是通过 prompt 工程来实现,但我觉得真正有用的方式还是要让模型本身就有这样的能力,它可以像老师一样在工作。
我认为这确实涉及到一些目前尚未充分发展的领域。虽然简单的版本可能不远了,比如通过给模型提示就能得到一些帮助,但我说的是真正有效的解决方案,而不是仅仅在 demo 里看起来不错。我说的是它能像真正的老师一样高效工作,理解每个人的背景,提供个性化的指导,这需要更进一步的发展。
Elad Gil: 我们是不是可以通过引入其他模型来实现这种自适应?
Andrej Karpathy: 我觉得这也是 AI 的一个特点。我觉得很多功能其实只需要一个 prompt 就能实现。所以我们经常看到很多 demo,但最终能不能提要到一个实际的产品呢?所以可能作出一些 demo 并不难,但要发展成可以被大规模使用的产品还有很长的路要走。
Sarah Guo: 几周前你提到,学习和娱乐是不同的,学习应该具备挑战性,也需要一定的激励系统,比如社会地位、偶像效应等。你觉得激励系统能在多大程度上改变人们的学习动机?你更关注提供资源,让人们在自己的能力范围内尽可能走得更远?还是希望改变愿意学习的人数、引导更多人开始学习?
Andrej Karpathy: 我希望让学习变得更容易一些,毕竟有些人可能天生对学习不感兴趣。很多人学习是出于实际需求,比如为了找到工作,这非常合理。在我们社会中,教育扮演着重要角色,因为它不仅能够提供知识,还能提升一个人的经济地位,这就是人们愿意被教育激励的原因。
Sarah Guo: 在后 AGI 社会中,我们的未来将会是怎样的呢?
Andrej Karpathy: 在后 AGI 时代,我认为教育将更像一种娱乐。成功的教育不仅仅在于知识的传递,更在于深入理解和应用这些知识。
Sarah Guo: Eureka 的第一批受众是谁?
Andrej Karpathy: 第一次课程的主要受众是本科生,特别是那些在技术领域攻读学位的人。如果你正在学习与技术相关的本科课程,那么你就是这一课程的理想目标群体。
Andrej Karpathy: 我认为我们目前的教育观念已经有些过时了。过去的上学然后毕业一直工作在今天的变化下会被打破,技术迅速变化,人们需要不断学习。所以虽然课程是面向本科生水平,但其实受众很广,比如我觉得任何年龄段的人都可以参与。特别是对于那些有技术背景、希望深入理解相关知识的人,都会有收获。
我计划在今年晚些时候开设课程,明年年初可能会是一个合适的时间点,在此之前我会努力确保课程的质量达到预期标准。
Elad Gil: 如果你有孩子,你会希望他们学习哪些知识和技能?
Andrej Karpathy: 我会给出的答案是数学、物理、计算机科学等这些学科,这些学科实际上为思维能力的培养提供了非常核心的训练。当然,这个观点受到了我的背景影响,但我相信这些领域对解决问题的能力是非常有帮助的。即使在未来接近 AGI 的时代,这些技能仍然会发挥重要作用。在人们拥有大量时间和注意力的关键时期,我认为应该主要集中在那些操作相对简单的任务上,而不是需要大量记忆的任务上。虽然我也认可学习其他学科的重要性,但我认为 80% 的时间应该专注于这些核心领域,因为它们更具实用性和长期价值。
文章来自于“海外独角兽”,作者“拾象”。
【开源免费】DeepBI是一款AI原生的数据分析平台。DeepBI充分利用大语言模型的能力来探索、查询、可视化和共享来自任何数据源的数据。用户可以使用DeepBI洞察数据并做出数据驱动的决策。
项目地址:https://github.com/DeepInsight-AI/DeepBI?tab=readme-ov-file
本地安装:https://www.deepbi.com/
【开源免费】airda(Air Data Agent)是面向数据分析的AI智能体,能够理解数据开发和数据分析需求、根据用户需要让数据可视化。
项目地址:https://github.com/hitsz-ids/airda
【开源免费】graphrag是微软推出的RAG项目,与传统的通过 RAG 方法使用向量相似性作为搜索技术不同,GraphRAG是使用知识图谱在推理复杂信息时大幅提高问答性能。
项目地址:https://github.com/microsoft/graphrag
【开源免费】Dify是最早一批实现RAG,Agent,模型管理等一站式AI开发的工具平台,并且项目方一直持续维护。其中在任务编排方面相对领先对手,可以帮助研发实现像字节扣子那样的功能。
项目地址:https://github.com/langgenius/dify
【开源免费】RAGFlow是和Dify类似的开源项目,该项目在大文件解析方面做的更出色,拓展编排方面相对弱一些。
项目地址:https://github.com/infiniflow/ragflow/tree/main
【开源免费】phidata是一个可以实现将数据转化成向量存储,并通过AI实现RAG功能的项目
项目地址:https://github.com/phidatahq/phidata
【开源免费】TaskingAI 是一个提供RAG,Agent,大模型管理等AI项目开发的工具平台,比LangChain更强大的中间件AI平台工具。
项目地址:https://github.com/TaskingAI/TaskingAI
【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台,可以对大语言模型(LLM)和多模态图文模型(VLM)进行预训练和轻量级微调。XTuner 支持多种微调算法,如 QLoRA、LoRA 和全量参数微调。
项目地址:https://github.com/InternLM/xtuner
【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。
项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md
在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0