Waymo自动驾驶单量超萝卜快跑，AI 如何更快落地自动驾驶？

6505点击 2024-08-22 17:23

随着萝卜快跑在武汉进行规模式投放，自动驾驶的热度再次升高。自 2009 年，Google 便开始试验无人驾驶技术，旗下无人出租车公司 Waymo 无疑是该领域的领跑者。目前，Waymo 每周单量已经超过中国最大自动驾驶出行平台萝卜快跑。

数据显示，截至 2024 年 7 月萝卜快跑实际接送乘客超过 600 万次，自动驾驶订单约 82.6 万单，相当于每周约 6.8 万单。而在本周周二，Waymo 宣布在美国每周乘坐 Waymo 付费出行人次已突破 10 万。今年 5 月份该数据仅为 5 万人次，这意味着，Waymo 每周单量在 3 个月内翻了一倍。

这一增长与 Waymo 今年以来不断扩大服务区域、允许更多用户乘坐其无人驾驶车辆有关。今年 3 月，Waymo 扩大了在旧金山半岛的无人驾驶出行服务，6 月宣布对旧金山全域开放无人驾驶出行服务。在美国旧金山繁华市区，Waymo 布局了全时段 24 小时的无人出租车运营。

本文是 Waymo 的 CEO Dmitri Dolgov 与 a16z 的普通合伙人 David George 近期的一次谈话。

Dmitri Dolgov 强调，虽然自动驾驶不能直接在现实世界中全面测试，但可以在模拟环境尽可能地反映真实情况。

他还讲，根据 Waymo 收集的数据，投入运营的自动驾驶车已经比人类司机做得好了，撞车和受伤的情况都更少。

在这次访谈中，基于 Waymo 的发展，他们谈了谈 AI 与自动驾驶的交汇点。Dmitri 结合个人经历，分享了 AI 在自动驾驶领域的潜力、模拟和构建训练数据集的重要性，以及他带领 Waymo 在自动驾驶赛道上开疆拓土的经验。

01 AI 接入自动驾驶，

真正的挑战是最后的 0.0001%

David：生成式人工智能带来了一些新的重大突破，有人觉得它是一项全新的技术，另一些人认为它是几十年技术积累的成果。把生成式 AI 跟传统的 AI 或机器学习技术相结合，来推动自动驾驶技术的发展，你有什么看法？

Dmitri：这个问题问到点上了，生成式 AI 的确覆盖了很广的领域。让我们先来回顾一下 AI 在自动驾驶技术发展过程中起到的作用，以及我们是如何将 AI 的突破性进展融入到我们的工作中的。

从自动驾驶技术的起步阶段，AI 就已经参与其中，早期的 AI 更多地依赖于传统的机器学习技术，比如决策树和基础的计算机视觉技术，包括定制化特征提取和核变换机制等。然而，AI 和计算机视觉领域的一个重要转折点出现在 2012 年左右，卷积神经网络开始大放光彩。

许多人对 AlexNet 和 ImageNet 竞赛都有所了解，AlexNet 在比赛中的获胜对我们在计算机视觉领域的应用产生了深远的影响。它不仅帮助我们处理摄像头捕获的数据，还能让我们使用卷积网络来理解周围环境，进行物体的检测与分类。这在 2012 年和 2013 年左右是一个巨大的飞跃。我们也尝试将这些技术应用到其他领域，虽然有些成果有趣但效果有限。

另一个里程碑级别的突破是 2017 年 Transformer 模型的出现，它对语言理解、语言模型构建、机器翻译等方面产生了巨大的影响。对我们来说，它让我们能够把机器学习和 AI 应用到更广泛的领域，而不局限于感知领域。想想 Transformer 对语言的影响，它们在理解、预测和生成词串方面真是高手。

比如，我们可以用 Transformer 理解和预测场景中其他参与者的行为，或者用它来规划我们自己的行动轨迹。在模拟中，生成式 AI 可以模拟世界中各种行为的演变过程，这些行为序列就像句子一样，有前后连贯性。物体的状态虽然有局部连续性，但场景的整体背景也真的很重要。这让我们在行为预测、决策制定和模拟方面看到一些真的令人激动的突破。

近年来，模型的规模越来越大，人们开始构建用于多任务的基础模型。尤其是最近，大语言模型、现代生成式 AI、视觉语言模型等领域都有重大突破，它们能把图像和语言理解结合起来。

Waymo 最近非常关注的就是，怎样把我们这些年来积累的 AI 技术，和这些视觉语言模型的通用知识结合起来。

David：我做个简单的陈述，可能有点极端。DARPA 的思路是基于规则的传统 AI 方法，先处理一大堆数据，把各种特殊情况都记下来，然后让模型学会怎么应对。但有些新冒头的公司，他们就喜欢从一开始就把 AI 用在所有决策上，全程包办，就像他们说的「端到端驾驶」。Waymo 是怎么用这些理念的？

Dmitri：有时这被看成是非此即彼的选择，但其实不是。它既是大模型，也是端到端模型，同时也包括生成式 AI 与 VLM（垂直限制模型）的结合。但问题是，这还不够，我们都清楚这些模型的局限性。这些年来 AI 领域有很多突破，比如超大规模计算、transformers、大型端到端基础模型等，它们对我们确实有很大帮助。Waymo 一直在推动这些最前沿的技术，并把它们应用到自动驾驶领域。我们学到的是，这些技术确实有用，但远远不够。

一开始，你可以轻松上手这些新技术，看起来进展顺利，但真正的挑战是解决那最后的 0.0001%，这时候它们就不够用了。你必须在这个基础上做更多。现在，你可以使用端到端模型，从传感器到轨迹规划，这个过程通常是分阶段进行的，而且可以通过整个流程进行反向传播。这个概念很有道理，可以结合 VLM，然后通过闭环仿真进行测试，甚至可以快速做出很棒的演示，几乎是现成的。你可以得到一个 ADAS（高级驾驶辅助系统）或至少是一个普通驾驶辅助系统，但这还不足以实现完全自动驾驶，这就是难点。

所以，问题不在于选择「这个或那个」，而在于选择了「这个」之后，还需要做些什么，才能有足够的信心去除驾驶员，实现真正的全自动驾驶？这是一项庞大的工程，它贯穿了整个模型和系统的生命周期。首先要考虑的是训练，怎么训练？模型怎么设计？怎么评估它们？当把它们集成到更大的系统中时，只有模型还不够，还需要做额外的工作。现代的生成式 AI 虽然很强大，但也有幻觉的问题。

David：还有可解释性问题。

Dmitri：对，这些模型在目标规划、决策制定和三维空间操作方面确实有点力不从心，所以我们要在它们的基础上再加把劲。刚才聊到了模拟器，这本身就是个烫手的问题。一旦系统投入使用，收集到反馈之后，怎么有效利用这些反馈信息，就非常关键。换句话说，这不仅仅是端到端模型那么简单，这是端到端模型加上大型基础模型，之后还要深度优化。

David：在 Waymo 会遇到很多复杂问题，但你们已经解决了一部分。现在你们面临的最大的 AI 或数据上的挑战是什么？

Dmitri：简单来说，我们的目标是将规模提升到新的水平，甚至是跨越多个数量级。随着规模的增长，我们也需要不断改进，来提供更优质的服务。现在，我们已经有了在各种条件下全天候驾驶的能力，无论是旧金山、菲尼克斯这样的成熟市场，还是洛杉矶、奥斯汀。我们能在复杂的城市环境和各种天气条件下运行，包括雾霾、暴风雨、沙尘暴或大雨等。

接下来，我们要考虑的是，怎样进一步提升客户体验。如果要实现数量级的增长，需要哪些改进？我们正在努力让服务变得更出色，比如提高接送点的质量，让从你打开应用程序到到达目的地的整个过程都更顺畅和愉快。这是我们目前投入大量精力在做的。

02 合成数据是模拟的关键，

先训练超大模型再瘦身

David：你们在模拟技术上有显著的进展，现在虽然有生成式 AI 在合成数据上的争议，但在自动驾驶的领域里，合成数据和模拟技术尤其重要。

能分享一下你们开发的模拟技术吗？它如何协助你们扩大视野，深化对现实世界的理解？这些年来，这项技术又经历了怎样的变化？

Dmitri：因为我们不能直接在现实世界中全面测试，所以模拟非常重要。评估自动驾驶系统的性能时，需要依赖大量的指标和数据集来确定它是否达到预期的标准。但因为新系统的行为可能与现实世界有差别，所以我们需要一个真实的闭环模拟环境。

模拟技术的另一个关键应用是处理合成数据，这让我们能深入分析那些罕见的事件。例如，如果你在现实世界中遇到了一个有意思的情况，你可以在模拟环境中改变条件，把这个单一事件变成成千上万种可能的变体。此外，有一些我们从来没见过的情况，甚至是我们丰富的经验也无法覆盖的，就需要训练系统来评估，这时候纯粹的合成模拟就显得尤为重要。

这种技术的核心在于确保模拟器的逼真程度。它需要在传感器和感知方面做到真实，同时也要模拟其他动态参与者的真实行为。如果模拟中行人的行走方式与现实不符，我们就需要能够量化模拟场景的真实性，确保它与现实世界中事件发生的频率相匹配。

在模拟器中创造极端情况可能看起来很大胆，但关键在于我们怎么处理这些情况。这就涉及到现实感的第三个关键要素：在宏观和统计层面上，模拟器必须尽可能地反映真实情况。要开发一个优秀的自动驾驶系统，我们需要一个高度真实的大规模模拟器，而且要不断迭代，来模拟真实的行人、自行车手和驾驶员。

David：通过这种模拟软件，你可以很好地模拟现实世界，创建场景中的变量，让驾驶员在模拟中得到成倍的道路经验。以实际行驶的英里数来计算，对吧？

Dmitri：完全正确。在现实世界，我们在全自动驾驶模式下行驶了超过 1500 万英里，而在模拟中，我们已经行驶了数百亿英里。

David：谈到自动驾驶的行驶里程大幅增加，目前在人工智能领域，大家都在聊 Scaling Law。在自动驾驶的层面上，Scaling Law 是看行驶里程，还是积累的经验，还是计算能力？

Dmitri：模型的规模真的很关键。我们发现，根据 Scaling Law，很多旧的模型其实训练得不够，更大规模的模型能处理更多的数据，这样在遇到各种情况时就能更好地应对。但是，这里说的数据，不是随便什么数据都行，而是高质量数据，那些在特别罕见的情况下也能表现不错的数据。不过，因为我们的模型要在车载系统里跑，就对算力有了限制。所以，我们更愿意先训练一个特别大的模型，然后再把它瘦身，变成一个更小的模型，而不是一开始就只训练一个小模型。

03 自动驾驶比真人开车更安全

David：接送乘客这个问题非常难解决。比如在城市里停车时，你可能会挡住车道，如果传感器检测到有人开了车库门，你就得挪开；或者在停车场里，找到合适的停车位置也不容易。

Dmitri：没错，我们得保证我们的车足够聪明，能妥善处理这些情况，不挡道，也不给别人添麻烦。这不光是技术上的问题，更关系到用户体验。我们得保证车辆能迅速察觉周围环境的变化，而且能做出合适的选择，比如在不影响别人的情况下迅速找到新的停车位。这些智能化的表现，对于赢得用户的信任和满意，特别关键。

David：你提到了 1500 万英里的自动驾驶里程，这数字可能已经更大了。真是挺惊人的。更厉害的是，这还让事故率降了 3.5 倍，比人类司机的事故率低很多。

Dmitri：受伤率下降了 3.5 倍，警方报告里的小事故大概减少了 2 倍。

David：这就涉及到监管和伦理的问题了。你们希望达到什么水平？当然，持续改进是目标，但有没有一个标准，让你们觉得「行了，做得够好了」，而且监管机构也能点头？

Dmitri：我们的目标是定一个特别高的安全标杆，要比现在的行业水平还高。我们不停地搜集数据，分析事故率，还要跟人类驾驶的统计数据对比。我们想用这些数据向监管机构证明，我们的自动驾驶技术不仅安全，而且在很多方面比人类开车还安全。

David：现在人们最关心的就是路上的安全。有数据证明，现在的自动驾驶车在运营的地方已经比人类司机做得好了，意味着撞车和受伤的情况都少了。

我们一直在发布最新数据，其中有一个基于约 400 万英里的数据的研究成果，自动驾驶的财产损失事故减少了 76%，人身伤害索赔则减少了 100%。

Dmitri：但有些碰撞是难免的。我们在红灯前停下，还是会有人撞上来。但我们也明白，这是一项新技术和新产品，因此需要更高的安全标准。当我们考虑安全性和准备工作时，不仅仅是看这些数据。多年来，我们在这方面投入了大量资源，积累了丰富的经验。那么，还需要做些什么呢？

我们已经做了许多不同的事，发布了一些方法论，分享了我们的准备框架，还模拟了一个专注且优秀的人类驾驶员模型，并且拿来跟我们的自动驾驶系统做了对比，确保它达到高标准。最后，通过综合使用这些方法，我们来判断系统是否足够成熟，是不是可以大规模推广。

04 早早下注自动驾驶，

Waymo 下一步是广泛合作

David：在斯坦福的时候你第一次参与了 DARPA 项目，能不能聊聊你当时的经历？怎么走上这条路的？

Dmitri：我第一次真正接触自动驾驶是在斯坦福做博士后的时候。那时候的 DARPA，也就是美国国防高级研究计划局，正在通过一系列竞赛来推动自动驾驶技术的发展。我参加的是 2007 年的 DARPA 城市挑战赛。

那次比赛在一座废弃的空军基地上，搭建了一个模拟的城市环境，让自动驾驶汽车和人类驾驶员一起完成各种任务。那是我第一次深入探索这个领域，对我来说，那是个启发性的时刻，让我对自动驾驶非常感兴趣。

David：2007 年那会儿你用哪些硬件和软件？

Dmitri：那时候的系统其实和我们现在使用的有很多相似之处。我们有一辆装备了各种测量设备的车，可以向它发出指令，接收反馈。车上配备了惯性测量单元、加速度计、陀螺仪和 GPS，还有雷达、激光雷达和摄像头，这些技术我们今天依然在使用。有一台计算机专门处理这些传感器的数据，然后指导汽车行驶，此外还有一系列软件，涵盖了感知、决策、规划以及人工智能的各个方面。

不过，从那时起到现在这 18 年间，一切都有了巨大的发展和变化。现在的人工智能技术与 2007 年相比已经大不相同，传感器和计算机技术也都经过了多次的迭代和升级。

David：你在斯坦福的时候决定将自动驾驶作为你的事业方向。之后你加入了丰田，接下来发生了什么？

Dmitri：我不确定当时的目标是不是已经那么明确。我只是深信这是未来，急不可待的想成为其中一部分。后来，在 DARPA 挑战赛里露头的几个人一起，联手启动了谷歌的自动驾驶项目。2009 年，在谷歌的 Larry Page 和 Sergey Brin 的支持下，又把这个项目推向了一个新的高度。直到 2016 年，这个项目正式发展成 Waymo，从那时起我们就一直走在这条路上。

David：现在的你对市场格局和竞争有什么看法？Waymo 在未来会扮演什么角色？

Dmitri：我们认为 Waymo 的核心任务是打造一个通用的自动驾驶系统，这是我们让交通变得更安全、更便捷的主要目标。我们现在主要聚焦在网约车服务上，这算是我们目前最拿手的领域。不过，我们希望将来 Waymo 的技术能扩展到其他商业领域，比如快递、卡车运输，甚至个人的车上。

我们的计划是尽快、尽可能安全地把这项技术推广开，所以我们也在探索各种各样的商业模式和合作方式。比如在凤凰城，我们和 Uber 有合作，不仅在 Uber 的网约车服务中用上了 Waymo，还在 Uber Eats 上推广。你可以通过 Waymo 或者 Uber 的 App 来体验我们的自动驾驶。

David：说到车辆硬件，Waymo 现在使用的传感器技术是什么？从 DARPA 开始，虽然传感器类型差不多，但进步肯定不小。你觉得 LiDAR 还是自动驾驶的未来吗？

Dmitri：传感器各有优势。摄像头能提供颜色和高分辨率的画面，LiDAR 能直接测出 3D 数据，雷达在穿透不同波长上特别强。我们还开发了成像雷达，能直接测速度，极端天气下表现也不错。

我们的策略是把各种传感器结合起来，这样系统就更可靠，能力也更强。现在我们已经用上第五代传感器了，第六代也在准备中。这些升级让我们的传感器更可靠，性能更好，成本还降下来了。对我们来说，多管齐下用各种传感器技术是合理的，特别是在全自动驾驶上，哪怕是那最后的 0.001% 也很重要。

David：在大语言模型领域，成本的降低成了热议话题，有人甚至说这已经开始商品化了。但自动驾驶这边情况却相反，竞争者少了，挑战也比想象中要大得多。你能说说是为什么吗？

Dmitri：自动驾驶一开始上手容易，但要真做到完全替代司机的全自动驾驶，难度就很大了。有几个原因：首先，跟数字世界里的大语言模型不一样，自动驾驶必须在复杂、充满不确定性的现实世界里跑，这就带来了巨大的挑战。

再有就是安全问题，在我们这行，犯错的代价太大了，几乎不能有差错，标准也非常严格。

还有，自动驾驶系统需要在实时环境里操作，车开得飞快，决策得在几毫秒内完成，这几个因素加起来，难度就上去了。虽然技术在进步，但没有捷径，想实现全自动驾驶，每个环节都得做到极致。

这是个长跑，但对我和 Waymo 的许多人来说，最激动人心、最让人满足的，就是看到这一切终于变成现实。我们现在有了大量的证据，证明我们在安全性上的确取得了实质性的进步。

David：回顾这一路，有哪些让你感到印象深刻的经历吗？

Dmitri：有一回，我们从北部的明尼苏达州出发，一路经过加州的 Palo Alto，翻过山，上了 1 号公路，顺着这条路一直开到旧金山，还兜了一圈，最后在伦巴底街结束这一程。那是 2009 年的事了，那时候路线还挺复杂的。

David：从头到尾有 100 英里吧？这段路人类司机都未必能完成。

Dmitri：是啊，那天我们开车进山区。天还很早，雾蒙蒙的。路上的东西不少，我们先是看到一个桶，然后是只鞋，最后竟然还有辆生锈的自行车。我们都懵了，心想这是什么情况？不过车处理得还算可以，虽然有点磕磕绊绊，但没出大问题。后来我们才发现，原来是前面有辆垃圾车，上面的东西一直往下掉，挡在了我们前面。

David：这简直像动画片一样，所有奇怪的东西都抛向你们。最后一个问题，基于你对创业的激情，有什么建议可以给充满激情的年轻人吗？

Dmitri：来 Waymo 吧。

David：这个问题回答起来太简单了。

Dmitri：是的，我们今天谈到的是 AI，这对世界来说很重要，也是一个对你来说很重要的问题，与它相关的挑战通常不简单。所以，不要被未知或别人的话吓倒。开始行动，然后继续前进，不要回头。

参考文章：

https://a16z.com/dmitri-dolgov-waymo-ai/

文章来自于微信公众号“Founder Park” 作者“Founder Park”

Waymo自动驾驶单量超萝卜快跑，AI 如何更快落地自动驾驶？

关键词: Waymo , AI , AI驾驶 , 人工智能