随着萝卜快跑在武汉进行规模式投放,自动驾驶的热度再次升高。自 2009 年,Google 便开始试验无人驾驶技术,旗下无人出租车公司 Waymo 无疑是该领域的领跑者。目前,Waymo 每周单量已经超过中国最大自动驾驶出行平台萝卜快跑。
数据显示,截至 2024 年 7 月萝卜快跑实际接送乘客超过 600 万次,自动驾驶订单约 82.6 万单,相当于每周约 6.8 万单。而在本周周二,Waymo 宣布在美国每周乘坐 Waymo 付费出行人次已突破 10 万。今年 5 月份该数据仅为 5 万人次,这意味着,Waymo 每周单量在 3 个月内翻了一倍。
这一增长与 Waymo 今年以来不断扩大服务区域、允许更多用户乘坐其无人驾驶车辆有关。今年 3 月,Waymo 扩大了在旧金山半岛的无人驾驶出行服务,6 月宣布对旧金山全域开放无人驾驶出行服务。在美国旧金山繁华市区,Waymo 布局了全时段 24 小时的无人出租车运营。
本文是 Waymo 的 CEO Dmitri Dolgov 与 a16z 的普通合伙人 David George 近期的一次谈话。
Dmitri Dolgov 强调,虽然自动驾驶不能直接在现实世界中全面测试,但可以在模拟环境尽可能地反映真实情况。
他还讲,根据 Waymo 收集的数据,投入运营的自动驾驶车已经比人类司机做得好了,撞车和受伤的情况都更少。
在这次访谈中,基于 Waymo 的发展,他们谈了谈 AI 与自动驾驶的交汇点。Dmitri 结合个人经历,分享了 AI 在自动驾驶领域的潜力、模拟和构建训练数据集的重要性,以及他带领 Waymo 在自动驾驶赛道上开疆拓土的经验。
David:生成式人工智能带来了一些新的重大突破,有人觉得它是一项全新的技术,另一些人认为它是几十年技术积累的成果。把生成式 AI 跟传统的 AI 或机器学习技术相结合,来推动自动驾驶技术的发展,你有什么看法?
Dmitri:这个问题问到点上了,生成式 AI 的确覆盖了很广的领域。让我们先来回顾一下 AI 在自动驾驶技术发展过程中起到的作用,以及我们是如何将 AI 的突破性进展融入到我们的工作中的。
从自动驾驶技术的起步阶段,AI 就已经参与其中,早期的 AI 更多地依赖于传统的机器学习技术,比如决策树和基础的计算机视觉技术,包括定制化特征提取和核变换机制等。然而,AI 和计算机视觉领域的一个重要转折点出现在 2012 年左右,卷积神经网络开始大放光彩。
许多人对 AlexNet 和 ImageNet 竞赛都有所了解,AlexNet 在比赛中的获胜对我们在计算机视觉领域的应用产生了深远的影响。它不仅帮助我们处理摄像头捕获的数据,还能让我们使用卷积网络来理解周围环境,进行物体的检测与分类。这在 2012 年和 2013 年左右是一个巨大的飞跃。我们也尝试将这些技术应用到其他领域,虽然有些成果有趣但效果有限。
另一个里程碑级别的突破是 2017 年 Transformer 模型的出现,它对语言理解、语言模型构建、机器翻译等方面产生了巨大的影响。对我们来说,它让我们能够把机器学习和 AI 应用到更广泛的领域,而不局限于感知领域。想想 Transformer 对语言的影响,它们在理解、预测和生成词串方面真是高手。
比如,我们可以用 Transformer 理解和预测场景中其他参与者的行为,或者用它来规划我们自己的行动轨迹。在模拟中,生成式 AI 可以模拟世界中各种行为的演变过程,这些行为序列就像句子一样,有前后连贯性。物体的状态虽然有局部连续性,但场景的整体背景也真的很重要。这让我们在行为预测、决策制定和模拟方面看到一些真的令人激动的突破。
近年来,模型的规模越来越大,人们开始构建用于多任务的基础模型。尤其是最近,大语言模型、现代生成式 AI、视觉语言模型等领域都有重大突破,它们能把图像和语言理解结合起来。
Waymo 最近非常关注的就是,怎样把我们这些年来积累的 AI 技术,和这些视觉语言模型的通用知识结合起来。
David:我做个简单的陈述,可能有点极端。DARPA 的思路是基于规则的传统 AI 方法,先处理一大堆数据,把各种特殊情况都记下来,然后让模型学会怎么应对。但有些新冒头的公司,他们就喜欢从一开始就把 AI 用在所有决策上,全程包办,就像他们说的「端到端驾驶」。Waymo 是怎么用这些理念的?
Dmitri:有时这被看成是非此即彼的选择,但其实不是。它既是大模型,也是端到端模型,同时也包括生成式 AI 与 VLM(垂直限制模型)的结合。但问题是,这还不够,我们都清楚这些模型的局限性。这些年来 AI 领域有很多突破,比如超大规模计算、transformers、大型端到端基础模型等,它们对我们确实有很大帮助。Waymo 一直在推动这些最前沿的技术,并把它们应用到自动驾驶领域。我们学到的是,这些技术确实有用,但远远不够。
一开始,你可以轻松上手这些新技术,看起来进展顺利,但真正的挑战是解决那最后的 0.0001%,这时候它们就不够用了。你必须在这个基础上做更多。现在,你可以使用端到端模型,从传感器到轨迹规划,这个过程通常是分阶段进行的,而且可以通过整个流程进行反向传播。这个概念很有道理,可以结合 VLM,然后通过闭环仿真进行测试,甚至可以快速做出很棒的演示,几乎是现成的。你可以得到一个 ADAS(高级驾驶辅助系统)或至少是一个普通驾驶辅助系统,但这还不足以实现完全自动驾驶,这就是难点。
所以,问题不在于选择「这个或那个」,而在于选择了「这个」之后,还需要做些什么,才能有足够的信心去除驾驶员,实现真正的全自动驾驶?这是一项庞大的工程,它贯穿了整个模型和系统的生命周期。首先要考虑的是训练,怎么训练?模型怎么设计?怎么评估它们?当把它们集成到更大的系统中时,只有模型还不够,还需要做额外的工作。现代的生成式 AI 虽然很强大,但也有幻觉的问题。
David:还有可解释性问题。
Dmitri:对,这些模型在目标规划、决策制定和三维空间操作方面确实有点力不从心,所以我们要在它们的基础上再加把劲。刚才聊到了模拟器,这本身就是个烫手的问题。一旦系统投入使用,收集到反馈之后,怎么有效利用这些反馈信息,就非常关键。换句话说,这不仅仅是端到端模型那么简单,这是端到端模型加上大型基础模型,之后还要深度优化。
David:在 Waymo 会遇到很多复杂问题,但你们已经解决了一部分。现在你们面临的最大的 AI 或数据上的挑战是什么?
Dmitri:简单来说,我们的目标是将规模提升到新的水平,甚至是跨越多个数量级。随着规模的增长,我们也需要不断改进,来提供更优质的服务。现在,我们已经有了在各种条件下全天候驾驶的能力,无论是旧金山、菲尼克斯这样的成熟市场,还是洛杉矶、奥斯汀。我们能在复杂的城市环境和各种天气条件下运行,包括雾霾、暴风雨、沙尘暴或大雨等。
接下来,我们要考虑的是,怎样进一步提升客户体验。如果要实现数量级的增长,需要哪些改进?我们正在努力让服务变得更出色,比如提高接送点的质量,让从你打开应用程序到到达目的地的整个过程都更顺畅和愉快。这是我们目前投入大量精力在做的。
David:你们在模拟技术上有显著的进展,现在虽然有生成式 AI 在合成数据上的争议,但在自动驾驶的领域里,合成数据和模拟技术尤其重要。
能分享一下你们开发的模拟技术吗?它如何协助你们扩大视野,深化对现实世界的理解?这些年来,这项技术又经历了怎样的变化?
Dmitri:因为我们不能直接在现实世界中全面测试,所以模拟非常重要。评估自动驾驶系统的性能时,需要依赖大量的指标和数据集来确定它是否达到预期的标准。但因为新系统的行为可能与现实世界有差别,所以我们需要一个真实的闭环模拟环境。
模拟技术的另一个关键应用是处理合成数据,这让我们能深入分析那些罕见的事件。例如,如果你在现实世界中遇到了一个有意思的情况,你可以在模拟环境中改变条件,把这个单一事件变成成千上万种可能的变体。此外,有一些我们从来没见过的情况,甚至是我们丰富的经验也无法覆盖的,就需要训练系统来评估,这时候纯粹的合成模拟就显得尤为重要。
这种技术的核心在于确保模拟器的逼真程度。它需要在传感器和感知方面做到真实,同时也要模拟其他动态参与者的真实行为。如果模拟中行人的行走方式与现实不符,我们就需要能够量化模拟场景的真实性,确保它与现实世界中事件发生的频率相匹配。
在模拟器中创造极端情况可能看起来很大胆,但关键在于我们怎么处理这些情况。这就涉及到现实感的第三个关键要素:在宏观和统计层面上,模拟器必须尽可能地反映真实情况。要开发一个优秀的自动驾驶系统,我们需要一个高度真实的大规模模拟器,而且要不断迭代,来模拟真实的行人、自行车手和驾驶员。
David:通过这种模拟软件,你可以很好地模拟现实世界,创建场景中的变量,让驾驶员在模拟中得到成倍的道路经验。以实际行驶的英里数来计算,对吧?
Dmitri:完全正确。在现实世界,我们在全自动驾驶模式下行驶了超过 1500 万英里,而在模拟中,我们已经行驶了数百亿英里。
David:谈到自动驾驶的行驶里程大幅增加,目前在人工智能领域,大家都在聊 Scaling Law。在自动驾驶的层面上,Scaling Law 是看行驶里程,还是积累的经验,还是计算能力?
Dmitri:模型的规模真的很关键。我们发现,根据 Scaling Law,很多旧的模型其实训练得不够,更大规模的模型能处理更多的数据,这样在遇到各种情况时就能更好地应对。但是,这里说的数据,不是随便什么数据都行,而是高质量数据,那些在特别罕见的情况下也能表现不错的数据。不过,因为我们的模型要在车载系统里跑,就对算力有了限制。所以,我们更愿意先训练一个特别大的模型,然后再把它瘦身,变成一个更小的模型,而不是一开始就只训练一个小模型。
David:接送乘客这个问题非常难解决。比如在城市里停车时,你可能会挡住车道,如果传感器检测到有人开了车库门,你就得挪开;或者在停车场里,找到合适的停车位置也不容易。
Dmitri:没错,我们得保证我们的车足够聪明,能妥善处理这些情况,不挡道,也不给别人添麻烦。这不光是技术上的问题,更关系到用户体验。我们得保证车辆能迅速察觉周围环境的变化,而且能做出合适的选择,比如在不影响别人的情况下迅速找到新的停车位。这些智能化的表现,对于赢得用户的信任和满意,特别关键。
David:你提到了 1500 万英里的自动驾驶里程,这数字可能已经更大了。真是挺惊人的。更厉害的是,这还让事故率降了 3.5 倍,比人类司机的事故率低很多。
Dmitri:受伤率下降了 3.5 倍,警方报告里的小事故大概减少了 2 倍。
David:这就涉及到监管和伦理的问题了。你们希望达到什么水平?当然,持续改进是目标,但有没有一个标准,让你们觉得「行了,做得够好了」,而且监管机构也能点头?
Dmitri:我们的目标是定一个特别高的安全标杆,要比现在的行业水平还高。我们不停地搜集数据,分析事故率,还要跟人类驾驶的统计数据对比。我们想用这些数据向监管机构证明,我们的自动驾驶技术不仅安全,而且在很多方面比人类开车还安全。
David:现在人们最关心的就是路上的安全。有数据证明,现在的自动驾驶车在运营的地方已经比人类司机做得好了,意味着撞车和受伤的情况都少了。
我们一直在发布最新数据,其中有一个基于约 400 万英里的数据的研究成果,自动驾驶的财产损失事故减少了 76%,人身伤害索赔则减少了 100%。
Dmitri:但有些碰撞是难免的。我们在红灯前停下,还是会有人撞上来。但我们也明白,这是一项新技术和新产品,因此需要更高的安全标准。当我们考虑安全性和准备工作时,不仅仅是看这些数据。多年来,我们在这方面投入了大量资源,积累了丰富的经验。那么,还需要做些什么呢?
我们已经做了许多不同的事,发布了一些方法论,分享了我们的准备框架,还模拟了一个专注且优秀的人类驾驶员模型,并且拿来跟我们的自动驾驶系统做了对比,确保它达到高标准。最后,通过综合使用这些方法,我们来判断系统是否足够成熟,是不是可以大规模推广。
David:在斯坦福的时候你第一次参与了 DARPA 项目,能不能聊聊你当时的经历?怎么走上这条路的?
Dmitri:我第一次真正接触自动驾驶是在斯坦福做博士后的时候。那时候的 DARPA,也就是美国国防高级研究计划局,正在通过一系列竞赛来推动自动驾驶技术的发展。我参加的是 2007 年的 DARPA 城市挑战赛。
那次比赛在一座废弃的空军基地上,搭建了一个模拟的城市环境,让自动驾驶汽车和人类驾驶员一起完成各种任务。那是我第一次深入探索这个领域,对我来说,那是个启发性的时刻,让我对自动驾驶非常感兴趣。
David:2007 年那会儿你用哪些硬件和软件?
Dmitri:那时候的系统其实和我们现在使用的有很多相似之处。我们有一辆装备了各种测量设备的车,可以向它发出指令,接收反馈。车上配备了惯性测量单元、加速度计、陀螺仪和 GPS,还有雷达、激光雷达和摄像头,这些技术我们今天依然在使用。有一台计算机专门处理这些传感器的数据,然后指导汽车行驶,此外还有一系列软件,涵盖了感知、决策、规划以及人工智能的各个方面。
不过,从那时起到现在这 18 年间,一切都有了巨大的发展和变化。现在的人工智能技术与 2007 年相比已经大不相同,传感器和计算机技术也都经过了多次的迭代和升级。
David:你在斯坦福的时候决定将自动驾驶作为你的事业方向。之后你加入了丰田,接下来发生了什么?
Dmitri:我不确定当时的目标是不是已经那么明确。我只是深信这是未来,急不可待的想成为其中一部分。后来,在 DARPA 挑战赛里露头的几个人一起,联手启动了谷歌的自动驾驶项目。2009 年,在谷歌的 Larry Page 和 Sergey Brin 的支持下,又把这个项目推向了一个新的高度。直到 2016 年,这个项目正式发展成 Waymo,从那时起我们就一直走在这条路上。
David:现在的你对市场格局和竞争有什么看法?Waymo 在未来会扮演什么角色?
Dmitri:我们认为 Waymo 的核心任务是打造一个通用的自动驾驶系统,这是我们让交通变得更安全、更便捷的主要目标。我们现在主要聚焦在网约车服务上,这算是我们目前最拿手的领域。不过,我们希望将来 Waymo 的技术能扩展到其他商业领域,比如快递、卡车运输,甚至个人的车上。
我们的计划是尽快、尽可能安全地把这项技术推广开,所以我们也在探索各种各样的商业模式和合作方式。比如在凤凰城,我们和 Uber 有合作,不仅在 Uber 的网约车服务中用上了 Waymo,还在 Uber Eats 上推广。你可以通过 Waymo 或者 Uber 的 App 来体验我们的自动驾驶。
David:说到车辆硬件,Waymo 现在使用的传感器技术是什么?从 DARPA 开始,虽然传感器类型差不多,但进步肯定不小。你觉得 LiDAR 还是自动驾驶的未来吗?
Dmitri:传感器各有优势。摄像头能提供颜色和高分辨率的画面,LiDAR 能直接测出 3D 数据,雷达在穿透不同波长上特别强。我们还开发了成像雷达,能直接测速度,极端天气下表现也不错。
我们的策略是把各种传感器结合起来,这样系统就更可靠,能力也更强。现在我们已经用上第五代传感器了,第六代也在准备中。这些升级让我们的传感器更可靠,性能更好,成本还降下来了。对我们来说,多管齐下用各种传感器技术是合理的,特别是在全自动驾驶上,哪怕是那最后的 0.001% 也很重要。
David:在大语言模型领域,成本的降低成了热议话题,有人甚至说这已经开始商品化了。但自动驾驶这边情况却相反,竞争者少了,挑战也比想象中要大得多。你能说说是为什么吗?
Dmitri:自动驾驶一开始上手容易,但要真做到完全替代司机的全自动驾驶,难度就很大了。有几个原因:首先,跟数字世界里的大语言模型不一样,自动驾驶必须在复杂、充满不确定性的现实世界里跑,这就带来了巨大的挑战。
再有就是安全问题,在我们这行,犯错的代价太大了,几乎不能有差错,标准也非常严格。
还有,自动驾驶系统需要在实时环境里操作,车开得飞快,决策得在几毫秒内完成,这几个因素加起来,难度就上去了。虽然技术在进步,但没有捷径,想实现全自动驾驶,每个环节都得做到极致。
这是个长跑,但对我和 Waymo 的许多人来说,最激动人心、最让人满足的,就是看到这一切终于变成现实。我们现在有了大量的证据,证明我们在安全性上的确取得了实质性的进步。
David:回顾这一路,有哪些让你感到印象深刻的经历吗?
Dmitri:有一回,我们从北部的明尼苏达州出发,一路经过加州的 Palo Alto,翻过山,上了 1 号公路,顺着这条路一直开到旧金山,还兜了一圈,最后在伦巴底街结束这一程。那是 2009 年的事了,那时候路线还挺复杂的。
David:从头到尾有 100 英里吧?这段路人类司机都未必能完成。
Dmitri:是啊,那天我们开车进山区。天还很早,雾蒙蒙的。路上的东西不少,我们先是看到一个桶,然后是只鞋,最后竟然还有辆生锈的自行车。我们都懵了,心想这是什么情况?不过车处理得还算可以,虽然有点磕磕绊绊,但没出大问题。后来我们才发现,原来是前面有辆垃圾车,上面的东西一直往下掉,挡在了我们前面。
David:这简直像动画片一样,所有奇怪的东西都抛向你们。最后一个问题,基于你对创业的激情,有什么建议可以给充满激情的年轻人吗?
Dmitri:来 Waymo 吧。
David:这个问题回答起来太简单了。
Dmitri:是的,我们今天谈到的是 AI,这对世界来说很重要,也是一个对你来说很重要的问题,与它相关的挑战通常不简单。所以,不要被未知或别人的话吓倒。开始行动,然后继续前进,不要回头。
参考文章:
https://a16z.com/dmitri-dolgov-waymo-ai/
文章来自于微信公众号“Founder Park” 作者“Founder Park”