城市、高速一体化,从车位到车位的全程自动。
最近一段时间,随着新车型和新技术的发布,智能驾驶再次成为人们热议的话题。
有的车企想要做减法,在发布活动上表示「十个人有没有一个人用辅助驾驶」,也有车企表示「新能源下半场一定是智能化与网联化的,新形态的智能驾驶将会彻底改变人们出行的体验。」
问题的核心在于「实用性」:全球范围内,智能驾驶的架构和形态经历了一轮又一轮迭代更新,从最早的高速领航辅助驾驶,到城市 NOA,再到覆盖全域的智能驾驶。支撑智能驾驶的输入端也经历了变革,从有图到无图,再到是否要做纯视觉的方向之争。新概念层出不穷,然而在很多人看来,智能驾驶这一路走来,似乎发展的速度在逐渐落后于我们的预期。
2024 年 12 月底,这场大讨论进入了高潮。1 月 16 日,理想的 OTA7.0 正式版开启了全量车主推送。随着 OTA7.0 的全量推送,理想宣布,其 OneModel 端到端 + VLM 智驾系统已经实现了「全场景端到端」能力。
与之同时上线的还有行业首创的 AI 推理可视化能力,它首次将自动驾驶过程中 AI 模型思考推理的过程可视化展现出来,让我们第一次看到了 AI 的思考和执行过程,因此也可以更加放心。同时,理想也成为了国内唯一、全球第二家将端到端技术应用到城市、高速及环路 NOA 场景的车企。
理想表示,自 OTA 5.0 采用 BEV 架构并推出城市 NOA 后,理想内部对 AD Max 启用独立版本号进行管理。过去的一年里,其共完成 12 次 AD Max 的重大更新。
为了让用户更好地感知智能驾驶迭代,随着 OTA7.0 升级,AD Max 的内部智能驾驶版本号将向用户展示,智能驾驶版本升级为 AD Max V13.0。
理想的 OneModel 端到端智驾号称拥有极强的覆盖和适应能力,风格更加拟人化,驾驶习惯也更丝滑,它还支持全国的新开通高速、长隧道、城市 / 高速切换点等道路的行驶,可以在大部分路段无降级不断点地智驾通行。
我们使用一辆理想 L7 Ultra 对最新的智驾版本进行了测试。
据更新说明介绍,我们测试的智能驾驶 OTA 版本是在 800 万 clips(视频片段)基础上迭代的,增加了导航变道的数据配比。
首先吸引眼球的是中控屏上,理想在业内首创的「AI 推理可视化」。它打开了 AI 模型的黑箱,对端到端 + VLM 模型系统的思考过程进行了直接的展示,包括从物理世界输入到决策结果输出的整个过程,并在中控屏或副驾屏上实时显示出来。
可以看到,这个可视化界面分为三个区域:
据理想介绍说,对于端到端系统来说过于复杂的场景,会交由 VLM 进行决策,比如丁字路口、公交车道限行、施工路段、避让旁边的大车等等。这样的配置为智能驾驶加了一道保险。通过 VLM 的识别,理想也实现了行业唯一的全国任意高速收费站 ETC 闸机自主通行,再加上城市与高速一体化的架构,真正做到了全场景 100% 智能驾驶。
更重要的是,现在你能看到 AI 是如何做出决策的。第一次打开智能驾驶还会有些紧张,过不了一会儿悬着的心就放了下来,人与车之间的疏离感也减少了。
在北京城区内行驶了一个上午,我们可以明显地感受到,端到端智能驾驶系统与过去的智能驾驶相比体验截然不同。它的工作区域覆盖面更广,也更聪明。在通过匝道等大曲率弯道时,AI 的操作已经足够稳定。
智能驾驶系统在碰到前方慢车可以更早地变道,遇到大货车也会向另一侧稍微躲避,遇到加塞情况刹车也更加从容。
此前,理想的城市智能驾驶(6.0 版本及以前)是基于 BEV+OCC 和 Transformer 的业内主流方案。在这样的技术体系之上,很多车企开启了部分城市的无图 NOA,但这种智能驾驶的效果仍称不上完美。
新版本的端到端辅助驾驶则带来了巨大的提升。它保留了激光雷达的数据输入,保证了安全性的下限。另外,它不仅模型是端到端的,实现的驾驶体验也是「端到端」的 —— 解决了智能驾驶的最先和最后 100 米问题,能做到从家中车位到目的地车位的全程智能驾驶,顺利通过停车场闸机、红绿灯,合理避让横穿马路的行人、电动车,或是与其他车辆并线博弈。
理想表示,未来两年,当训练数据量达到 2000 万 Clips 时,MPI(每次干预行驶的里程数)有望达到 500 公里。
当然,目前的智能驾驶还是可能会碰到一些无法处理的情况,但在试了试端到端智能驾驶之后,我们至少可以肯定地说,真的不一样。随着这套技术的发展,或许用不了多久它就可以真正做到对老司机的一比一复刻。
为什么说端到端的智能驾驶打出了代差?这就要从最近 AI 领域的大模型革命开始说起。
自 2022 年底开始,生成式 AI 席卷了整个科技领域,越来越多的行业开始引入大模型。在自动驾驶领域,人们开始探索视觉语言模型与世界模型等技术,端到端(End-to-End)的智能驾驶成为了新兴的研究方向。
端到端的智能驾驶是指把车辆从摄像头、雷达、激光雷达等传感器获得的数据作为输入,利用单个 AI 模型直接生成控制汽车指令的方法。2023 年 6 月,全球 AI 顶级学术会议 CVPR 2023 的最佳论文颁给了 UniAD 框架,它是业界首个感知决策一体化的自动驾驶通用大模型,打开了以全局任务为目标的自动驾驶架构方向。
在端到端的智驾系统中,大模型通过学习人类司机操作的视频片段,根据人类决策理解画面信息和决策之间的关系,再不断进行实践和调整,比起以往的模块化辅助驾驶,更像人类的学习过程。和 ChatGPT 一样,智能驾驶模型可以在面对前所未见的场景时实现「举一反三」,很大程度上摆脱了对人类编写规则的依赖。
最近一年多时间以来,国内外一众新势力都在频繁提及端到端的概念,认为这将是智能驾驶的技术终局。正如机器人公司正在热捧的「具身智能」,端到端的智能驾驶是给高智商 AI 赋予汽车的躯体,让它在物理世界中行动自如的方法,一旦实用化,显然会是降维打击。
2024 年 1 月 ,特斯拉率先在 FSD v12 版本上实现了端到端智能驾驶的落地,新系统据称只用了几个月的训练时间就击败了之前数年时间积累的 v11 版。
理想成为了紧随其后的第二家,2024 年 7 月,向外界公布了理想 AD 的全新技术方案,并已于 10 月底全量上线。据介绍,理想的双系统基于 E2E+VLM 大模型,是从诺贝尔奖得主丹尼尔・卡尼曼《思考,快与慢》中得到的启示。
基于系统 1 和系统 2 的理论,理想提出了一个全新的自动驾驶架构:使用端到端模型实现类似本能的快思考,保证大多数场景的高效;利用速度偏慢但思考能力上限更高的 AI 模型(DriveVLM)实现少数复杂场景下的处理能力。这样就可以让智能驾驶系统「更像人」。
简而言之,其中的系统 1 是真正意义上的端到端模型,输入是传感器收集到的数据,输出是车的行驶轨迹,全部由一个模型来实现,中间没有任何手工的规则。端到端大幅度提升了安全、舒适和效率,具备更拟人化的驾驶方式。
它具有一系列优势:
我们可以在实践中观察到,端到端的智能驾驶系统具有不错的未知物体理解能力,可以识别出倒在地上的桩桶、树枝等训练数据中没有的物体并进行规避。它也具备超越视距的导航与道路结构理解,可以在没有任何先验的情况下应对西直门这样的复杂立交桥。在一些复杂的路况,例如有车辆违停在右侧道路上,又有电动车行驶在行车道上的情况下,端到端模型也可以展示拟人的规划能力,寻找到一条较为高效的路线。
就像 OpenAI 的 o3 大模型一样,这种智能不是人工设计出来,而是 AI 自己学会的。
端到端大模型可以解决智能驾驶过程中 95% 的场景,剩下 5% 的情况就要交由「系统 2」来进行理解和判断。在理想的智能驾驶系统中,系统 2 是由 VLM(视觉语言模型)来实现的。它可以把对于环境的理解、驾驶决策的建议甚至参考轨迹递交给系统 1 来帮助辅助驾驶策略。
比如在遇到坑洼的路面,VLM 会指挥车辆降低速度;如果发现实际路线和规划导航不一致,它可以自己重新规划路线;此外,它还能准确地识别限时公交车道、潮汐车道是否可以通行。
这就好像是在副驾驶的位置上有一个教练在实时监督驾驶行为,主动提供建议。
有了成套的方法,接下来还需要验证整个系统的可行性。理想采用了 3D 环境重建加世界模型的方式,结合了多种方法的优点,生成的环境在多个视角上可用,又可以生成更多符合真实世界规律的未见场景,提升了智能驾驶的泛化性。
跑通流程以后,理想继续改进了 AI 的训练方法。端到端的学习目标是行驶轨迹,并不像感知任务只需要给出是或否的判断。在日常生活中,即使是同一个司机也可能作出不同的行驶策略,这可能会导致 AI 学习出一些诡异的驾驶行为。因此,理想在训练过程中加入了强化学习,通过奖励函数的设置学习出策略正确的模型。
再往下是部署和优化。VLM 在端侧部署时,工程师们面临着推理时延的挑战。通过从量化到张量算子融合等大量优化技术,理想把 VLM 推理时延从 4.1 秒缩减到了 0.3 秒,业界首次在 Orin-X 硬件上部署了大模型,真正实现了视觉模型在智能驾驶上的实用化。
正是这样一套系统,做到了全场景的端到端与可视化,也成为了国内首个车端部署大模型的自动驾驶系统。
理想表示,基于北美实际对比体验,理想端到端的 NOA 驾驶体验,已比肩特斯拉北美 FSD 最新版本 V13.2 水平。
端到端智能驾驶的突破,是一个从量变到质变的过程。
作为销量靠前的新能源玩家,理想在国内拥有超百万规模的自动驾驶车队,在过去几年积累了超过数百亿公里的行驶里程。理想从所有车主数据中筛选出优质数据,建立了一套「老司机」的评价标准。老司机既要具备好的驾驶技能,也要有好的驾驶习惯。只有不到 3% 的车主通过了考核。
理想在 2024 年年初拥有了 5EFLOPS 的算力 ,再加上智能驾驶团队此前在端到端模型上的预研成果,做到了天时地利人和。2024 年 1 月 1 日 - 12 月 31 日,理想智能驾驶累计用户已超百万人,智能驾驶总里程达 17.2 亿公里。截至去年年底,算力也已提升至 8.1EFLOPS。
再往高一层看,智能驾驶水平进入世界第一梯队的理想,正被全新的使命驱动着。
此前,理想创始人、CEO 兼董事长李想畅谈了公司的未来发展方向。他认为电动化是上半场,智能化是下半场,理想汽车未来一定会持续发力 AI,最终通过理想汽车的载体来实现 AGI(通用人工智能)。
理想把自己定义为一个人工智能企业,目标是把人工智能进行汽车化,并推动 AI 普惠到每一个家庭。最近一年理想的 100 亿研发投入,近一半投在了 AI 上,它自研了基座模型、端到端加 VLM 的自动驾驶系统,从最开始的论文、技术研发到产品的交付,不断引领着业界风向。
可以说,端到端的智能驾驶,是理想长期坚持核心技术自研的必然体现。
值得一提的是,李想给 AI 的未来定义了三个阶段:
为此,理想希望从两个方向入手,一面是端到端智能驾驶,另一面是理想同学 App。后者已于 2024 年底全量上线。
在李想看来,理想同学和自动驾驶,将来有一天还会融合在一起:「我们认为,基座模型到一定时刻一定会变成 VLA(Vision Language Action Model),因为语言模型也要通过语言和认知去理解三维世界。而自动驾驶在走向 L4 时必须要有极强的认知能力。当技术形态发生变化,它才能够有效地理解这个世界。」
通往 AGI 的路,理想已经开了个好头。
文章来自于“机器之心”,作者“泽南”。
【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。
项目地址:https://github.com/Significant-Gravitas/AutoGPT
【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md