VLA模型在智驾领域前景广阔,但面临算力和成本挑战。
端到端2.0时代,会“嗖”地一下来了?
2024年,智驾领域最热的词,就是“端到端”。甚至,到了不聊端到端都没法出门的程度。
不过,在这个光速迭代的智能电动化时代,“端到端”会被迭代替掉,也是可想而知的。于是,VLM、VLA、世界模型……概念涌现,被誉为“端到端2.0”的VLA(Vision-Language-Action Model,视觉-语言-动作模型)闪亮登场。
在我之前的文章《奇瑞的智驾水平,到哪步了?》中,曾经提到,根据规划,奇瑞的VLA大概2026年会上。也就是,2026年完成VLA大模型的构建,2027年要达到具身智能(VLA是具身智能领域的新范式)的程度。
主机厂深度觉醒,但是,也要到2026年完成模型构建。所以说,开炒的VLA概念有那么快落地吗?
智驾概念不断涌现,也代表各玩家的技术路线和投入侧重。
实际上,“端到端”刚成为新的技术范式,甚至大量公司还没来得及完成研发模式切换,端到端就又进化了。而“端到端”的最新进化方向是,深度融入多模态大模型,进入VLA模式。
就像年中理想汽车发布的名为“端到端+VLM”的双系统架构,其中,端到端跑在一颗Orin X芯片上,VLM(视觉语言模型)跑在另一颗Orin X上。
随后不久,元戎启行CEO周光表示,预计明年推出VLA。其智驾方案将搭载在魏牌蓝山上,仅需一颗Orin X芯片。
11月底,商汤绝影举办了自己的第一个AI DAY,亮出名为“开悟”的世界模型,可生成仿真数据,与量产实车采集的真实数据结合,共同重建物理世界。商汤绝影CTO肖枫还直接说:“‘地大华魔’头部格局,已经是过去式了。”
事实上,VLA模型最早见于机器人行业。2023年7月28日,谷歌DeepMind推出了全球首个控制机器人的视觉语言动作(VLA)模型RT-2。其后,这个模型概念快速扩散到智驾领域。
今年10月底,谷歌旗下自动驾驶公司Waymo推出基于端到端的自动驾驶多模态模型EMMA。按照国内行业人士的理解,这就是一个VLA模型架构。
那么,VLA真的就会这么快来到吗?说实话,我是不信的。就像全固态电池,还有智能底盘,行业內的“概念先行”歪风,在大模型领域也是如此。
实际上,商汤绝影CEO王晓刚不是也说,“端到端的发展还是要经历一个过程,包括基础设施、数据积累、数据仿真。要真正发挥它的威力,这不是一蹴而就的。”
理智地看下,在端到端才进入规模推广之际,所谓端到端2.0的VLA方案立刻想落地面临很现实的挑战。
一方面,现阶段车端芯片硬件还不足以支撑多模态大模型的部署落地。比如理想的端到端+VLM模型,对车端芯片硬件有相当高要求,目前是2颗英伟达OrinX芯片,算力达到508Tops。
不过,有行业人士表示,现阶段车端的算力很难支撑VLA模型部署,需要像英伟达的最新一代车载AI芯片Thor的算力来支撑。再者,单片AI算力1000Tops的Thor大概率会延期发布,加上英伟达芯片的量产时间与成本挑战,对车企而言是个大问题。
还有个成本问题。比如,如果单颗Orin X可以搞定端到端,那么,搭载两颗Orin X芯片的车,包括蔚来搭载四颗Orin X芯片的车,冗余是不是太多,算力是否太浪费?
当然,车企也会考虑用一些国内的自研大算力芯片。不过,这些都还是未知数。
除了算力,更具挑战的是,如何将端到端与多模态大模型的数据与信息作深度融合。这考验着车企智驾团队的模型框架定义能力、模型快速迭代能力。只是,VLA技术路线的骤然升级与竞赛变奏,为还没发力端到端的玩家设置了更高门槛,看起来更加高不可攀。
实际上,国内现在还在“卷”从“两段式”的端到端到“一段式”的端到端,VLA哪能那么快呢?
按照博世智能驾控中国区总裁吴永桥的判断,到明年,在国内应该只有1-2家企业能够实现一段式端到端。
当然,从两段式端到端逐步过渡到一段式端到端,最终实现世界模型的应用,这一路线图正逐渐成为业内共识。这是一条车端到云端的路。
简单来说,以端到端和VLA为代表的技术路线,侧重车端,以世界模型为代表的技术路线,侧重云端。当然,云端的争夺也非常激烈,甚至有说法是,“未来竞争的核心在云端。”
而随着下一代端到端到来,算力需求更大,智驾话语权的争夺也更激烈。车端和云端,当下与未来,又如何权衡?这也考验着车企的智慧。
实际上,云端的军备竞赛早就非常激烈。比如,今年7月理想汽车公布云端算力2.4 EFLOPS,最新数字是5.39 EFLOPS。小鹏汽车当前云端算力2.3 EFLOPS,预计明年达到10 EFLOPS。而去年9月问界M7改款发布会时,余承东披露华为云端算力为1.8 EFLOPS。最新数字已经到了7.5 EFLOPS。
从智驾竞争的终局来看,小鹏汽车认为,布局云端大模型才是制胜关键。而且,其选择的云端大模型路线和Open AI所选择的路线不谋而合。
根据小鹏的架构,云端大模型通过知识蒸馏,形成车端的端到端大模型。此外,云端大模型还被用于世界模型和数据的清洗和挖掘。在云端大模型的加持下,小鹏汽车的智驾参数量会比传统车端大模型高80倍,带来8倍有效视觉感知信息量。
这也是为什么,小鹏汽车的一套智驾软件标配全车系,涵盖SUV、轿车、轿跑、MPV等多车型。
不仅是小鹏汽车, 商汤绝影的“开悟”世界模型,基于商汤20 EFLOPS的云端算力,将能够用“实车道路采集+世界模型生成”双轮驱动,实现Corner Case数据生成。
蔚来在今年的NIO IN 2024创新科技日上,也发布了其智能驾驶世界模型NWM。该模型是一个具有全量理解数据、长时序推演和决策能力的智能驾驶世界模型。它能够在100毫秒内推演出216种可能发生的场景,并寻找到最优决策。
而对于加快云端算力储备同时发力车端模型的理想来说,VLA、世界模型以及类似特斯拉的做法等几个方向都在探索,并通过扩大端到端模型的体量,训练出VLM的早期认知能力。
值得一提的是,数据量也成为下一代端到端的竞争核心。元戎启行CEO周光认为,端到端1.0交付达到万台规模级就有挺好的效果。而真正做VLA,10万台可能只是一个入门券,要看谁能更快达到10万台交付规模。
当然,到底是从云端降维到车端,还是车端升维到云端,目前没有统一的答案,各家众说纷纭。只是,大家都不能回避的是,对算力的要求越来越高,成本越来越高。能不能留在牌桌上,是最大的问题。
这不,特斯拉的FSD V13版本已经出来了,马斯克说能力提升500~1000%。那么,大家只有继续卷咯。
文章来自微信公众号“C次元”,作者“王小西”