# 热门搜索 #
搜索
自动驾驶雨天也能平稳规划,北理港中文腾讯提出端到端学习道路几何图形
9097点击    2024-07-14 14:10

用几何图形来实时构建高精地图,真香!


就是雨天也不在话下~



我们都知道,实时高精地图,能为自动驾驶汽车提供及时、紧凑且语义丰富的环境信息。但如何提高它的稳健性、有效应对各种复杂场景,成为一大挑战。


来自北理、港中文、腾讯AI Lab团队引入一种新表征学习方法——GeMap,端到端学习地图实例中的几何形状和关系。



结果在各种遮挡、路口转弯的场景也能表现平稳,并实现SOTA。该论文被ECCV 2024收录。



来看看这到底是如何做到的?


高精地图的几何表示


在线矢量化高清 (HD) 地图的构建对于下游预测和规划至关重要。



然而,城市道路系统中实例的形状和关系仍未得到充分探索,例如矩形、平行、垂直或特定车道宽度。



此外,当车辆前进或转弯时,这些形状和关系属性将保持不变。以前的方法基于绝对坐标来格式化实例,在这种情况下,绝对坐标对平移和旋转很敏感。



团队提出了GeMap(几何地图),它以端到端的方式学习地图实例的欧几里得形状和关系,超越了基本感知。


来看看具体框架。


首先,透视图 (PV) 图像被转换为鸟瞰图 (BEV) 特征,然后几何解耦解码器输出矢量化高清地图。


在解码器的每个块中,查询首先通过欧几里得形状和关系注意力进行处理,重点关注几何相关性。


最后,通过形状和关系约束在 G-Representations 中增强预测。



几何表示


团队引入了捕捉单个地图实例的形状(欧几里得形状线索)和不同实例之间的关系(欧几里得关系线索)的几何表示。


欧几里得形状线索。位移向量的长度和相邻向量之间的角度构成形状线索,用于计算形状损失。例如,矩形与 90 度角和两个相等的边相关。



欧几里得关系线索。 点对之间的距离和位移矢量对之间的角度表示关系线索。关系线索与欧几里得关系几何有更表面的联系,例如平行或垂直。



几何解耦注意力


一种被MapTR,PivotNet等采用的架构将地图元素上的每一个点对应到Transformer的一个查询。这一架构的问题在于:对两大类的几何性质(关系和形状)不加区分。


在自注意力中,所有查询(也就是“点”)之间都平等地相互作用。然而,地图元素的形状对应着一组一组的查询。这些组之间的交互,在感知元素形状时就成为了累赘。反之在感知元素之间关联的时候,形状亦成为了冗余因素。这意味着将形状、关联的感知解耦,可能带来更好的结果


他们提出了几何解耦注意力(GDA)。GDA 将 vanilla 自注意力模块解耦为欧几里得形状注意力(捕获实例内几何)和欧几里得关系注意力(捕获实例间几何)。



实验结果


他们在nuScenes和Argoverse 2两个数据集上进行了大量实验。


两者都是常用的大规模自动驾驶数据集,且提供了地图标注。


主要结果


在nuScenes上,他们进行了三组实验。


我们首先使用了一种比较纯粹的目标函数组合,只包括几何损失和其它必要的损失(如点到点距离、边的方向、分类),这一组合是为了体现我们提出的几何性质的重要价值,而不过多追求SOTA的结果。


可以看到,在这种情况下,相比于MapTR,我们的方法能在mAP提升了4%。为了探索GeMap的极限,团队还加上了一些辅助目标,包括分割和深度估计,在这种情况下实现了SOTA(mAP提升0.7%)。



值得注意的是,取得这样的提升并不需要牺牲太多的推理速度。


最后,我们还尝试了引入额外的LiDAR模态输入,在额外模态输入的加持下,GeMap的性能也能取得进一步提升。


同样,在Argoverse 2数据集上也取得了非常突出的效果。



消融实验


在nuScenes上进一步进行的消融实验证明了几何损失和几何解耦注意力的价值。


有趣的是,正如团队所预料的,直接使用几何损失反而会带来模型表现的下降。他们认为这是因为结构上的对形状和关联处理的耦合,导致模型很难优化几何表示;而在与几何解耦注意力结合之后,几何损失就发挥了应有的作用。



更多结果


此外,我们还在nuScenes上进行了可视化分析。可视化的结果表明,GeMap除了具有对旋转和平移的鲁棒性,在处理遮挡问题上也表现出了一定优势,如下图。图中有挑战性的地图元素使用橘色方框标出。


对于对遮挡的鲁棒性,在雨天的实验结果中也得到了定量验证。



(因为雨水对相机有天然的遮挡)



这可以解释为模型学到了几何性质,因此即使有遮挡,也能更好地猜出地图元素。


例如,模型理解了车道线的形状,那么只需要”看到“一部分,就能够估计剩下的部分;模型理解了车道线之间的平行关系,或者车道的宽度特点,因此哪怕其中一条被遮挡,也能根据平行、宽度因素猜测被遮挡的部分。


在自动驾驶系统中,几何性质实际上广泛存在。


例如,在3D目标检测中,车辆的朝向在同车道上通常具有一致性;在运动预测中,轨迹本身具有形状上的先验;在3D车道线检测中具有车道宽度先验。


GeMap的建模几何性质的思路可以恰当地扩展到上述更多的自动驾驶任务中,从几何角度增强整个自动驾驶系统的性能。


不过,GeMap本身的感知距离相对有限,可以对此进行针对性的改进以增强长距离的感知。


比较常见的思路包括增加时序融合模块;将相机、激光雷达、毫米波雷达等多种传感器输入有机地融合,实现感知距离上的优势互补。


文章来源于“量子位”,作者“关注前沿科技


关键词: AI , GeMap , 模型训练 , AI驾驶
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
RAG

【开源免费】graphrag是微软推出的RAG项目,与传统的通过 RAG 方法使用向量相似性作为搜索技术不同,GraphRAG是使用知识图谱在推理复杂信息时大幅提高问答性能。

项目地址:https://github.com/microsoft/graphrag

【开源免费】Dify是最早一批实现RAG,Agent,模型管理等一站式AI开发的工具平台,并且项目方一直持续维护。其中在任务编排方面相对领先对手,可以帮助研发实现像字节扣子那样的功能。

项目地址:https://github.com/langgenius/dify


【开源免费】RAGFlow是和Dify类似的开源项目,该项目在大文件解析方面做的更出色,拓展编排方面相对弱一些。

项目地址:https://github.com/infiniflow/ragflow/tree/main


【开源免费】phidata是一个可以实现将数据转化成向量存储,并通过AI实现RAG功能的项目

项目地址:https://github.com/phidatahq/phidata


【开源免费】TaskingAI 是一个提供RAG,Agent,大模型管理等AI项目开发的工具平台,比LangChain更强大的中间件AI平台工具。

项目地址:https://github.com/TaskingAI/TaskingAI