单目三维检测实时泛化，纯视觉自动驾驶鲁棒感知方法入选ECCV 2024

6004点击 2024-10-04 12:39

论文第一作者林宏彬来自香港中文大学 (深圳) Deep Bit 实验室，导师为李镇老师。实验室专注于利用人工智能技术进行跨学科研究，例如自动驾驶的三维感知、医学成像和分子理解的多模态数据分析和生成等。研究领域涵盖计算机视觉、机器 / 深度学习和 AI4Science。感兴趣的同学可以在主页上获取更多信息https://mypage.cuhk.edu.cn/academics/lizhen/

全自动驾驶系统的纯视觉方案如特斯拉 “Tesla Vision”，仅依赖于摄像头收集的图像数据，旨在实现高效且成本效益高的自动驾驶技术。在现实场景中，视觉感知模型在面对训练数据分布外场景的泛化能力尤为关键。来自香港中文大学（深圳）、新加坡国立大学、昆仑万维和南洋理工大学的学者们提出了一种名为 MonoTTA 的单目三维检测模型的实时测试时自适应方法。该方法使模能在测试阶段实时进行快速的无监督学习，显著提升了其在未知测试分布上的表现。

MonoTTA 通过自适应挖掘高置信度物体，同时利用负标签以缓解伪标签的噪音，有效减少了模型的漏检和误检，从而帮助单目三维检测模型的实时泛化。目前代码已开源，欢迎感兴趣的小伙伴到 GitHub 查看更多展示视频。

论文链接：https://arxiv.org/pdf/2405.19682
GitHub：https://github.com/Hongbin98/MonoTTA

纯视觉方案在自动驾驶的落地应用还有多远？

近年来，纯视觉自动驾驶系统在全球汽车行业中引起了广泛关注，标志着自动驾驶技术向更高智能化的迈进。不禁让人思考，在自动驾驶领域真正实现纯视觉方案还有多远呢？

在自动驾驶领域，纯视觉方案的泛化能力至关重要。然而，传统的机器学习技术通常依赖大量预先收集的数据来训练模型。实际应用中，测试数据的分布往往与训练数据不同，这种现象称为 “分布偏移”。分布偏移在实际测试中往往可能表现为：1）自然天气的变化导致道路上的物体被遮挡（如雾、雪），或光线条件显著变化；2）由于驾驶过程中的摄像头抖动，出现画面模糊；3）模型训练数据来自某个四季如春的城市，但在高纬度的城市进行测试。这些常见但棘手的分布偏移问题对深度学习模型的影响很大，往往导致模型性能显著下降，严重制约了其在室外场景的广泛部署。

纯视觉方案在遭遇分布偏移时具体会有什么问题呢？以单目三维检测模型为例，如图 2 所示，当一个经过良好训练的模型直接应用于受自然气候干扰（如雪和雾）影响的非训练分布测试场景时，相比在训练数据相同分布（即晴天）的场景，分布外测试数据中的物体检测分数会显著下降。正如我们在恶劣天气下行车，视野范围内的车辆、行人也会变得模糊不清，很难判断清楚远方到底是不是有其他车辆。然而当前的单目三维检测方法通常使用固定的分数阈值（如 0.2）来进行物体检测，物体检测分数的大幅下降导致单目三维检测模型出现大量漏检、错检，从而使得模型的性能大幅下降。

单目三维检测实时泛化，纯视觉自动驾驶鲁棒感知方法入选ECCV 2024

图 2 单目三维检测模型在域外场景下呈现物体检测分数的大幅下降，导致大量漏检、错检

那么该如何解决分布偏移呢？为了应对数据分布的潜在偏移和算法在实际应用场景中对可扩展性和时效性的需求，一种可行的范式是测试时自适应（Test-Time Adaptation, TTA）。该范式要求算法在测试阶段指导模型进行快速无监督 / 自监督学习，是当前用于提升深度模型分布外泛化能力的一种强有效工具。而其中一种更快速、更实时的子范式即实时测试时自适应（Fully Test-Time Adaptation, Fully TTA），其旨在通过在线方式利用连续的测试数据流实时调整和优化模型，缓解数据分布偏移带来的问题从而显著提高模型的性能。该范式能够满足现实场景下的算法部署与实时优化需求，因此吸引了学术界和工业界越来越多的关注。

现存 Fully TTA 方法却往往难以应对分布差异很大的检测任务。例如在极端的天气条件下，如图 2 中的雪天，单目三维检测模型往往无法生成足够的高分检测结果。通俗地说，模型在极端天气下会出现绝大部分物体对象都看不到了的问题。然而，现有的 Fully TTA 方法却是依赖于模型先检测出物体对象，再进行模型的实时适应。因此，这些方法在具有极大差异的分布外场景下难以对模型进行实时调整，换而言之，缺乏挖掘未被正确识别的物体（即漏检）的能力。

技术方案

基于前面的讨论，我们不禁思考：要怎么去设计一个 TTA 方法，去实现这种挖掘未被正确识别的物体（即漏检）的能力呢？来自香港中文大学（深圳）、新加坡国立大学、昆仑万维和南洋理工大学的学者们给出了他们的看法。学者们提出了一个针对单目三维检测模型的实时测试时自适应方法（Monocular Test-Time Adaptation，MonoTTA），其由以下两个适应策略所组成：1）基于可靠物体对象的模型自适应；2）基于负标签优化的伪标签噪音缓解。具体细节阐述如下：

单目三维检测实时泛化，纯视觉自动驾驶鲁棒感知方法入选ECCV 2024

图 3 MonoTTA 方法整体框架图

基于可靠物体对象的模型自适应：具体而言，测试数据分布的变化会导致物体对象的检测分数骤降，从而引起漏检和错检。而学者们通过分析发现，即便在域外场景下，高检测分数的物体对象仍然是相对可靠的（如下图 4（a）所示）。此外，即使仅通过高分物体对象（例如，score≥0.5）来优化模型，低分和高分对象的数量都会增加（即图 4（b））。这些观察启发我们要利用高分物体对象而不是所有物体对象进行模型适应，这将是一种更可靠的方式来缓解数据分布变化并发掘潜在物体对象。

单目三维检测实时泛化，纯视觉自动驾驶鲁棒感知方法入选ECCV 2024

图 4 针对各自域外场景下的物体对象检测分数分析

单目三维检测实时泛化，纯视觉自动驾驶鲁棒感知方法入选ECCV 2024

实验

方法有效性：MonoTTA 能为现存单目三维检测方法带来可观的性能提升：实验结果展示了探索的新方法可以在域外分布测试场景中为单目三维检测模型带来显著的改进，例如，在所制作的 KITTI-C 数据集上的 13 种类型（囊括了噪音、模糊、天气变化以及设备退化影响）的分布外偏移中，平均性能提升了 137% 和 244%。

单目三维检测实时泛化，纯视觉自动驾驶鲁棒感知方法入选ECCV 2024

此外，学者们还进一步在 nuScenes 数据集的白天到黑夜（Daytime → Night）和黑夜到白天（Night → Daytime）两个在真实数据场景下做进一步实验，验证了所提出方法的有效性：

单目三维检测实时泛化，纯视觉自动驾驶鲁棒感知方法入选ECCV 2024

结果可视化：进一步提供了可视化结果如下图所示

单目三维检测实时泛化，纯视觉自动驾驶鲁棒感知方法入选ECCV 2024

并且，基于 KITTI-RAW 数据提供了相应的 demo 视频（更多示例视频见 Github 链接），其中左边为原方法，而右边则对应 MonoTTA 实时适应后的检测结果。基于单张 4090 显卡，MonoTTA 仅需约 45ms 即可适配一张 1280X384 的测试图像，即 fps >=15。相信通过量化部署优化，这个速度还能被进一步提升。

单目三维检测实时泛化，纯视觉自动驾驶鲁棒感知方法入选ECCV 2024

Defocus 1（画面模糊 - 等级 1）

单目三维检测实时泛化，纯视觉自动驾驶鲁棒感知方法入选ECCV 2024

Fog 1（雾天 - 等级 1）

单目三维检测实时泛化，纯视觉自动驾驶鲁棒感知方法入选ECCV 2024

Gaussian 1（高斯噪声 - 等级 1）

基于上述实验结果，有理由相信通过单目三维检测模型的实时适应，该论文所设计的方法能够有效地提高模型的泛化性能，从而提升单目三维检测在自动驾驶中的落地和应用。

文章来自于微信公众号“机器之心”

单目三维检测实时泛化，纯视觉自动驾驶鲁棒感知方法入选ECCV 2024

关键词: AI , AI驾驶 , Tesla Vision , 人工智能

AITNT资源拓展

根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考

AI数据分析

【开源免费】DeepBI是一款AI原生的数据分析平台。DeepBI充分利用大语言模型的能力来探索、查询、可视化和共享来自任何数据源的数据。用户可以使用DeepBI洞察数据并做出数据驱动的决策。
项目地址：https://github.com/DeepInsight-AI/DeepBI?tab=readme-ov-file
本地安装：https://www.deepbi.com/
【开源免费】airda(Air Data Agent)是面向数据分析的AI智能体，能够理解数据开发和数据分析需求、根据用户需要让数据可视化。
项目地址：https://github.com/hitsz-ids/airda