世界模型新突破！极佳科技提出DriveDreamer4D，首次利用世界模型增强4D驾驶场景重建效果

5643点击 2024-10-28 15:00

近日，极佳科技联合中国科学院自动化研究所、理想汽车、北京大学、慕尼黑工业大学等单位提出DriveDreamer4D，是首个利用世界模型增强 4D 驾驶场景重建效果的工作。DriveDreamer4D 可以大幅提升多种自动驾驶 4D 重建算法的效果，在 user study 实验中获得了超过 80% 的偏好投票，为走向空间智能和 4D 世界模型迈出了坚实的一步。

论文链接：https://arxiv.org/abs/2410.13571
项目主页：https://drivedreamer4d.github.io/
代码地址：https://github.com/GigaAI-research/DriveDreamer4D

闭环仿真技术是推动端到端自动驾驶系统发展的关键。目前的传感器仿真方法，如 NeRF 与 3DGS，主要依赖于训练数据分布，若训练数据不足，则这些方法在复杂驾驶操作（例如变道、加速或减速）的重建效果不佳。近来，自动驾驶世界模型（World Model）证明其可以生成丰富驾驶数据。在此背景下，本文提出了 DriveDreamer4D，是首个利用世界模型来提升自动驾驶场景 4D 重建质量的算法。

DriveDreamer4D 可以为驾驶场景提供丰富多样的视角（包括变道、加速和减速等）数据，以增加动态驾驶场景下的闭环仿真能力。

DriveDreamer4D 利用世界模型作为数据引擎，基于真实世界的驾驶数据合成新轨迹视频（例如变道场景）。如下图所示，DriveDreamer4D 不仅可以提升多种重建算法（PVG,S³Gaussian,Deformable-GS）的图像渲染质量，还可以提升驾驶前景（车辆）和背景（车道线）的时空一致性。

世界模型新突破！极佳科技提出DriveDreamer4D，首次利用世界模型增强4D驾驶场景重建效果

DriveDreamer4D 的总体结构框图如下所示，轨迹生成模块（NTGM）用于调整原始轨迹动作，如转向角度和速度，以生成新的轨迹。这些新轨迹为提取结构化信息（如车辆 3D 框和背景车道线细节）提供了全新的视角。随后，基于世界模型的视频生成能力，并利用更新轨迹后得到的结构化信息作为控制条件，可以合成新轨迹的视频。最后，原始轨迹视频与新轨迹视频相结合，进行 4DGS 模型的优化。

世界模型新突破！极佳科技提出DriveDreamer4D，首次利用世界模型增强4D驾驶场景重建效果

在实验中，如下第一列视频所示，可以看出多种传统算法（PVG, S³Gaussian,Deformable-GS ）在变道场景下的车道线、天空、车辆都会模糊，甚至出现 “鬼影” 现象。而 DriveDreamer4D 可以提升多种重建算法在复杂变道场景下的视频渲染效果，不仅消除了 “鬼影”，而且提升了交通元素的渲染质量，车辆和车道线都更加清晰。

世界模型新突破！极佳科技提出DriveDreamer4D，首次利用世界模型增强4D驾驶场景重建效果

除了变道，在车辆变速场景下，传统算法（PVG,S³Gaussian,Deformable-GS）的表现能力也受到限制，如下第一列视频所示，这些算法在自车加速时，前方的车辆都出现了 “拖影” 现象。而经过 DriveDreamer4D 提升后，渲染的车辆的时空一致性更高。

世界模型新突破！极佳科技提出DriveDreamer4D，首次利用世界模型增强4D驾驶场景重建效果

在定量实验中，本文证明了 DriveDreamer4D 不仅可以提升多种重建算法 (PVG, S³Gaussian,Deformable-GS）的图像渲染质量 (如表 2)，还可以提升车辆和车道线渲染的时空一致性（如表 1）。此外，本文还通过 user study（表 3）证明用户更加偏好 DriveDreamer4D 的渲染效果，获得了超过 80% 的投票率。

世界模型新突破！极佳科技提出DriveDreamer4D，首次利用世界模型增强4D驾驶场景重建效果

表 1 DriveDreamer4D 提升了车辆和车道线重建渲染的时空一致性

世界模型新突破！极佳科技提出DriveDreamer4D，首次利用世界模型增强4D驾驶场景重建效果

表 2 DriveDreamer4D 提升了图像重建渲染质量

世界模型新突破！极佳科技提出DriveDreamer4D，首次利用世界模型增强4D驾驶场景重建效果

表 3 User study 证明用户更加偏好 DriveDreamer4D 的渲染效果

本项 DriveDreamer4D 工作是极佳科技研究团队之前 DriveDreamer 和 DriveDreamer-2 工作的延续。

DriveDreamer 是首个面向真实驾驶场景的世界模型，可以根据不同的控制条件生成自动驾驶周视视频，有效提升了 BEV 感知的性能；DriveDreamer-2 在此基础上，引入大语言模型，可以生成用户自定义的驾驶数据，进一步提升了长尾和 corner case 场景下的数据生成能力。针对端到端自动驾驶和闭环仿真对于场景重建的迫切需求，DriveDreamer4D 利用 DriveDreamer 系列工作的能力，用以生成新轨迹视频（例如变道、加减速），从而大幅提升了多种 4DGS 算法的重建效果。

本篇论文的牵头完成单位为极佳科技，是一家空间智能公司，致力于将视频生成提升到 4D 世界模型，赋予 AI 大模型对于 4D 空间的理解、生成、常识和推理的能力，实现 4D 空间中的交互和行动，走向通用空间智能。通用空间智能对于影视游戏、元宇宙等虚拟空间的内容创作，以及自动驾驶、具身智能等物理空间的数据生成和认知推理能力，都有巨大的价值和作用。极佳科技是国内最早开始探索和布局世界模型和空间智能方向的公司，在物理空间和虚拟空间两方面都已取得显著的技术和商业进展，获得了行业广泛的认可。

文章来自于微信公众号“机器之心”

世界模型新突破！极佳科技提出DriveDreamer4D，首次利用世界模型增强4D驾驶场景重建效果

关键词: 世界模型 , AI , DriveDreamer4D , AI 4D