本文的主要作者来自北京航空航天大学、VAST 和上海交通大学。本文的第一作者为北京航空航天大学硕士生黄泽桓,主要研究方向为生成式人工智能和三维视觉。本文的通讯作者为 VAST 首席科学家曹炎培和北京航空航天大学副教授盛律。
最近,2D/3D 内容创作、世界模型(World Models)似乎成为 AI 领域的热门关键词。作为计算机视觉的基础任务之一,多视角图像生成是上述热点方向的技术基础,在 3D 场景生成、虚拟现实、具身感知与仿真、自动驾驶等领域展现了广泛的应用潜力。
近期多视角图像生成工作大多在 3D 数据集上微调文生图模型或视频生成模型,但这些方法在兼容大规模基础模型和生成高分辨率图像方面面临诸多挑战,表现在难以支持更大基础模型(如 SDXL),难以生成超过 512 分辨率的多视角图像,以及高质量 3D 训练数据稀缺而导致的出图质量下降。总的来说,这些方法的局限性主要源自对基础模型的侵入性修改和全模型微调的复杂性。
因此,北航、VAST、上海交通大学团队推出面向通用多视图生成任务的第一个基于 Adapter 的解决方案(MV-Adapter)。通过高效的新型注意力架构和统一的条件编码器,MV-Adapter 在避免训练图像基础模型的前提下,实现了对多视图一致性和参考图像主体相关性的高效建模,并同时支持对视角条件和几何条件的编码。
总结来说,MV-Adapter 的功能如下:
在了解 MV-Adapter 技术细节前,先来看看它的实际表现。
首先是文字生成多视角图像的能力。MV-Adapter 不仅支持训练时所采用的 SDXL 基础模型,还能适配经过定制训练后的文生图模型(例如二次元等风格模型)、潜在一致性模型(LCM)、ControlNet 插件等,大大提升了多视图生成的可控性和定制化程度,这是以往多视图生成模型难以做到的。
MV-Adapter 还能支持单张图像到多视角图像的生成,其生成的结果与输入图像具有高度的 ID 一致性。
下面是使用 MV-Adapter 从文字生成的多视角图像重建 3D 物体的结果,可以看到,因为 MV-Adapter 生成图像的多视角一致性高,其重建的几何结果也都较为出色。
下面是使用 MV-Adapter 从单张图像生成多视角图像后,重建 3D 物体的结果。
此外,MV-Adapter 还支持给已知 mesh 几何生成对应贴图,下面是从文字条件和单张图像条件生成的 3D 贴图结果,可以看到,其生成的贴图结果质量很高,且和输入的条件匹配程度高。
MV-Adapter 还能轻易扩展至任意视角生成,下面是生成 40 个俯仰角从低到高的结果,可以看到,尽管视角数量提升,MV-Adapter 仍能生成多视角一致的图像。
整体而言,MV-Adapter 做出了以下贡献:
MV-Adapter 是一种即插即用的适配器,它可学习多视图先验,无需进行特定调整即可将其迁移到文生图模型及其衍生模型中,使其在各种条件下生成多视图一致的图像。在推理时,我们的 MV-Adapter 包含条件引导器和解耦的注意层,可以直接插入定制化的基础模型中,以构成多视图生成器。
通用的条件引导器
为了支持多视角图像生成任务,我们设计了一个通用的条件引导器,能够同时编码相机和几何信息,从而为文生图模型提供不同类型的引导。相机条件化采用 “光线图”(raymap)表示,相机的位置和方向信息被精确编码,以便与预训练模型的潜在表示相匹配。几何条件化则通过全局的几何表示来引导生成,结合三维位置图和法线图的细节信息,捕捉物体的几何特征,有助于提高图像的纹理细节与真实感。条件引导器采用轻量级的卷积网络设计,有效整合不同尺度的多视角信息,确保模型能够在多个层级上无缝结合条件输入,进一步提升生成效果和适应性。
解耦的注意力层
我们提出了一种解耦的注意力机制,通过复制现有的空间自注意力层来引入新的多视角注意力层和图像交叉注意力层。这一设计保留了原始网络结构和特征空间,避免了传统方法对基础模型进行侵入式修改。在过去的研究中,为了建模多视角一致性,通常会直接修改自注意力层,这会干扰到模型的学习先验并需要进行全模型微调。而我们通过复制原有自注意力层的结构与权重,并将新层的输出投影初始化为零,从而确保新层可以独立学习几何信息,而不会影响原有模型的特征空间。这样一来,模型能够在不破坏原有预训练特征的前提下,充分利用几何信息,提升多视角生成的效果。
为了更高效地整合不同类型的注意力层,我们设计了一种并行的注意力架构。在传统的 T2I 模型中,空间自注意力层与文本交叉注意力层通过残差连接串联在一起,而我们的设计则将多视角注意力层与图像交叉注意力层并行添加。这种并行架构确保了新引入的注意力层能够与预训练的自注意力层共享输入特征,从而充分继承原始模型的图像先验信息。具体来说,输入特征在经过自注意力层后,还会同时传递给多视角注意力和图像交叉注意力层,允许这些新层与原始自注意力层并行工作,并在学习多视角一致性和图像条件生成时,无需从零开始学习。通过这种方式,我们能够在不破坏基础模型特征空间的前提下,高效地扩展模型的能力,提升生成质量和多视角一致性。
多视角注意力机制的具体实现。为了满足不同应用需求,我们设计了多种多视角注意力策略。针对 3D 物体生成,我们使模型能够生成位于 0° 仰角的多视角图像,并采用行级自注意力。对于 3D 纹理生成,考虑到视角覆盖要求,除了在 0° 仰角生成四个均匀分布的视角外,我们还加入了来自上下方向的两个视角。通过行级和列级自注意力相结合,实现了视角之间信息的高效交换。而在任意视角生成任务中,我们则采用全自注意力,进一步提升了多视角注意力层的灵活性和表现力。这样的设计使得生成效果更加精细、丰富,适应了各种复杂的多视角生成需求。
图像交叉注意力机制的具体实现。为了在生成过程中更精确地引导参考图像信息,我们提出了一种创新的图像交叉注意力机制,在不改变原始 T2I 模型特征空间的情况下,充分利用参考图像的细节信息。具体而言,我们采用预训练且被冻结的文生图 U-Net 模型作为图像编码器,将清晰的参考图像输入该 U-Net,并设置时间步 t=0,提取来自空间自注意力层的多尺度特征。这些细粒度的特征包含了丰富的主题信息,通过解耦的图像交叉注意力层注入到去噪 U-Net 中,从而利用预训练模型学到的深层表示,实现对生成内容的精准控制。这一方法有效提升了生成质量,并使得模型在细节控制上更加灵活和精确。
文章首先评估了多视图生成的性能,与现有方法进行对比。具体来说,文章评估了由文字生成多视图、由单张图像生成的多视图的质量和一致性,可以看到,MV-Adapter 的结果都优于现存方法。
文章还评估了使用 MV-Adapter 生成 3D 贴图的表现。从下面的结果可以看出,MV-Adapter 不管是生成的质量,还是推理的速度,都达到 SOTA 水平。
文章还对所提出的方法进行了消融实验,如下表所示,其验证了 MV-Adapter 训练的高效,以及其提出的并行注意力架构的有效性。
此外,文章还在附录部分探讨了以下内容:
更多实验细节请参阅原论文。
文章来自微信公众号“机器之心”