NeurIPS 2025 | UniLumos: 引入物理反馈的统一图像视频重打光框架,实现20倍加速的真实光影重塑!

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
NeurIPS 2025 | UniLumos: 引入物理反馈的统一图像视频重打光框架,实现20倍加速的真实光影重塑!
5494点击    2025-11-25 10:03

图像与视频重光照(Relighting)技术在计算机视觉与图形学中备受关注,尤其在电影、游戏及增强现实等领域应用广泛。当前,基于扩散模型的方法能够生成多样且可控的光照效果,但其优化过程通常依赖于语义空间,而语义上的相似性无法保证视觉空间中的物理合理性,导致生成结果常出现高光过曝、阴影错位、遮挡关系错误等不合理现象。


针对上述问题,我们提出了 UniLumos,一个统一的图像与视频重光照框架。本工作的主要创新点主要为:


  • 引入几何反馈以增强物理一致性: 为缓解物理不合理现象,我们在生成过程中引入了来自 RGB 空间的几何反馈(如深度图与法线图),使光照效果与场景结构对齐,从而显著提升物理一致性。然而,该反馈机制依赖高质量输出作为视觉空间监督,而传统的流匹配多步去噪过程计算开销大。为此,我们采用路径一致性学习,在少步训练条件下保持有效监督,同时大幅提升推理速度。


  • 构建细粒度光影评估基准: 为实现对光影效果的细粒度控制与评估,我们设计了一个结构化的六维光影描述标签,以捕捉核心光照属性。在此基础上,提出了 LumosBench,一个基于视觉语言模型(VLM)的光照可控性评估基准,实现了对重光照精度的自动化、可解释评估。


实验表明,UniLumos 在显著提升物理一致性的同时,其重光照质量也达到了当前 SOTA 水平,并且在计算效率上比现有方法提升约 20 倍,实现了高质量与高效率的统一。


NeurIPS 2025 | UniLumos: 引入物理反馈的统一图像视频重打光框架,实现20倍加速的真实光影重塑!


  • 论文标题:UniLumos: Fast and Unified Image and Video Relighting with Physics-Plausible Feedback
  • 论文地址:https://arxiv.org/abs/2511.01678
  • 代码仓库:https://github.com/alibaba-damo-academy/Lumos-Custom
  • WanVideo ComfyUI支持: https://github.com/kijai/ComfyUI-WanVideoWrapper


Demo


NeurIPS 2025 | UniLumos: 引入物理反馈的统一图像视频重打光框架,实现20倍加速的真实光影重塑!


NeurIPS 2025 | UniLumos: 引入物理反馈的统一图像视频重打光框架,实现20倍加速的真实光影重塑!


NeurIPS 2025 | UniLumos: 引入物理反馈的统一图像视频重打光框架,实现20倍加速的真实光影重塑!


NeurIPS 2025 | UniLumos: 引入物理反馈的统一图像视频重打光框架,实现20倍加速的真实光影重塑!


本演示所呈现内容均来源于真实用户的生成内容,仅用于展示模型的效果。


研究背景与现有方案的局限性


重光照(Relighting)是计算机视觉与图形学中的一项核心任务,旨在保持场景几何、材质等内容固有属性不变的前提下,对图像或视频中的光照效果进行自由编辑与调整。该技术在电影后期、游戏开发、虚拟现实(VR)与增强现实(AR)等领域具有重要应用价值,例如实现演员在不同光照虚拟场景中的无缝合成,或对游戏环境氛围进行实时调节。


近年来,基于扩散模型(Diffusion Models)的方法在重光照任务中展现出强大的生成潜力。然而,当前主流方法在生成质量与实用性之间仍面临两个根本性挑战:


  • 挑战一:物理一致性的缺失


现有方法通常在语义潜空间中进行优化,其目标是实现语义层面的相似性,而非物理层面的准确性。这种设计导致模型易产生物理不一致现象,具体表现为:


  • 阴影错位(Misaligned Shadows): 阴影方向与物体三维结构不符;
  • 高光过曝(Overexposed Highlights): 高光区域细节丢失,不符合真实光学反射特性;
  • 遮挡关系错误(Incorrect Occlusions): 光线与物体之间的相互遮挡逻辑混乱。


尽管已有研究(如 IC-Light、Light-A-Video 等)尝试引入几何先验或强化时序一致性,但它们要么缺乏视觉域(Visual Domain)中的显式物理监督,要么为保持一致性而牺牲了推理效率。


  • 挑战二:评估体系的不完善


如何系统评估重光照结果的质量,是当前研究中的另一大瓶颈。现有通用图像评价指标(如 FID、LPIPS)主要关注整体感知相似度,却无法针对性衡量光照属性的准确性。例如,它们难以判断生成结果在「阴影方向是否正确」、「色温是否匹配」、「光照强度是否合理」等细粒度维度上的表现。这种评估体系的局限,严重制约了模型在光照可控性(Controllability)方面的迭代与优化。


NeurIPS 2025 | UniLumos: 引入物理反馈的统一图像视频重打光框架,实现20倍加速的真实光影重塑!

图 1:各基线方法的定性对比。所有方法均以一段主体视频和一段文本光影描述作为输入,生成在指定光照条件下具有相应背景的视频。UniLumos 生成效果更自然且符合物理一致性。其中,基线方法 IC-Light(逐帧闪烁严重)和 Light-A-Video(光照方向错误、细节丢失)相比,UniLumos 展现出更准确的阴影对齐与更高的时序稳定性。


统一的图像与视频重光照框架 (UniLumos)


为应对上述挑战,我们提出 UniLumos——一个统一的图像与视频重光照框架。如下图所示,该框架基于视频生成模型 Wan 2.1 构建,能够依据用户指定的光照条件(如图像参考、视频片段或文本提示),在保持场景内容结构与时序一致性的前提下,实现对图像与视频的高质量重光照。


NeurIPS 2025 | UniLumos: 引入物理反馈的统一图像视频重打光框架,实现20倍加速的真实光影重塑!

图 2:UniLumos 整体框架图。左侧为 LumosData(我们提出的数据构建流程),该流程包含四个阶段,用于从真实场景数据生成多样化的重光照样本对。右侧展示了 UniLumos 的架构,一个统一的图像与视频重光照框架,其设计目标是实现物理合理的光照控制。


核心创新


我们的核心创新包括一个旨在增强物理一致性的几何反馈机制,以及一个用于细粒度效果评估的基准:


  • 引入几何反馈以增强物理一致性。 为解决扩散模型缺乏物理约束的问题,我们引入了一种来自 RGB 空间的几何反馈机制。该机制采用深度图与表面法线图作为监督信号,二者均为场景的固有几何属性,具备光照不变性。在训练过程中,我们将模型生成的 RGB 图像输入预训练的密集几何估计模型(如 Lotus),实时提取其深度与法线信息,并通过计算其与原始图像几何信息之间的差异构建反馈信号,反向传播以约束生成过程。此机制强制模型学习光影与三维场景结构的对齐关系,从而显著改善阴影、着色与空间一致性。然而,该物理反馈机制依赖高质量的 RGB 输出以提取准确的几何信息,而传统的多步去噪过程计算成本高昂。为此,UniLumos 引入了路径一致性学习,使模型在少步训练模式下仍能保持有效的几何监督。最终,UniLumos 在推理速度上较现有 SOTA 方法提升达 20 倍,同时保持了更高的物理一致性。


  • 构建细粒度评估基准。 为解决评估体系不完善的问题,我们构建了以下数据与评估基础基准:


  • LumosData: 引入一套结构化的六维光照标注协议,用于精确捕捉核心光照属性,包括光照方向、光源类型、强度、色温、时间动态与光学现象。


  • LumosBench: 提出一个基于大规模视觉语言模型的自动化评估基准,通过判断生成结果是否在六个维度上与控制指令精确匹配,实现对重光照效果的细粒度、可解释评估。


方法详述


高质量训练数据构建 (LumosData)


我们首先构建了一个高质量的光影训练数据集 LumosData,其流程如上图(左)所示。这是一个可扩展的数据集构建流程,用于从真实世界视频中提取高质量的重光照训练样本。


NeurIPS 2025 | UniLumos: 引入物理反馈的统一图像视频重打光框架,实现20倍加速的真实光影重塑!


模型架构与训练


  • 潜空间扩散与条件注入


NeurIPS 2025 | UniLumos: 引入物理反馈的统一图像视频重打光框架,实现20倍加速的真实光影重塑!


  • 联合目标函数


NeurIPS 2025 | UniLumos: 引入物理反馈的统一图像视频重打光框架,实现20倍加速的真实光影重塑!


  • 训练策略


为平衡物理监督与训练效率,我们借鉴路径一致性调度思想,采用选择性优化策略。在每轮训练迭代中,我们按 80/20 比例划分批次,以避免全监督带来的过高开销,同时保留有效的学习信号。


NeurIPS 2025 | UniLumos: 引入物理反馈的统一图像视频重打光框架,实现20倍加速的真实光影重塑!


实验结果与分析


我们在图像与视频重光照任务上进行了广泛实验,并与多种重光影 SOTA 方法进行了系统比较。


A. 定量结果:多项指标达到 SOTA


如下表所示,UniLumos 在所有关键指标上均取得最优性能:


  • 视觉保真度: 在图像与视频任务中,PSNR 与 SSIM 均优于所有基线模型,表明其生成结果更清晰、结构保持更好。


  • 时间一致性: 在视频任务中,UniLumos 的 R-Motion 指标显著低于其他方法(如 Light-A-Video),说明其生成视频的光影过渡更平滑,闪烁与抖动现象更少。


  • 物理一致性: 在我们提出的 Lumos 一致性指标上,UniLumos 的生成光影准确性得分显著高于基线,其密集几何误差也大幅降低,验证了其物理合理性的显著提升。


NeurIPS 2025 | UniLumos: 引入物理反馈的统一图像视频重打光框架,实现20倍加速的真实光影重塑!


B. LumosBench 细粒度可控性分析


我们进一步使用 LumosBench 评估模型在六个光照维度上的可控性。具体而言,我们构建了一个包含 2000 条测试提示词的数据集,每条提示词由一个视频和一条结构化文本描述组成,旨在每次仅变动一个光照属性,同时保持其他变量恒定。这些提示词覆盖六大类别:方向、光源类型、强度、色温、时间动态与光学现象,每个类别下包含多个子类型(例如方向分为前/侧/后光)。


为衡量生成光照属性与预期属性之间的一致性,我们采用 Qwen2.5-VL 对重光照结果进行分析,并判断目标属性是否正确呈现。每个维度独立评分,最终的可控性得分为所有六个维度的平均值。


UniLumos (1.3B) 的平均可控性得分达 [此处缺失具体数值],显著高于其他专有重光照模型,如 IC-Light Per-Frame 与 Light-A-Video。其表现甚至优于参数量更大的通用视频生成模型(如 Wan2.1 14B),说明 UniLumos 在光照属性的细粒度控制方面具备显著优势。


NeurIPS 2025 | UniLumos: 引入物理反馈的统一图像视频重打光框架,实现20倍加速的真实光影重塑!


C. 定性结果:视觉效果更真实、更稳定


我在基线方法对比和下图中提供了定性比较结果,充分展现了 UniLumos 在光照真实感、时序一致性与可控性方面的优势:


  • 光照质量与可控性: 如基线方法对比图所示,UniLumos 生成的光照效果能更准确地匹配目标描述,细腻地捕捉方向性阴影、色调与强度变化。对比方法则要么未能有效反映预期的光照变化,要么产生过度均匀、缺乏真实感的结果。


  • 时序一致性: 与逐帧处理的 IC-Light、Light-A-Video 等基线方法相比,UniLumos 实现了更平滑的帧间过渡,有效避免了闪烁或结构畸变。这一优势得益于我们所采用的时空联合建模机制,以及物理感知监督与路径一致性训练的进一步增强。


  • 前景细节保持: UniLumos 在面部结构、衣物纹理等主体细节的保持上优于基线模型。例如,Light-A-Video 偶尔会出现形变或身份特征漂移,而我们的模型在长序列中仍能保持高度保真。


  • 基于参考视频的重光照: 下图展示了 UniLumos 在不同参考视频条件下的生成效果。模型成功实现了全局光照方向与细微空间变化的跨场景适配,展现出在真实场景下优异的泛化能力。


NeurIPS 2025 | UniLumos: 引入物理反馈的统一图像视频重打光框架,实现20倍加速的真实光影重塑!


D. 效率对比:实现 20 倍加速


在生成 49 帧 480p 视频的任务中:UniLumos (1.3B) 仅需 12 秒;IC-Light(逐帧处理)需 277 秒;Light-A-Video (Wan-1.3B) 需 756 秒;Light-A-Video (CogVideoX-2B) 需 917 秒。UniLumos 在保持 SOTA 生成质量的同时,实现了显著的推理效率提升。


NeurIPS 2025 | UniLumos: 引入物理反馈的统一图像视频重打光框架,实现20倍加速的真实光影重塑!


E. 消融实验:关键模块分析


如下表和图所示,我们通过消融研究验证各模块的贡献:


  • 物理引导反馈: 在同时移除深度与法向反馈(w/o All Feedback)的条件下,模型在图像质量与物理一致性方面均出现显著下降,验证了本文所提出物理引导损失函数的必要性。值得注意的是,仅移除法向监督所造成的性能下降远大于仅移除深度监督,这表明在光影交互建模中,表面朝向信息相较于场景距离信息具有更关键的作用。


  • 路径一致性学习: 在去除路径一致性模块(w/o Path Consistency)的情况下,各项物理指标仅出现轻微下滑,同时 SSIM 与 LPIPS 指标仍保持竞争力。这表明路径一致性模块在几乎不牺牲生成性能的前提下,为少步生成场景带来了可观的效率优势,证明了其实际应用价值。


  • 训练模式: 为评估本文统一训练范式的有效性,我们对比了分领域训练的模型变体:仅使用视频训练会导致视觉质量下降,而仅使用图像训练则会损失时序平滑性。相比之下,我们的统一方法在两类输入上均取得了高质量的重光照结果,并实现了最优的时序一致性平衡。


NeurIPS 2025 | UniLumos: 引入物理反馈的统一图像视频重打光框架,实现20倍加速的真实光影重塑!


NeurIPS 2025 | UniLumos: 引入物理反馈的统一图像视频重打光框架,实现20倍加速的真实光影重塑!


结论


针对现有基于扩散模型的重光照方法在物理真实性差和评估维度单一等方面的挑战,我们提出了 UniLumos,一个统一的图像与视频重光照框架。该框架引入 RGB 空间的几何反馈,包括深度图与法线图作为监督信号,并将其与流匹配基模相结合,显著提升了光照效果的物理一致性。


为克服该反馈机制带来的计算效率瓶颈,我们采用路径一致性学习来增强物理监督的有效性,在实现当前最优生成质量的同时,带来了 20 倍的推理加速。


此外,为解决评估体系不完善的问题,我们构建了 LumosBench,一个基于视觉语言模型的光照可控性评估基准,实现了对重光照精度的自动化、可解释评估。


文章来自于“机器之心”,作者 “机器之心”。

AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。

项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md

在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0