穿帮,抽动,DeepMind这篇论文瞄准了AI视频最后的破绽|Hao好聊论文

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
穿帮,抽动,DeepMind这篇论文瞄准了AI视频最后的破绽|Hao好聊论文
6097点击    2026-02-02 09:34

去年下半年,模型界最大的惊喜莫过于Sora 2和Veo 3,他们已经把视频生成推到了新高度:光影完美,纹理细腻,甚至有着很高的时空一致性。


但抽卡依然不可避免。因为很多原有的瑕疵,比如穿模、遮挡后跳跃、诡异的互动抽动依然难以避免。你仍然可以在其中看到衣物穿进身体、手指两帧之间换了交叉位置、物体边缘细微抽动、脚步在地面上滑一下又黏回去的情形。


穿帮,抽动,DeepMind这篇论文瞄准了AI视频最后的破绽|Hao好聊论文


穿帮,抽动,DeepMind这篇论文瞄准了AI视频最后的破绽|Hao好聊论文


它们不一定显眼,却足以破坏真实性。


这些瑕疵其实有共同的根源,模型能把每一帧画得越来越像,但对「同一个点在三维空间里如何随时间连续运动」的理解仍然有限


今年1月Deepmind的一篇论文《Do generative video models understand physical principles?》考察了上一代SOTA视频模型,如Sora、Runway Gen3等后,认为视频生成模型在物理理解方面非常有限,而且高逼真并不保证高物理一致性


穿帮,抽动,DeepMind这篇论文瞄准了AI视频最后的破绽|Hao好聊论文


比如Sora,它生成的视频对于其他模型来讲最难分辨真假,但在物理理解测试(Physics-IQ Score)中,Sora 的得分却是最低的。


这至少说明,今天最先进的视频生成仍然在很大程度上做的是「逐帧合理化」,而不是在内部维护一个稳定的世界结构。


理解世界结构,本身是分几个层面的,对主体的认知、对运动的认知和对物理规则的认知。目前的模型对运动的认知很不完善,物理规则更是有很远差距。


要解决这个问题,其中最直接的方法之一,就是从扁平的 2D 视频中,强制提取出坚硬的 3D 骨架和时间维度。也就是可持续的 4D(3D + 时间)几何约束。之后,把这种约束以数据的形式教给模型。


DeepMind 的新论文《Efficiently Reconstructing Dynamic Scenes One D4RT at a Time》正是为这一方法建立了一个地基。它让我们能从一段普通视频里,又快又统一地恢复一个动态场景的 4D 几何。


穿帮,抽动,DeepMind这篇论文瞄准了AI视频最后的破绽|Hao好聊论文


这样我们就可能把运动轨迹该怎么走、遮挡该怎么发生、点在 3D 里连续移动变成一种可以规模化生产的训练信号,让生成模型别再靠“看起来差不多”蒙混过关。


01


把视频变成一场时空问答


过去学界其实有两派做路径重建的方法。


第一个是重建派。他们的核心逻辑就是「只要把每一帧的 3D 世界都完美造出来,运动轨迹自然就有了」。


比如SfM/MVS(Structure-from-Motion / Multi-View Stereo),它们比较像老派的测绘员。它们依靠数据模型,通过对比不同角度的照片来算出点的大概3D位置。之后再通过多轮模块化去重建整个3D世界。


穿帮,抽动,DeepMind这篇论文瞄准了AI视频最后的破绽|Hao好聊论文


但他们极其依赖视角的移动。如果摄像机不动,只有画面里的人在动,经典假设下它们就彻底无解了,算不出深度。


还有现在最流行的NeRF,它是用神经网络去表示空间中每个点的密度与颜色,然后通过渲染让预测图像和真实图像一致。在构建4D场景时,动态 NeRF 会引入时间、形变场(warp field)。NeRF 的 KPI 是画得像,而不是位置准,几何一致性往往是间接目标,因此在动态场景上更容易出现身份漂移。只要渲染出来的图骗过人眼就行,至于这个点在上一秒和下一秒是不是同一个物理点,它并不关心。


穿帮,抽动,DeepMind这篇论文瞄准了AI视频最后的破绽|Hao好聊论文


穿帮,抽动,DeepMind这篇论文瞄准了AI视频最后的破绽|Hao好聊论文


所以你经常发现,NeRF 重建的场景里,物体的运动轨迹是断裂或漂移的——看着像连上了,其实物理上没连上。


除此之外,这种重构方法还有一个巨大的BUG,就是想知道一个点在哪,NeRF 必须把整张图重新渲染一遍。你想知道某个路人甲在哪,却非要剧组把整场戏重新演一遍,这成本太离谱了。


另一类是跟踪型,比如光流、点跟踪、scene flow。


这套方法最初是用来追踪2D点的,它们不关心背景怎么样,只盯着画面里的某一个像素点,看它下一帧移动到了哪里。而scene flow给2D加了一层深度坐标,因此可以大致判断这个点在不同时间的3D位置。


穿帮,抽动,DeepMind这篇论文瞄准了AI视频最后的破绽|Hao好聊论文


这套3D追踪方法天生是以镜头为中心的。它们测量的是这个点离镜头近了还是远了,而非构建一个统一的 3D 坐标系。一旦摄像机晃动,所有的轨迹数据都会乱成一锅粥。


造景派太重,且为了画得像牺牲了物理上的跟得准;跟踪派太轻,只盯着局部,一旦镜头晃动就容易迷失方向。对于「同一个点在某个时间上在哪里」这个问题,它们都缺乏一个跨时间、跨视角都一致的坐标系。


而DeepMind提出的 D4RT 用了一个非常简单、但非常关键的方法建立这个统一坐标系。它把 4D 几何重建改写成「在指定坐标系下回答点查询(query)」的问题


穿帮,抽动,DeepMind这篇论文瞄准了AI视频最后的破绽|Hao好聊论文


在 D4RT 的系统中,当你想要查询一个点时,必须向模型输入三个明确的指令:


1. 身份(Who): 我选定了第几帧里的哪个像素点? (u,v, tsrc)


2. 时间(When): 我想知道它在哪个时刻的位置? (ttgt)


3. 参照系(Where): 请用哪个时刻的相机坐标系来回答我? (tcam)


第三个参数 cam 是这个定位里的关键。


穿帮,抽动,DeepMind这篇论文瞄准了AI视频最后的破绽|Hao好聊论文


在传统的跟踪派方法中,坐标系是随着相机乱动的,导致轨迹很难统一。但在 D4RT 里,我们只需要把 tcam强制固定(比如永远设为第 0 帧),这就相当于给了这个不断晃动的世界一个稳定的锚点坐标系。


这样,无论视频里的相机怎么晃,无论物体怎么跑,所有的计算结果都被强制拉回到这个「世界原点」进行表达。在这样一种强约束之下,跨时间、跨视角的一致性不再需要后期复杂的数学修补,而是变成了任务定义的一部分。不同时刻的轨迹天然就在同一个世界里,可以直接比较、积累。


这种查询模式还顺手解决了重建派(如 NeRF)的身份断裂问题。 


这个模型的询问定义中,允许你去问「第 1 帧的这个像素,在第 100 帧在哪里?」这样的问题,为了回答这个问题,模型被强迫去维护一个稳定的身份逻辑。它必须理解,第 100 帧里的那个点,必须是第 1 帧那个点的物理延续,而不能是一个凭空出现的点。


这迫使模型在潜空间里学会真正的物体恒常性,而不是仅仅把两张图渲染得看起来像。


为了实现这个逻辑,D4RT 搭建了一套端到端的编解码 架构,把任务拆解为阅读和回答两步。


穿帮,抽动,DeepMind这篇论文瞄准了AI视频最后的破绽|Hao好聊论文


● 编码器(Encoder): 负责“读”。它把整段视频吃进去,通过 Vision Transformer (ViT) 进行处理,压缩成一个包含了时空信息的全局场景表征(Global Scene Representation) 。


● 解码器(Decoder): 负责“答”。这是一个轻量级的模块。你给它一个查询探针,包含你想查询的像素位置、时间以及相机视角,它就直接从全局表征里检索出对应的 3D 坐标 。


这种设计让 D4RT 绕过了传统方法中繁重的逐帧解码计算 。它不需要一次性算出所有像素,而是你需要哪里就算哪里。更重要的是,它统一了所有任务。点云、轨迹、相机姿态,在 D4RT 眼里,本质上都是同一个数学问题 。


02


像训练大模型一样训练物理直觉


我们现在有了一套能够定位时空统一的坐标查询系统。需要的就是训练这个模型,让它能够回答统一参考相机坐标系下的 (x,y,z),包含深度和3D 信息。


方法就是训练模型,让它能够把这套坐标和3D结构端到端的建立起对应关系。


DeepMind 的团队采用了一种非常暴力的混合训练策略。训练集混合了公开数据集和Google内部数据,包括BlendedMVS、Co3Dv2、Dynamic Replica、Kubric、ScanNet、Waymo Open等等。这些数据集覆盖了静态场景、动态场景、室内、室外、真实数据、合成数据。


对于生成模型来说,真实视频是最好的。但对于重建模型来说,合成数据可能更好用。因为在里面能精确地知道每一个像素的深度、每一只兔子的运动轨迹、每一次相机的抖动幅度。这种完美的 Ground Trut,是训练 D4RT 理解复杂物理运动的基石。


为了让模型真正学会“物理”,DeepMind 设计了一套极其复杂的组合损失函数(Loss Function) 。模型不仅要算出答案,还要证明过程是合理的。 


它需要保证3D 位置要准、经过2D算出来的3D点投影回画面,必须要能严丝合缝地落在原来的像素上。


模型还需要输出一个信心度。对于那些没有纹理的白墙或者模糊的运动边缘,模型被允许不自信,但在能算准的地方必须自信 。


除了宏观架构,论文还用一些小工程技巧解决了压缩问题。研究人员发现,如果只告诉解码器像素坐标,它算出来的深度图往往边缘模糊。于是,他们在查询向量里硬塞进去了以该点为中心的一个9X9的微小图像块,这被他们称为局部 RGB Patch(Local RGB Patch)。这些 RGB 像素提供了纹理和颜色信息,让模型能够瞬间识别出细微的纹理和框架,从而重建出极其锐利的 3D 细节 。


效果怎么样?论文里测了一堆benchmark,我挑了几个最能说明问题的。


作为重建派的代表,MegaSaM 试图重建一只游过水面的天鹅时,它在每一帧里都根据天鹅的位置建了一个静态雕像,最终的画面里出现了一排由天鹅残影组成的队列。另一种尝试π³的表现则极不稳定,面对结构复杂的动态物体(比如一朵风中的花),它有时候会选择直接躺平,导致重建结果里的物体离奇消失。而作为跟踪派代表的 SpatialTrackerV2 虽然理解天鹅在动,但它只能追踪第一帧里看得到的点,一旦天鹅向前游动露出了原本被遮挡的水面,或者火车开走露出了铁轨,它就束手无策了,导致场景中留下了大片的空洞和黑斑 。


穿帮,抽动,DeepMind这篇论文瞄准了AI视频最后的破绽|Hao好聊论文


唯独 D4RT 交出了一份令人满意的答卷。它不仅完美还原了动态物体的运动轨迹,还自动补全了被遮挡的背景,没有鬼影,也没有空洞,呈现出一个完整、连续且逻辑自洽的 4D 场景 。


在权威的 TAPVid-3D 数据集上,D4RT 展现了代差级的优势 。在相机坐标系 3D 追踪任务中,D4RT 的平均 Jaccard 指数(AJ)高达 0.257,而之前的冠军 SpatialTrackerV2 仅为 0.064,这意味着追踪精度直接翻了四倍 。在更具挑战性的世界坐标系追踪任务中,D4RT 的准确率(APD3D)达到 0.373,几乎是第二名竞争对手(0.201)的两倍 。


穿帮,抽动,DeepMind这篇论文瞄准了AI视频最后的破绽|Hao好聊论文


类似的优势也延续到了深度估计和相机姿态估计上。面对包含大量动态物体的 Sintel 数据集,D4RT 的深度估计误差(AbsRel)被压低到了 0.171,而 MegaSaM 的误差高达 0.342,相当于测距精度提升了一倍 。在相机姿态估计方面,D4RT 的绝对平移误差(ATE)仅为 0.065,也显著优于此前最好的竞品π³(0.086) 。


穿帮,抽动,DeepMind这篇论文瞄准了AI视频最后的破绽|Hao好聊论文


无论是凭肉眼看疗效,还是用数据跑分,D4RT 都无可争议地证明了一件事:在动态的 4D 世界重建中,它目前没有对手。


最重要的是速度上的碾压。在 A100 GPU 上,D4RT 的姿态估计速度飙升到了 200 FPS 。作为对比,之前的 SOTA 方法 MegaSaM 只有不到 1 FPS 。这不是快了一点点,这是两个数量级的碾压。


03 


D4RT 能为视频生成带来什么?


既然 D4RT 是用来“还原”的,它和用来“创造”的 Sora 有什么关系?


关系很大。D4RT 很可能就是生成模型进化到下一阶段的关键拼图,因为它提供的是几何/运动一致性的可规模化信号。


目前生成模型非常擅长处理「面子上的事儿」。得益于对海量图像数据的暴力吞吐,它们非常擅长渲染复杂的纹理、材质反射和柔和的阴影。毕竟,光度和纹理在每一帧里都是显而易见的像素统计规律。


但一旦涉及运动、遮挡和物理轨迹,这些模型就有点拉垮。比如在Sora2这种顶尖模型里,人物的肢体还是会在转身时发生形变漂移,被遮挡的物体再出现时像是换了个样子,物体的运动轨迹常常违背惯性定律。


这是目前的模型缺乏一种跨时间的身份约束,它们不知道那个被树挡住的车,和三秒后钻出来的车,必须是同一个刚体。


而在这种“光影强、物理弱”的尴尬局面下,D4RT的价值就显现出来了。生成模型的弱点,正是它最擅长的部分。因此,用既便宜又准确的它来负责教模型「守规矩」非常合适。


在工程层面它至少有两种极具潜力的应用。


1. 伪标签生成器:以往我们要给视频打上 3D 标签,成本高到无法想象。但 D4RT 的推理速度极快,这意味着我们可以用它把数百万小时的 YouTube 视频刷一遍,生成出每一帧的点级 3D 轨迹、深度图和遮挡关系。 我们将这些 D4RT 生成的数据作为伪标签喂给视频生成模型。有了这些标注,模型就不再只是模仿像素的流动,而是被明确告知「这个点的轨迹必须是平滑的」、「那个点被遮挡时不要试图硬画」。这种监督信号直接对准了「抖动」和「穿模」的高发区。


2. 生成质量监督官:现在的视频生成模型很难评测。D4RT 可以变成一个自动化的评分模型(几何一致性评估器)。 当 Sora 生成一段视频后,我们可以把它扔给 D4RT。如果 D4RT 发现某个物体的轨迹出现了瞬间位移,或者重投影误差过大,就说明这段视频物理不自洽。这个反馈可以直接用于筛选采样,在训练中惩罚那些违背物理常识的生成结果,迫使模型去生成更符合现实逻辑的视频。 


归根结底,D4RT 回应了视频生成领域当下的核心焦虑:我们已经把单帧的画质推到了极致,再往上堆纹理细节,边际效应已经递减。现在的破绽,更多来自跨帧的世界结构是否崩塌。


要补上这块短板,靠模型自己从像素里悟出物理规律太慢也太不稳定。D4RT把昂贵的 4D 几何重建变成了一种轻量级、可查询、可规模化的监督信号,在一定程度上可以帮助生成模型更快的领悟世界模型。 


它并不保证你立刻得到物理仿真级的碰撞与反作用。那需要更强的动力学建模、接触约束甚至仿真数据。 


但它可能带来一种更务实的改善。比如少一点抽动、少一点穿帮、少一点遮挡处的瞬移


在今天视频生成的阶段,这类改善比纹理细节更重要,它决定了你会不会相信「这个世界真的连贯存在」。


文章来自于“腾讯科技”,作者 “郝博阳”。

AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
RAG

【开源免费】graphrag是微软推出的RAG项目,与传统的通过 RAG 方法使用向量相似性作为搜索技术不同,GraphRAG是使用知识图谱在推理复杂信息时大幅提高问答性能。

项目地址:https://github.com/microsoft/graphrag

【开源免费】Dify是最早一批实现RAG,Agent,模型管理等一站式AI开发的工具平台,并且项目方一直持续维护。其中在任务编排方面相对领先对手,可以帮助研发实现像字节扣子那样的功能。

项目地址:https://github.com/langgenius/dify


【开源免费】RAGFlow是和Dify类似的开源项目,该项目在大文件解析方面做的更出色,拓展编排方面相对弱一些。

项目地址:https://github.com/infiniflow/ragflow/tree/main


【开源免费】phidata是一个可以实现将数据转化成向量存储,并通过AI实现RAG功能的项目

项目地址:https://github.com/phidatahq/phidata


【开源免费】TaskingAI 是一个提供RAG,Agent,大模型管理等AI项目开发的工具平台,比LangChain更强大的中间件AI平台工具。

项目地址:https://github.com/TaskingAI/TaskingAI