一次三篇！李飞飞的空间智能公司，发论文了

11512点击 2026-06-13 14:36

今天，由李飞飞联合创立的空间智能公司 World Labs 在同一天发布了三篇技术论文！

三篇论文分别由公司内部实习生主导完成，研究方向各异，但共享同一个核心命题：借助已在海量图片数据上训练成熟的 2D 生成模型，降低 3D 内容生成的难度门槛。

一次三篇！李飞飞的空间智能公司，发论文了

值得注意的是，正如 World Labs 联合创始人 Justin Johnson 所言，尽管该公司此前已有成果展示，但这三篇论文确是该公司的首批论文（first-ever papers）。

一次三篇！李飞飞的空间智能公司，发论文了

回到这三篇论文的主题：3D 内容生成。这是一个长期以来「说起来简单、做起来极难」的领域。

现实世界是三维的，但训练数据绝大多数是二维的（包括照片、视频、图像），而不是带有体积、深度和遮挡关系的完整空间结构。一旦转入三维，训练数据骤减，几何一致性的维护变得指数级复杂。

过去数年，研究者们已经找到了一条可行路径：不从头训练 3D 生成模型，而是将 2D 扩散模型的强大先验能力迁移到 3D 生成任务中。

World Labs 这次发布的三篇论文，分别从不同角度延伸了这条思路。

一次三篇！李飞飞的空间智能公司，发论文了

三项研究的具体切入点各有侧重：

World Tracing 解决的是「从单张图像恢复可见表面之外的完整三维几何」问题；
Modality Forcing 探索的是「如何让一个文生图模型同时具备深度感知和 3D 推理能力」；
Flex4DHuman 则将问题延伸到时间维度，尝试从普通单目视频中提升出可合成的动态 4D 人体。

值得注意的是，就在论文发布的同一天，World Labs 联合创始人 Christoph Lassner 在社交媒体上宣布因病将离开公司，为这场学术亮相增添了一丝人事变局的注脚。

一次三篇！李飞飞的空间智能公司，发论文了

下面我就来具体看看 World Labs 的首批论文。

World Tracing

让每一个像素，都指向一个完整的 3D 世界

如果你手中只有一张照片，你能从中恢复多少三维信息？

常识告诉我们：很有限。照片只是现实世界在某一时刻、某一视角下的投影，深度信息丢失，遮挡面后方的空间完全缺席。当前主流的单图转 3D 方法，通常面临一个两难困境：要么做深度估计（精确但只能恢复可见表面）；要么做生成补全（想象力丰富但结果往往偏离原始图像的视觉细节）。

World Tracing 方案试图同时消解这两种缺陷。

一次三篇！李飞飞的空间智能公司，发论文了

论文标题：World Tracing: Generative Pixel-Aligned Geometry Beyond the Visible
论文地址：https://arxiv.org/abs/2606.13652
项目地址：https://haoz19.github.io/world-tracing-page/

论文由 Hao Zhang 主导，团队成员包括 World Labs 联合创始人 Ben Mildenhall、Christoph Lassner、Gengshan Yang 等人。

一次三篇！李飞飞的空间智能公司，发论文了

核心思路是：将每一个输入像素视为一条射线，沿着这条射线预测一组有序的三维坐标点——第 0 层是可见表面，之后各层依次是沿该射线方向的被遮挡几何体。论文将这种表示称为「pixel-aligned multilayer geometry representation」（像素对齐的多层几何表示），具体实现为一个多层 XYZ 坐标张量（multilayer XYZ stack）。

一次三篇！李飞飞的空间智能公司，发论文了

换句话说，World Tracing 给每个像素对应的不只是一个三维点，而是一叠有序的三维点，记录了这条视线穿越场景所经过的所有几何层：第 0 层是直接可见的表面，更深的层则逐步揭示被前景物体遮挡的隐藏几何体。

这就像是把相机比作一支铅笔：普通深度估计只能画出物体的轮廓线，而 World Tracing 试图画出这支铅笔穿透纸张时，另一面的样子。

预测这种「深度堆叠」本身是极高难度的任务，因为遮挡面的几何信息根本没有出现在图像中，模型必须依赖对现实世界空间结构的「常识」来进行推断。

为此，研究团队采用了扩散模型来对这组有序深度值建模。扩散模型天然适合处理带有不确定性的分布式预测，而非给出单一确定答案。

更关键的是，整个预测过程始终对齐于原始输入图像的像素坐标。可见表面的深度被精确地「锚定」在图像信息中，而不可见部分的补全则在这个约束框架下进行生成。这使得最终的三维重建既忠实于输入图像，又具备完整的空间结构。

论文中展示的案例覆盖了静态物体、室内外场景，乃至动态世界建模。团队还发布了论文代码、项目主页和 Hugging Face 在线演示，让外界能够直接测试这套方法对任意图像的处理效果。

一次三篇！李飞飞的空间智能公司，发论文了

对于 World Labs 这样以「空间智能」为核心产品方向的公司来说，World Tracing 的意义在于：它提供了一种从单张图像出发、直接恢复丰富三维结构的技术路径，而不需要多视角输入或昂贵的三维数据标注。这与 Marble 产品「从图像生成可探索三维世界」的核心承诺高度一致。

Modality Forcing

一个模型，同时理解颜色、文字和深度

深度估计和图像生成，在传统上是两个完全独立的任务，分别需要专门的数据集和独立训练的模型。前者需要精确的深度标注（LiDAR 扫描或双目视觉），后者依赖海量图文对。两套任务的数据规模相差悬殊——图像生成模型见过数十亿张图片，而深度模型的训练数据量通常只是零头。

这种不对称，催生了一个自然的问题：能否让已经在海量图文数据上训练成熟的文生图模型，直接学会对深度的感知？

Modality Forcing 给出了一个肯定的回答，并走得更远。

一次三篇！李飞飞的空间智能公司，发论文了

论文标题：Modality Forcing for Scalable Spatial Generation
论文地址：https://arxiv.org/abs/2606.13676
项目地址：https://modality-forcing.github.io/

这篇由 Bardienus Duisterhof 主导的 World Labs 实习研究，核心主张是：文生图是一种可扩展的 3D 推理预训练目标，只要用对训练策略，同一个模型可以在 RGBD 生成、深度估计和深度条件图像生成三项任务之间自由切换。

一次三篇！李飞飞的空间智能公司，发论文了

论文提出的方法名为「Modality Forcing」，其核心机制是：给 RGB 和深度两种模态分别分配独立的扩散噪声时间步（per-modality noise levels）。

一次三篇！李飞飞的空间智能公司，发论文了

训练时，RGB 和深度各自被加入不同程度的噪声，同时接受各自独立的损失监督；推理时，只需固定某一模态的噪声步为 0（即视为已知条件），对另一模态完整去噪，便可实现图像→深度（I2D）或深度→图像（D2I）的条件生成；两者均加噪则为联合生成。

由于深度在像素空间（而非 VAE 隐空间）中直接扩散，模型可以从仅含稀疏深度标注的真实世界数据中学习，不再局限于依赖密集标注的合成数据集。

这种思路的优势在于：不需要额外引入独立的深度网络，也不需要为每个任务单独设计架构分支。一个预训练的文生图模型，通过 Modality Forcing 微调之后，就具备了对场景几何的直接感知能力。

从技术路径来看，Modality Forcing 与近年来流行的多任务扩散模型研究（如 Marigold、Depth Pro、Lotus 等）方向一致，但其独特之处在于对「生成」与「感知」两类任务的统一处理。深度估计通常被视为一个判别任务（给定图像，输出深度值），而文生图是一个生成任务。

Modality Forcing 的贡献在于证明：这两种任务之间的边界比想象中模糊得多；生成能力的积累，可以直接转化为感知能力的提升，反之亦然。

对 World Labs 来说，这项研究的意义延伸到产品层面：Marble 的 3D 世界生成需要对场景深度的精确理解。一个同时具备生成和感知能力的统一模型，将使 3D 世界的构建更加自洽，避免深度估计模块和生成模块之间的累积误差。

Flex4DHuman

从一段手机视频，「升维」出可合成的动态人体

如果说前两篇论文处理的是静态或通用场景，Flex4DHuman 则将挑战聚焦于一个更具体但同样重要的子问题：如何从一段普通的单目视频（比如手机拍摄的日常视频），重建出动态人体的完整四维结构，即三维空间+时间维度。

这个问题的难点在于「单目」两个字。多目摄像系统可以通过视差直接测量三维坐标，但单目视频丢失了这种几何约束。从单目视频重建运动中的三维人体，本质上是一个欠约束问题：同一段视频序列，理论上对应无数种可能的三维运动轨迹。此前的方法大多依赖优化过程，计算耗时，且难以泛化到训练集以外的姿态和外观。

Flex4DHuman 由 Yipeng Wang 担任项目负责人，第一作者为 Jen-Hao Cheng，工作在 World Labs 实习期间完成。

一次三篇！李飞飞的空间智能公司，发论文了

论文标题：Flex4DHuman: Flexible Multi-view Video Diffusion for 4D Human Reconstruction
论文地址：https://arxiv.org/abs/2606.13655
项目地址：https://andy-cheng.github.io/Flex4DHuman/

一次三篇！李飞飞的空间智能公司，发论文了

方法以阿里巴巴的 Wan 2.1（一个 1.3B 参数的文本生成视频 DiT）为基础进行微调，核心改动只有一处：将原有的时空位置编码替换为一套五轴位置编码（five-axis positional encoding），在原有的空间坐标和帧序索引之外，额外引入视角槽索引和连续 SE(3) 相对相机几何，使模型在注意力机制内部直接感知相机之间的相对位姿关系。

一次三篇！李飞飞的空间智能公司，发论文了

这个设计带来了一个关键优势：不需要骨架估计（skeleton）、深度图或法线图等显式几何先验，仅凭相对相机姿态就能驱动多视角视频的同步生成。这与此前主流方法（如 Diffuman4D 依赖 SMPL 骨架、MV-Performer 依赖深度和法线渲染）形成鲜明对比。

给定一段单目参考视频和目标相机姿态，模型直接输出在时间上同步、视角上一致的多视角视频序列；再将这些多视角视频送入 FreeTimeGS 重建管线，即可得到动态 4D 高斯表示（4D Gaussian Splats）。

这套流程将视频扩散模型的强大外观先验与 4D 高斯的高效渲染能力结合起来，使得从一段跳舞视频或行走视频出发，可以将其中的人物「升维」为完整的动态 4D 资产，再合成进任意 3D 场景。这对于数字内容创作、虚拟制片和 AR/VR 应用具有直接价值。

一次三篇！李飞飞的空间智能公司，发论文了

论文还验证了方法超出人体的泛化性：同一个模型经过少量微调后，可以推广到多物种动物的多视角生成，在跨物种零样本测试中仍保持较强性能，表明方法的核心设计不依赖人体特有的几何假设。

论文在 DNA-Rendering 和 ActorsHQ 两个基准上进行了评测。与同样基于单目参考视频的 Diffuman4D-mono-skeleton 相比，Flex4DHuman 在 DNA-Rendering 上 PSNR 提升约 9.3 dB；在零样本的 ActorsHQ 测试集上，PSNR 也高出对手约 3.4 dB。

从更宏观的视角来看，Flex4DHuman 代表了「2D 视频数据赋能 3D 世界建模」这一技术路线的一个典型样本。手机视频是人类日常生产最多的数据形式，如果能够高效地从中提取四维信息，将极大扩展 3D 世界模型的训练数据来源。

联创 Christoph Lassner 宣布离职

就在三篇论文发布的同一天，World Labs 联合创始人 Christoph Lassner 在 X 平台发帖，宣布自己将离开公司，开启下一段旅程。

一次三篇！李飞飞的空间智能公司，发论文了

Lassner 是 World Labs 四位联合创始人之一，另外三位分别是李飞飞、Justin Johnson 和 Ben Mildenhall。他长期从事计算机视觉与计算机图形学交叉领域的研究，专注于从 2D 图像和视频中恢复可用的三维内容。

在加入 World Labs 之前，Lassner 的职业轨迹覆盖了多个行业前沿。他曾在初创公司 Bodylabs 工作，该公司后被亚马逊收购，专注于基于图像的三维人体建模；在亚马逊期间，他主导开发了 Amazon Halo 智能手环的三维体型估算系统，用户仅需手机自拍，即可获得精确的三维身材模型。此后，他先后在 Meta Reality Labs Research 和 Epic Games 主持研究团队，深耕神经渲染和 NeRF（神经辐射场）相关技术，2022 年 Meta Connect 大会上展示的实时辐射场渲染演示，正是他所在团队的成果之一。他还开发了 Pulsar 渲染器，一种基于球体基元的可微分渲染器，后来成为 PyTorch3D 的后端组件之一，在学术界得到广泛应用。

一次三篇！李飞飞的空间智能公司，发论文了

Lassner 于 2024 年初与李飞飞等人共同创立 World Labs。公司于同年 9 月从隐身状态中走出，以约 10 亿美元估值完成 2.3 亿美元融资，投资方包括 NVIDIA、AMD、Adobe 和 Databricks 旗下风险投资机构。2026 年 2 月，World Labs 完成了由 Autodesk 领投的 10 亿美元新一轮融资，估值跃升至约 50 亿美元。

三篇论文的致谢列表中均出现了 Lassner 的名字，这意味着他在职期间积极参与了这些实习研究项目。

对于离职的原因，Lassner 在公开声明中做了坦诚的说明：过去几个月里，他经历了数起个人事故，其中包括一次造成多处骨折和脑震荡的意外，目前仍在恢复中。这段强制休息的时间让他有机会重新审视自己的处境，并做出了退出日常运营职务的决定。他同时表示，将继续以顾问身份支持公司，并对李飞飞、Justin Johnson 和 Ben Mildenhall 在这一决定过程中给予的理解和支持表达了感谢。

在向公司内部团队发送的信件中，Lassner 写道，他「深信 World Labs 以及我们正在构建的事业的重要性」，公司目前所处的强劲位置让他确信此刻是交棒的合适时机。他表示，自己下一步的计划尚不明确，但「对即将到来的事感到兴奋」。

结语

三篇论文同日亮相，对 World Labs 而言是一个值得记录的时间节点。这家公司自 2024 年创立以来，主要以技术博客和产品的形式与公众见面：Marble 世界模型的内测与公测、World API 的开放、Spark 2.0……而这次是公司首次以 arXiv 预印本形式正式发表学术论文。

这次的集体亮相，联合创始人 Justin Johnson 在 X 上的评论或许最能说明其背景意涵：「3D 是一个令人兴奋的领域，我们仍在摸索正确的任务定义、问题形式、模型架构，以及最佳的扩展方式。我们在这里分享一些想法，由一批出色的实习生主导完成。」

语气谦逊，但方向很清晰：World Labs 正在将「空间智能」的研究路线推向更深处，并愿意在这一过程中与学术社区分享自己的思考。

文章来自于微信公众号 “机器之心”，作者 “机器之心”

关键词: AI新闻 , World Tracing , Modality Forcing , Flex4DHuman

AITNT资源拓展

根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考

微调

【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台，可以对大语言模型（LLM）和多模态图文模型（VLM）进行预训练和轻量级微调。XTuner 支持多种微调算法，如 QLoRA、LoRA 和全量参数微调。
项目地址：https://github.com/InternLM/xtuner