世界模型真正的壁垒，可能是表征压缩，对话SparcAI95后创始人李智昊、王雨飞

8546点击 2026-04-30 09:03

Z Tech｜世界模型真正的壁垒，可能是表征压缩，对话李智昊、王雨飞

01 导语

过去十年，压缩在 CV 学术圈一直是个边缘方向——做生成、做大模型才是显学。但 SparcAI 的两位95后创始人各自做了多年压缩，然后在同一间 NTU 实验室相遇，两年后发布了 Sparc3D。模型 demo 上线当日冲上 HuggingFace Trending 榜首，论文被 NeurIPS 2025 录用。如今他们创办了 SparcAI，目标是一家世界模型公司。

这场对话从两位创始人的学术起点谈起，经 3D 与视频表征，落到他们对世界模型最底层的判断。其中不少看法跟当前行业的主流叙事相左——有些甚至是直接反对。

98年的李智昊的学术起点就是底层视觉的数据压缩表征。本科和硕士在南京大学 Vision Lab 师从马展教授——这是世界上最早一批做 learnt video compression 的组之一，DeepCoder（VCIP 2017）是这条线上最早的 CNN 视频编码工作之一，比 DVC（CVPR 2019）早一年半。组里同时还在做图像、3D 点云、RAW 四条压缩主线，在五个国际标准里都有它的技术贡献。智昊在那里做的是相机 RAW 图像的编码——如何在成像阶段就做感知导向的压缩。代表作是 ρ-Vision（T-PAMI 2024）。之后他去 NTU 读博，在 Bihan Wen 教授组里转向 3D 表征。

97年的王雨飞的学术起点同样在底层视觉与图像压缩。在 NTU EEE 跟随 Bihan Wen 与 Alex Kot 双导师，从 Raw Image Reconstruction with Learned Compact Metadata（CVPR 2023）、Beyond Learned Metadata（IJCV 2024）一路做到自监督 RAW 信号压缩。在 CVPR、NeurIPS、ICML、ICCV 等顶会上发表了四十多篇论文，拿了 NTU EEE 最佳博士论文，以及全校 STEM 领域的 Research Excellence Award。

两人在 NTU 期间合作了多篇工作：噪声 RAW 图像的自监督压缩（ICML 2024）、3DGS 压缩 ContextGS（NeurIPS 2024），以及 Sparc3D（NeurIPS 2025，与 Math Magic 团队合作完成）。共同沿着压缩的主线从图像走到 3D。

以下是我们和两位的对话。

Z Highlights

绝大多数团队在做的事，是在现成视频生成模型上叠加动作条件。但底层表征不变，再精细的条件也不会自动变出更低的延迟和更强的物理一致性。条件在表层，病在表征层——这是当前世界模型从 L2 迈向 L3 的真正瓶颈。
3D 空间的信息分布极度不均匀。3D 表征要做对的第一件事，是承认这种不均匀性，让表征本身能够动态分配资源。
好的表征被 scaling 放大成强智能，糟的表征被 scaling 放大成贵的笨模型。世界模型的智能上限，在表征那一层就已经被决定了。
压缩从来不是输家方向，只是在学术圈的能见度低。里面真做对的人非常少，做对的人对底层结构的理解是其他方向凑不出来的。
任何采样出来的信号都是某个潜在结构的有损投影，压缩做的就是把那个潜在结构反推出来。
视频不是目的，对真实三维世界的高效压缩理解才是。从压缩一个 3D 物体到压缩整个 3D 世界，每消除一份冗余，就多一份预算留给智能本身。

02 从南大 Vision Lab 到 NTU：压缩是怎么变成底层直觉的

ZP：先从各自的学术起点聊起。智昊你在南大做的是数据压缩方向，当时具体在研究什么？

李智昊：我在南大 Vision Lab 的时候，主要做相机 RAW 图像的压缩。当时主流做法是在 RGB 域里做 CV——RAW 先经过 ISP 转成 8-bit RGB 再处理。但 RAW 本身是 12-bit 或 14-bit，包含的动态范围、噪声分布、传感器原始光子计数信息，全都在 RGB 化的过程中被永久丢掉。我们提出了 In-Camera RAW Compression 这套范式，把感知导向的压缩前移到成像阶段，直接在 RAW 域里做面向下游任务的紧凑编码。后来这条线扩展成了 ρ-Vision，发在 T-PAMI 上。

那几年留下来的不是某个具体技术，是一种工作方式。压缩是对"信号哪部分重要"最直接的评判——给定固定码率，能高保真还原回来就说明你识别出了真正承载信息的结构；学不到结构的压缩器不可能有好的 RD 曲线。（ZP 注：RD 曲线，即率失真曲线，是压缩领域的核心评估工具。）这个评判过程不依赖任何标签、任何下游任务，自带闭环。后来做 3D、做视频，底层用的还是它。

ZP：但压缩在过去十年的 CV 里几乎是个"输家方向"——做生成、做大模型才是显学。两位做了那么久压缩，是怎么判断这个方向的赌注押对了？

李智昊：压缩从来不是输家方向，只是在学术圈的能见度低。工业界从来没有离开过它——所有视频流、所有图像存储、所有移动端 ISP，背后都是压缩在工作。学术界反过来很多时候是错的。压缩是一个"对了一个数量级、错了几个数量级"的方向，回报极不对称——所以方向看上去冷，但里面真做对的人非常少，做对的人对底层结构的理解是其他方向凑不出来的。

而且过去两年这条赌注已经在兑现了。Latent Diffusion 是把图像生成救回来的关键；VAR 把生成模型从 next-token 改成 next-scale prediction，借的是图像压缩里的并行因果分组思想。压缩里几十年积累的核心结构正在系统性地反向赋能生成模型。我们押的不是冷门，是再过几年大家会发现这条线一直在主线上，只是之前没被叫出来。(ZP 注：VAR，Visual Autoregressive Modeling，视觉自回归建模，获得 NeurIPS 2024 最佳论文奖。它不像传统方法逐像素生成图像，而是从粗到细、逐层级生成，类似于先画轮廓再填细节。)

ZP：这套直觉跟南大 Vision Lab 当时在做的事关系大吗？

李智昊：很大。马展老师组那个时候同时在打通图像、视频、3D 点云、RAW 四条 learnt compression 主线——这种"多模态压缩同步推进"的组态，全球大多数压缩 lab 都做不到，多数只做其中一条。组里在 IEEE 1857.11、MPEG AI-PCC、MPEG V-DMC、JPEG AI 和 AVS 五个国际标准里都有技术贡献：陈彤师兄的图像编码工作是 IEEE 1857.11 标准的 baseline；王剑强师兄做的 SparsePCGC / Unicorn 系列是 MPEG AI-PCC 标准的核心提案之一。

我硕士那几年在那种环境里。亲眼看着 sparse tensor 多尺度表示怎么把点云压缩做到 SOTA，看着 RAW、视频、点云三种完全不同的信号在用同一个底层语法被处理——sparse representation、context modeling、entropy coding、rate-distortion optimization。一旦看清这个统一的语法，所谓"3D 数据"、"视频数据"的边界其实没那么硬。任何采样出来的信号都是某个潜在结构的有损投影，压缩做的就是把那个潜在结构反推出来。这种"压缩是一种通用的表征哲学"的认知，是后来 Sparc3D 真正的精神出发点。

ZP：雨飞你的起点跟智昊很像，也是图像压缩这一类问题？

王雨飞：方向上一致。我博士早期最先做的是 Raw Image Reconstruction with Learned Compact Metadata（CVPR 2023），后来扩展到 IJCV 2024。底层在解的是和智昊一样的问题——用最紧凑的元数据把 RAW 信号里有用的留住，剩下的扔掉。再往后做扩散模型、做生成式重建，底层逻辑也都是怎么用更短的表征去捕捉信号最关键的部分。

博士后期我开始做 3DGS 压缩。3D Gaussian Splatting 一个场景动辄几百万个高斯核，参数量大得吓人。我和智昊做了 ContextGS（NeurIPS 2024），用 anchor-level 的上下文模型把 3DGS 压到原大小百分之一以内。做完那个工作我才意识到一件事：3D 表征的压缩不只是把模型变小，它在重新定义 3D 数据应该怎么被组织。这是一个比"减少参数"大得多的问题——它在问，3D 这种信号最适合的表征形式到底是什么。

ZP：两个人的合作是怎么开始的？

李智昊：我们都在 Bihan Wen 教授组里。但合作的真正起点不是行政上的"同组"。是我们发现，全球范围内同时在做 ISP 和压缩、甚至更具体到 RAW compression 这个交叉点的人极少——图像压缩这一层全世界在认真做的实验室一只手数得过来，推到 RAW 压缩，少到几乎所有人都互相认识。两个人独立做了几年这件事，撞进同一个组——看起来是巧合，其实是这个交叉点上根本没几个人。

第一篇合作就是 ICML 2024 上从噪声 RAW 图像里做自监督压缩的工作。那时候发现一个挺有用的命题：噪声本身没有结构、不可压缩、熵高且分布平坦——所以一个最优的有损压缩器自动会把高频随机噪声当冗余扔掉。这意味着"在低码率下高保真重建 RAW 信号"这个目标，本身就内含了 denoising，不需要单独的去噪 loss、不需要 ground-truth clean image，自监督就能跑。这种 reduction 是后来 ContextGS、Sparc3D 反复出现的模式。

03 Sparc3D：3D 表征里到底有多少冗余

ZP：聊聊 Sparc3D。这个工作解决的核心问题是什么？

李智昊：3D 生成领域有一个被长期忽视的根本问题：现有表征对 3D 空间做的是无差别的均匀编码。

密集体素网格、三平面特征、均匀采样的 SDF——这些主流方法对整个三维空间做等量的资源分配。不管一个区域有没有几何信息，都分配等量的计算、存储和参数。

但 3D 空间的信息分布极度不均匀。任何一个有界物体的几何信号，都集中在一个二维流形——也就是物体表面——附近极薄的一层里；剩下的体积要么是物体内部、要么是周围空气，对几何细节零贡献。当前主流方法对这两类"几何无关区域"花的算力，本来该花在表面那一薄层真正承载几何细节的位置上。

这种冗余直接锁死了生成质量的上限。3D 表征要做对的第一件事，是承认这种空间不均匀性，让表征本身能够动态分配资源。

ZP：稀疏表示不是新东西，TRELLIS 之前也在做。Sparc3D 在这个基础上具体改了什么？

李智昊：TRELLIS 等先驱工作意识到稀疏是对的方向，这个判断没错。但它们的具体做法有一个根本性的设计偏差：编码端用 2D 视觉特征，解码端却输出 3D 有符号距离场——编码和解码在两种完全不同的数据模态之间跳转。

这不只是工程上的不优雅。压缩里有一条最朴素的常识：编码器和解码器必须看同一种东西，否则你压的不是这个东西的冗余，是模态转换带来的噪声。TRELLIS 这个设计让模态转换本身成了主要的信息瓶颈，再多的 sparse capacity 也救不回来。

更严重的是，跨模态设计反过来扭曲了任务定义。当编码端是 2D、解码端是 3D 的时候，loss 不可能再是"重建得有多忠实"——只能退化成"生成出来的 3D 看起来对不对"。整个框架被推到了 generation 视角，而不是 reconstruction + compression 视角。压缩视角原本会强迫模型识别"什么必须被保留"——一旦识别错了恢复就失败；这种纪律一旦丢了，模型就可以编造一组 generation-friendly 的特征过日子，下游生成模型也只能在这组次优特征上勉强工作。

Sparc3D 在架构层面的核心贡献是模态一致的稀疏卷积 VAE——我们叫 Sparconv-VAE。编码和解码全程在同一种 3D 稀疏表示上操作，从源头消除模态转换的信息损耗，把任务重新拉回"重建 + 压缩"的本来定义。配合可变形稀疏网格 Sparcubes，在 1536³ 分辨率下达到接近无损重建。

具体到分工：这个项目是我在 Math Magic 研究实习期间完成的，跟 Yufei Wang、Heliang Zheng、Yihao Luo 和 Bihan Wen 老师合作。Math Magic 提供了大规模数据和算力，Sparconv-VAE 这个核心架构由我们设计。这是我把南大学到的稀疏压缩思想第一次完整搬到 3D 生成尺度上做出来。

ZP：这个工作对你们来说，意义只在 3D 生成吗？

王雨飞：远不止。Sparc3D 真正验证的是一个更一般性的假设：对三维世界的压缩表征做得越好，下游任务的质量上限就越高。 3D 物体只是一个最干净的测试场——输入输出都是几何，没有时间、没有动作、没有 agent，是最容易把表征本身的好坏隔离出来研究的设置。一旦在这个最干净的场里证明了"表征压缩 → 下游质量"是可重复的，下一步就是把它推到更复杂的场景：视频、动态场景、最终是物理世界本身。

04 视频生成的冗余从哪来

ZP：从 3D 物体跳到视频生成，逻辑上怎么连接？

李智昊：视频说到底是三维世界在二维平面上的投影序列。如果一个 3D 场景完全静止，从任意角度观察到的视频流也应当完全静止——每一帧都是冗余的。传统视频压缩早就理解这一点：I 帧 / P 帧、motion compensation、residual coding、跨帧 context modeling，都是在系统化地处理"投影序列里的结构性冗余"。

但当前的视频生成模型没有理解这件事。它们在 2D 像素空间里暴力建模，试图通过海量参数去"记住"三维世界投射到二维后的所有复杂规律——光影变化、遮挡关系、透视变形。

所以当前视频生成模型的三个痛点——多视角不一致、算力消耗巨大、长视频质量崩塌——行业普遍归因于模型架构或数据不足。我们看到的是：根源在表征层，不在架构层。架构再先进、数据再多，喂给模型的还是一组没有 3D 几何先验的二维像素，模型只能在统计上拟合规律，而不是在因果上理解结构。NVIDIA Cosmos、GAIA-1、DriveDreamer 这一系做自动驾驶 world model 的工作都遇到过同一类问题——视觉指标上能压住，但放到 closed-loop simulation 里物理一致性立刻崩。

ZP：你们做了一个 2K 实时的视频生成来验证这个思路。具体做法是什么？

王雨飞：具体方案我们暂时不展开。但可以讲一下方向：把视频压缩里这几十年被验证过的思想，重新引入视频生成系统。

当前 video gen 用 3D VAE 做 tokenizer，沿用的是 image gen 的惯性——直接套用图像 latent diffusion 的 tokenizer 范式，在时间维度上加几层 conv 就完事了。这是次优的，因为视频和图像的冗余结构完全不同。视频的冗余主要在时间一致性、运动连贯性、视角恒等性这些维度，图像 VAE 不感知这些。视频压缩这边几十年积累的成熟工具——动态码率、变长 chunk、context modeling、跨帧预测、motion-compensated residual——大多数还没有被搬到生成模型这边来。这是我们正在做的方向，会陆续放出来。

工程上还有一个具体的 trade-off 值得说。3D VAE 的 chunk frame 在 video gen 里是为了时间一致性而设计的：chunk 越长，一致性越好，但训练 batch 越笨重，activation memory 越高，inference 也越离散化。video gen 这边大家都在追求时间一致性，所以倾向于用大 chunk；但放到 simulator 场景下，大 chunk 是 action latency 的直接元凶。这两个目标本质矛盾——除非你做的不是固定 chunk，而是动态自适应的 chunk。这正是把视频压缩里的"按内容自适应分配码率"思想搬过来的关键 motivation。

ZP：但说实话，"动态分配"这个思路听起来并不新——自适应计算、动态 token pruning 在 NLP 和视觉里都有大量工作。你们跟这些已有工作的区别在哪里？

李智昊：好问题，分两层回答。

第一层是技术层。动态 token pruning 在推理阶段做的是"已经编完码之后再挑着用"，我们做的是在编码阶段就重新定义信息的分配方式——这两件事在技术上完全不同。前者是在冗余表征上做后处理，后者是从源头消除冗余。类比传统视频压缩：先编码全帧再做码率控制，跟在编码器层面就设计自适应采样结构，是完全不同的两个问题。后者属于表征设计，前者属于推理优化，处理的不是同一层的问题。

第二层有一个非常近的同期证据。Meta FAIR 12 月放出来的 Byte Latent Transformer 直接在 byte 流上训练，用一个小的 byte-level LM 估计下一字节的条件熵——熵超过阈值或相对当前 patch 内均值有跳变时切一个 patch 边界。高熵区段保持细粒度，低熵区段被合并成一个 patch。在 8B / 4T 规模上 FLOP 对齐打平 Llama 3 BPE，并打开了 patch size 这条新的 scaling 轴。这就是把压缩里的"熵自适应编码"思想直接搬回 tokenizer 层的最直接证据。

如果文本这种密度本就很高的信号都不应该等长 tokenize，视频这种 90% 都是冗余的信号更不应该。BLT 在文本上做的事方向是对的；视频领域至今没有人系统化地推过去——大家还在用"先在 3D VAE 里把视频均匀压一下，再扔进 transformer"的旧范式。

05 世界模型到底卡在哪

ZP：世界模型这个概念已经被讨论了很多年，从 Dreamer、MuZero 就开始在用 learned world model 做 imagination。你们怎么看当前行业里"世界模型"这个词的使用？

李智昊：世界模型不是新东西，它跟着强化学习走了二十多年。从 90 年代的 TD-Gammon 和 CartPole，到 Atari DQN、MuJoCo，到 AlphaStar 和 CARLA，到 Hafner 一路从 PlaNet 做到 Dreamer V3，再到 NeRF 和 3DGS——每一次跃迁都是模拟环境向真实世界的一次逼近。区别只在于"什么信号被当作模拟器输出"：早期是状态向量，中期是低分辨率像素，现在收敛到高分辨率视频。

到 2026 年，行业收敛到一个共识：视频生成是世界模型最合适的中介层。原因很直接——通用接口、数据丰沛（互联网视频是少数能规模化获取的"世界先验"）、可观测（人能直接看，便于评估调试）。

但当前行业里"世界模型"这个词确实有滥用。很多产品本质上只是带动作条件的视频生成——响应延迟在秒级、物理一致性谈不上、闭环训不动。Sora、Veo 这一档是没有交互的纯生成；自动驾驶那一档（GAIA-1、Cosmos、DriveDreamer）有动作条件但延迟和物理一致性都还没过门槛；Genie 系列在游戏环境里做得不错但还没推到真实世界。这些是真做事的团队，不是在喊概念——但他们距离"能用作 RL 训练环境的 simulator"还有距离。

ZP：你们提了一个 L1 到 L4 的分级。能说一下这个框架？

王雨飞：核心按"能不能当 Simulator 闭环训练策略"来分，每一档我们都给了具体的量化阈值，避免分级变成 marketing。

L1 短时视觉预测：能看到几秒未来，但没有交互能力。Sora、Veo 在这一级。

L2 动作条件响应：给动作能返回视频反馈，但 action latency 在 100ms 以上、物理一致性指标（碰撞、刚体、重力）通过率 <50%。当前绝大多数自称世界模型的产品卡在这里。

L3 可闭环 Simulator：action latency < 50ms、单步 inference cost 在单卡 ms 级、物理 case 集通过率 >80%。可以接 RL agent 跑通至少一个真实任务的 imagination training。

L4 Simulate Everything：长时稳定、跨场景泛化、物理引擎级精度、因果推理。终极目标。

这套分级我们用来对齐内部讨论和对外路线图。

ZP：你们这个分级里 L2 占了"当前绝大多数产品"，听起来像是行业的一道天花板。从 L2 到 L3 究竟差在哪？

李智昊：通用做法"拿现成视频生成 + 动作条件"天然解决不了 L3 要求的两件事——这两件事是两个独立的问题，不能混为一谈。

第一件事是 action latency。这不是推理快慢，是输入一个 action 之后，视频流第几帧才能反映这个 action 的影响。当前 video tokenizer 普遍采用很长的 chunk frame——CogVideoX 是 4 帧、Cosmos 提供 4 或 8 帧（最高 8）、Wan 是 4 帧——一次编码整 chunk 一起预测、一起解码。这种设计在 video gen 里是为了时间一致性，但放到 simulator 场景下：agent 踩刹车，系统至少要等下一个完整 chunk 才能开始反应。在 chunked causal 生成范式下，chunk frame × 1/fps 直接是 action latency 的下限——24 fps 下 8-frame chunk 就锁死了至少 333ms 的 action latency。

action latency 跟决策频率的相对关系决定它能不能用——给 RL agent 一个跟决策周期同尺度的 lag，就等于在欺骗 credit assignment：agent 收到的反馈跟它实际做的动作不对齐。这不是 GPU 不够快的问题，是表征架构本身的设计缺陷。

第二件事才是 inference cost——单步推理的算力和墙钟时间。当前主流 video gen 模型单次推理需要 8 卡级别算力、单步几秒。simulator 单步几秒乘以一次 RL 训练的百万级 rollout，训练总成本爆炸到根本不可负担。一个真实可用的 simulator 单步成本必须降到 ms 级、单卡级。

这两件事对应到表征层是一个需求的两面——时间粒度要细，空间粒度要稀。看似矛盾，但只要做的是稀疏自适应表征——动态地在重要时空区域加细、在静止区域抽稀——两个就同时被满足。所以这两件事的解都不在条件端，都在表征层。

ZP：L2→L3 的另一个要求是物理一致性。这个不是表征压缩能解决的吧？给视频模型加显式物理先验（PhysGen、PhysDreamer 这类）会不会更直接？

李智昊：物理一致性这件事是双轨的——既需要先验，也需要表征。直接灌物理先验是对的，但有一个限制：先验只能覆盖你能写下来的物理规律（重力、刚体、流体），不能覆盖人体运动、布料、毛发、可形变物体这种很难显式写出方程的现象。所以纯先验路径只能 cover 一小块。

我们看到的是：表征要先做对，先验在那之上叠加。一个 2D 像素表征里，重力是一种"奇怪的关联模式"——物体下落到地面时像素重组的方式得靠模型从数据里 mine 出来；但在一个带 3D 几何先验的表征里，重力是一个直接作用在几何空间上的物理量。这就是为什么 3D 融合解决物理正确性——它让先验有地方可以挂载，而不是逼模型从像素统计里硬学。

ZP：但有一个反面案例值得讨论。DeepMind 的 Genie 3 已经做到了 720p 的实时交互式视频，靠的就是大规模训练 + 工程优化，没怎么走表征压缩这条路。如果规模足够大、数据足够多，是不是真的可以绕过表征？毕竟在 NLP 里，GPT 也不是靠精细设计语言表征成功的。

李智昊：先说立场：我并不认为 scaling 能"绕过"表征问题。这是两个轴，不是替代品。

GPT 的成功从来不是"scaling 不需要好表征"。语言本身就是一次极致的好表征——人类用几千年时间，把对世界的观察、推理、经验压缩成文字符号，自带语法、逻辑、因果结构这些隐式约束。GPT 在这个已经被压缩到极致的空间上做 scaling，上限自然高。它不是 scaling 战胜了表征，是 scaling 站在已经做对的表征肩膀上。

形式化讲，scaling law 描述的是固定输入分布下的训练损失曲线。但输入分布本身——也就是表征——决定了曲线的整个 family。Henighan 等人 2020 年那篇 scaling law 论文里，明确显示换 tokenizer 会把整条曲线沿 loss 轴垂直平移。（ZP 注： Henighan et al., "Scaling Laws for Autoregressive Generative Modeling," arXiv 2020。）换好的表征不是让你"沿同一条曲线 scaling 更快"，是让你换到一条更低的曲线上。同样的 compute budget，更好的表征就会落到更低的 loss——而下游能力跟 loss 是非线性挂钩的，loss 上的小差距会被放大成能力上的大差距。

Genie 3 在游戏环境里效果不错，因为游戏本身就是一种被简化、被结构化的世界表达——状态空间有限、像素规整、物理规则封闭。这不是 raw 的物理世界。当我们谈论真正的 world model——agent 要在里面学习开车、操作机械臂、跨场景导航——表征是否高效会直接决定你能 scale 到哪里。

所以我们的判断不是“压缩比 scaling 重要”，而是"不先把表征做对，scaling 再多也只能在一条更高的 loss 曲线上走"。scaling 当然重要，但它放大的是你已有的表征效率——好的表征被 scaling 放大成强智能，糟的表征被 scaling 放大成贵的笨模型。

06 信息论视角：压缩和智能上限的关系

ZP：你们反复讲"表征压缩决定智能上限"。Sutskever 的 "compression is prediction" 已经被引用得很滥了。你们究竟在主张哪个版本？

李智昊：先做一个澄清，免得被误解。我不认同“压缩就是智能”这种简化说法——这是对 OpenAI、DeepMind，以及过去几十年所有在架构、算法、强化学习上做出过实质贡献的研究者的不公平。智能本身是一个比压缩更复杂、更多维的现象，是架构、目标函数、scaling、数据、算法多条路径共同探索出来的。我们想说的不是"压缩 = 智能"，而是一个更弱、更具体的命题：表征效率决定了所有这些路径最终能接近的上限。

这个命题在信息论里有一个有限但坚实的底子。Shannon 1948 年的 source coding theorem 给了 lossless 情形下最朴素的事实：信号的可压缩极限等于它的熵；最优算术编码做的就是把这个极限逼近——而做最优算术编码的前提，就是有最优的下一比特概率模型。从这个意义上讲，lossless compression 和最优 next-token prediction 在信息论里是同构的。Sutskever 在 2023 年 Simons Institute 的 "An Observation on Generalization" 演讲里讲的就是这件事；Hutter 设了 Hutter Prize 用 Wikipedia 压缩比作为 AGI 近似测试。

但 lossless 不能直接搬到表征学习——VAE 做的是 lossy compression，存在 rate-distortion-perception trade-off。Blau 和 Michaeli 2019 那篇论文给了更精准的 framing：在 lossy 设置下，存在三角形 trade-off——率（rate）、失真（distortion）、感知质量（perception）三者相互制约，不可能同时最大化。（ZP注：指 Blau & Michaeli, "Rethinking Lossy Compression: The Rate-Distortion-Perception Tradeoff," ICML 2019。）所以"好的表征"在 lossy 情形下不是单一目标——是在固定 rate 下同时优化 distortion 和 perception，并把这种优化跟下游任务的可学性对齐。这就是为什么不是任何 VAE 都能 power up 下游建模——只有在恰当的 rate-distortion-perception 工作点上设计的表征，才会给下游建模带来真正的 leverage。

这条逻辑在过去几年 AI 实践里有非常清楚的足迹。

语言模型：自然语言已经是人类对世界的一次极致压缩，剩下的工作只是在这个空间上做条件分布建模。所以 transformer + 自回归就够了。

图像生成：最早的扩散模型——DDPM（Ho et al. 2020）——直接在像素空间做扩散，单尺度、无压缩、没有 cascade。这个范式在 32×32 / 64×64 上能 work，但推到 256×256 或 512×512 就明显吃力——像素空间的概率分布太散、维度太高，单一模型怎么 scale 都拉不动。Latent Diffusion（Rombach 2022）的解法是先用 VAE 把像素压到低维隐空间，再在隐空间做扩散，把建模拆成两步：先压缩，再建模。一切就通了。这是图像生成的 ImageNet 时刻，是被压缩救回来的。

自回归图像生成：AR 在文本上 work，在图像上长期失败——直到 VAR（NeurIPS 2024 Best Paper）。VAR 把生成从 next-token 改成 next-scale prediction，结构上跟图像压缩里的 checkerboard context model（He et al. CVPR 2021）同构——都是把"全自回归的 strict sequential bottleneck"换成同一个 motif：组内并行 / 组间因果。VAR 是 scale 内部所有 token 并行预测、scale 之间 causal autoregressive；checkerboard 是 anchor 部分并行解码、non-anchor 用 anchor 当 context 并行解码。同一种"组内并行、组间因果"的分组思想，从压缩里的 entropy coding 反向搬回生成模型，AR 路线在图像上第一次真正跑通。VAR 的后续工作（Infinity）更进一步——把 bitwise self-correction 引入生成 chain，在概念层面对应信道编码里的纠错码思想，让分布飘移可以被在线纠正。

3D 生成：Sparc3D 在做同一类事。把 3D 几何用稀疏卷积 VAE 压成一个紧凑的 latent，让生成模型在这个 latent 上工作。表征压缩做对了，下游高分辨率生成是自然结果。

视频生成：到了视频，行业现在选的范式我们觉得错了。错的不是用 VAE，错的是在 VAE 设计上完全沿用了 image gen 的惯性——把视频当成"图像 + 时间 conv"，对所有时空位置均匀分配 token。但视频里大量位置是静止背景、重复纹理、慢变光照——为什么这些位置要花跟运动主体同样多的 token？BLT 在文本上已经证明，即使密度最高的语言信号，等长 tokenization 都是次优的——视频领域至今没有人系统化地做这件事。这是我们正在改的方向。

把这条逻辑形式化：固定算力预算下，表征压缩的好处有两个，是独立的两个轴。

第一个轴是建模复杂度。表征越紧凑，留给生成模型的概率分布就越规整、维度越低，建模成本指数级降低。LLM 之所以 work，根子上就是这个。

第二个轴是算力分配。固定预算下，省下来的 token 算力可以转化成模型容量——更多参数、更深网络，也就是更多智能本身。

所以"表征效率决定智能上限"不是修辞，是真实存在的双重 multiplier。反过来，表征冗余的代价也是双重的：建模困难 + 算力浪费。两个 multiplier 同时作用，差距会非常快地拉开。

ZP：这条逻辑在 RL 场景下，是不是还会被进一步放大？

王雨飞：放大到致命。现代 RL agent 把策略优化搬进 world model 的 imagination 空间，需要跑数百万步探索才能收敛。per-step 推理成本乘以 rollout 步数——效率差一个数量级，可训任务的复杂度就差一个数量级。

具体到训练侧的细节：RL 训练里 rollout 是同步阻塞的——上一步推不完，下一步策略更新就没法启动。所以推理慢一个数量级，整个训练 wall-clock 直接慢一个数量级，这没法靠多卡并行抹平。在这种场景下，高冗余的视频表征不是"慢一点"——是把整个 world model 能解锁的 RL 任务上限直接锁死。一个走得通的 world model 不一定要在视觉指标上击败 Sora，但它必须在单步成本上做到可负担——否则你做得再好看，也跑不起一次完整训练。

ZP：你们这条逻辑听起来像是 Hutter Prize 那一支思想的延伸——但 Hutter Prize 已经办了接近二十年，没有人觉得它真的通向 AGI。凭什么这次"压缩反向赋能生成"会不一样？

李智昊：因为这次压缩不是目的，是中间层。Hutter Prize 的设置让"压缩 Wikipedia"成了终态——压完就完了，没人在压缩之上构建第二层智能。它失败的不是命题，是闭环：压完没人接着用。

而过去三年发生的事不一样。LDM 把图像 VAE 当成中间层，扩散模型在 VAE 之上做生成；BLT 把 byte-level entropy patcher 当中间层，大 LM 在 patch 之上做语言；VAR 把 checkerboard 式的"并行 + 因果"分组当中间层，自回归在多尺度上做图像；Infinity 又在这之上叠了纠错码思想做高分辨率稳定。压缩在这里不是 endpoint，是给上层模型搭一个更好的工作空间。Hutter Prize 缺失的"上层"，过去三年 LDM、VAR、BLT 都在补——而且每一次补完，上层模型的能力都跳了一个台阶。这条 pattern 反复出现就不是巧合。视频 / world model 是这个 pattern 的下一步。

ZP：谢赛宁说过，LLM 是"下载互联网"，世界模型需要的是"下载人类"。你们怎么理解？

王雨飞：这句话非常准确。语言压缩得再好，也只是人类认知的一个投影——是人类对世界进行了感知和推理之后，再用文字符号把推理结果写下来。它跳过了感知和行动这两层。真正的智能需要直接压缩物理世界本身——不是人类说了什么，而是人类如何在物理世界中感知和行动。

这也是为什么我们认为视频作为中间表征层仍然不可或缺。LeCun 的 V-JEPA / JEPA 系思路选择完全丢弃像素，在抽象嵌入空间做预测——它的 pixel-rejection 论证本身其实跟我们方向一致：高频纹理、随机细节这些不可压缩的东西不该被建模。我们不同意的是抽象层级——直接跳到全局 embedding 太刚性，丢掉了像素级 verifiability，一旦绑定某个机器人形态或某种感知配置就失去跨场景泛化。视频是通用接口，各种形态的 agent 都能用，互联网上有海量数据，人还能直接看，便于评估调试。

但关键是：视频不是目的，对真实三维世界的高效压缩理解才是。 视频只是中间媒介层。压缩的是世界，不是视频本身。

07 12个月，从论文到闭环 Simulator

ZP：压缩这条路全行业都在做，你们最大的 moat （护城河）是什么？

李智昊：压缩在 CV 圈里是颗很冷的明珠。给个粗略量级——CVPR 2024 录取的 2700 多篇里，专门做 learned compression 的是二三十篇这个量级，做生成的接近一千篇。论文密度差一个数量级。原因不是这个方向不重要，是工程难度大、入门门槛高、能见度低，绝大多数博士会选择更"性感"的方向。但工业界一旦进入大规模部署，最终都会回到压缩——因为部署的本质就是在固定预算下做信息分配。

整个团队就是从这个冷门方向里长出来的：我在南大马展组——一个在五个国际压缩标准里都有技术贡献的实验室——做了多年 RAW 压缩；雨飞在 NTU 做了多年 RAW 重建和图像压缩。两人加上多篇联合一作 / 共一论文，覆盖了从 RAW 编码到 3DGS 压缩到 3D 几何压缩的整条链路。

我们真正的差异点不是哪一个单点技术稀缺，而是这个组合本身——把"图像 / RAW 压缩底子 + 3D 表征 + 视频 tokenizer"三层能力同时落在一个 founding team 上，这种"小圈子 + 长积累 + 多模态打通"的结构在创业公司里非常少见。要重组出类似的能力，至少需要两位资深研究者协作磨合一年以上。这条赌注的回报极不对称——方向赌对一档，回报甩开几档。给我们的窗口大约是 12-18 个月，在别人补齐之前先把 L3 跑通。

ZP：Sparc3D 和 2K 实时是非常小的团队完成的。但 world model 的工程量级远大于单篇论文。两个人的团队在接下来的阶段够用吗？

李智昊：当然不够，正在招人。但团队规模和方向选择之间有一个关系想说一下。我们之所以坚持先把表征问题想清楚再堆人做工程，是因为方向对了之后每个人的产出密度会高很多。Sparc3D 和 2K 实时不是靠人海做出来的，是因为底层思路想对了，所以同样的算力和人力能产出更多。

ZP：世界模型的评估是公认的难题。你们怎么看 benchmark？

李智昊：我们内部有一个原则：只测试，不优化。 benchmark 的价值在于诚实验证表征是否真的带来了改进。一旦把指标反向注入训练目标，模型就会倾向于 hack 指标而不是真正提升世界模拟能力。这条原则在压缩界其实是基础常识——RD 曲线只能用来评估，不能用来过拟合，否则你只是在调参不在做研究。我们把这条搬进了 world model evaluation 的方法论。

具体到当前阶段，我们重点评估三类 L3 相关指标：

延迟 benchmark：分两个子项——action latency（输入 action 到视频反馈的延迟）和 inference cost（单步算力和墙钟）。两个都要进 L3 区间（<50ms / 单卡 ms 级）。

物理一致性 benchmark：内部构造了一套物理 case 集——重力、碰撞、刚体运动、可形变物体——case 集是写死的，不喂训练。目标 L3 通过率 >80%。

闭环训练成功率：跟外部具身智能合作伙伴联合测试，看策略能否在我们的模拟器中真的收敛。这个指标只有外部跑得过才算数。

ZP：未来 12 个月的路线图大致是什么样？

李智昊：节奏是这样的：

Q1-Q2：发布 video tokenizer 第一版公开 demo，验证 action latency / inference cost 同时进 L3 区间。

Q2-Q3：闭环 Simulator demo——可以接 RL agent 做 rollout，物理一致性 case 集通过率验证。

Q3-Q4：跟具身智能合作伙伴联合训练，跑通至少一个真实任务的 L3 闭环。

更长期：Sparc3D 验证过的稀疏 3D 表征和视频 latent 做深度融合，从 L3 向 L4 推进。

并行在做的是团队建设、算力 / 数据合作、以及和具身智能伙伴的合作框架。

ZP：团队需要什么样的人？

李智昊：三个方向都缺资深研究员：3D 表征 / 生成（熟悉 sparse representation、neural rendering、3DGS、latent diffusion 这一线工作）；视频建模（做过大规模视频 tokenizer 或 video generative model，最好对 video coding 有 hands-on 背景）；系统 / 推理优化（能把 transformer 推理优化到 L3 延迟要求）。

我们也在找具身智能方向的合作伙伴——我们提供 simulator，对方在我们的模拟器上跑 RL 训练。这是验证 L3 是否真的 work 的最硬核测试。

ZP：最后一个问题。从 Sparc3D 到视频再到世界模型，你们反复讲的底层逻辑是压缩。如果用一句话总结这条路径，会是什么？

李智昊：从压缩一个 3D 物体，到压缩整个 3D 世界——每一步都在同一个判断上展开：信号的有效熵远低于它的原始比特数，每消除一份冗余，就多一份预算留给智能本身。

文章来自于微信公众号 "Z Potentials"，作者 "Z Potentials"

关键词: AI新闻 , 李智昊 , 王雨飞 , SparcAI , Sparc3D , 世界模型

AITNT资源拓展

根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考

AI数据分析

【开源免费】DeepBI是一款AI原生的数据分析平台。DeepBI充分利用大语言模型的能力来探索、查询、可视化和共享来自任何数据源的数据。用户可以使用DeepBI洞察数据并做出数据驱动的决策。
项目地址：https://github.com/DeepInsight-AI/DeepBI?tab=readme-ov-file
本地安装：https://www.deepbi.com/
【开源免费】airda(Air Data Agent)是面向数据分析的AI智能体，能够理解数据开发和数据分析需求、根据用户需要让数据可视化。
项目地址：https://github.com/hitsz-ids/airda

智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的（AI Agents）项目。用户创建的智能体能够自动执行各种任务，从而让AI有步骤的去解决实际问题。
项目地址：https://github.com/Significant-Gravitas/AutoGPT

﻿【开源免费】MetaGPT是一个“软件开发公司”的智能体项目，只需要输入一句话的老板需求，MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色，包括产品经理 / 架构师 / 项目经理 / 工程师，MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址：https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

RAG

【开源免费】graphrag是微软推出的RAG项目，与传统的通过 RAG 方法使用向量相似性作为搜索技术不同，GraphRAG是使用知识图谱在推理复杂信息时大幅提高问答性能。
项目地址：https://github.com/microsoft/graphrag

【开源免费】Dify是最早一批实现RAG，Agent，模型管理等一站式AI开发的工具平台，并且项目方一直持续维护。其中在任务编排方面相对领先对手，可以帮助研发实现像字节扣子那样的功能。
项目地址：https://github.com/langgenius/dify

【开源免费】RAGFlow是和Dify类似的开源项目，该项目在大文件解析方面做的更出色，拓展编排方面相对弱一些。
项目地址：https://github.com/infiniflow/ragflow/tree/main

【开源免费】phidata是一个可以实现将数据转化成向量存储，并通过AI实现RAG功能的项目
项目地址：https://github.com/phidatahq/phidata

【开源免费】TaskingAI 是一个提供RAG，Agent，大模型管理等AI项目开发的工具平台，比LangChain更强大的中间件AI平台工具。
项目地址：https://github.com/TaskingAI/TaskingAI