世界模型真正的壁垒,可能是表征压缩,对话SparcAI95后创始人李智昊、王雨飞

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
世界模型真正的壁垒,可能是表征压缩,对话SparcAI95后创始人李智昊、王雨飞
8546点击    2026-04-30 09:03

Z Tech|世界模型真正的壁垒,可能是表征压缩,对话李智昊、王雨飞


01 导语


过去十年,压缩在 CV 学术圈一直是个边缘方向——做生成、做大模型才是显学。但 SparcAI 的两位95后创始人各自做了多年压缩,然后在同一间 NTU 实验室相遇,两年后发布了 Sparc3D。模型 demo 上线当日冲上 HuggingFace Trending 榜首,论文被 NeurIPS 2025 录用。如今他们创办了 SparcAI,目标是一家世界模型公司


这场对话从两位创始人的学术起点谈起,经 3D 与视频表征,落到他们对世界模型最底层的判断。其中不少看法跟当前行业的主流叙事相左——有些甚至是直接反对。


98年的李智昊的学术起点就是底层视觉的数据压缩表征。本科和硕士在南京大学 Vision Lab 师从马展教授——这是世界上最早一批做 learnt video compression 的组之一,DeepCoder(VCIP 2017)是这条线上最早的 CNN 视频编码工作之一,比 DVC(CVPR 2019)早一年半。组里同时还在做图像、3D 点云、RAW 四条压缩主线,在五个国际标准里都有它的技术贡献。智昊在那里做的是相机 RAW 图像的编码——如何在成像阶段就做感知导向的压缩。代表作是 ρ-Vision(T-PAMI 2024)。之后他去 NTU 读博,在 Bihan Wen 教授组里转向 3D 表征。


97年的王雨飞的学术起点同样在底层视觉与图像压缩。在 NTU EEE 跟随 Bihan Wen 与 Alex Kot 双导师,从 Raw Image Reconstruction with Learned Compact Metadata(CVPR 2023)、Beyond Learned Metadata(IJCV 2024)一路做到自监督 RAW 信号压缩。在 CVPR、NeurIPS、ICML、ICCV 等顶会上发表了四十多篇论文,拿了 NTU EEE 最佳博士论文,以及全校 STEM 领域的 Research Excellence Award。


两人在 NTU 期间合作了多篇工作:噪声 RAW 图像的自监督压缩(ICML 2024)、3DGS 压缩 ContextGS(NeurIPS 2024),以及 Sparc3D(NeurIPS 2025,与 Math Magic 团队合作完成)。共同沿着压缩的主线从图像走到 3D。


以下是我们和两位的对话。


Z Highlights


  • 绝大多数团队在做的事,是在现成视频生成模型上叠加动作条件。但底层表征不变,再精细的条件也不会自动变出更低的延迟和更强的物理一致性。条件在表层,病在表征层——这是当前世界模型从 L2 迈向 L3 的真正瓶颈。
  • 3D 空间的信息分布极度不均匀。3D 表征要做对的第一件事,是承认这种不均匀性,让表征本身能够动态分配资源。
  • 好的表征被 scaling 放大成强智能,糟的表征被 scaling 放大成贵的笨模型。世界模型的智能上限,在表征那一层就已经被决定了。
  • 压缩从来不是输家方向,只是在学术圈的能见度低。里面真做对的人非常少,做对的人对底层结构的理解是其他方向凑不出来的。
  • 任何采样出来的信号都是某个潜在结构的有损投影,压缩做的就是把那个潜在结构反推出来。
  • 视频不是目的,对真实三维世界的高效压缩理解才是。从压缩一个 3D 物体到压缩整个 3D 世界,每消除一份冗余,就多一份预算留给智能本身。


02 从南大 Vision Lab 到 NTU:压缩是怎么变成底层直觉的


ZP先从各自的学术起点聊起。智昊你在南大做的是数据压缩方向,当时具体在研究什么?


李智昊我在南大 Vision Lab 的时候,主要做相机 RAW 图像的压缩。当时主流做法是在 RGB 域里做 CV——RAW 先经过 ISP 转成 8-bit RGB 再处理。但 RAW 本身是 12-bit 或 14-bit,包含的动态范围、噪声分布、传感器原始光子计数信息,全都在 RGB 化的过程中被永久丢掉。我们提出了 In-Camera RAW Compression 这套范式,把感知导向的压缩前移到成像阶段,直接在 RAW 域里做面向下游任务的紧凑编码。后来这条线扩展成了 ρ-Vision,发在 T-PAMI 上。


那几年留下来的不是某个具体技术,是一种工作方式。压缩是对"信号哪部分重要"最直接的评判——给定固定码率,能高保真还原回来就说明你识别出了真正承载信息的结构;学不到结构的压缩器不可能有好的 RD 曲线。(ZP 注:RD 曲线,即率失真曲线,是压缩领域的核心评估工具。)这个评判过程不依赖任何标签、任何下游任务,自带闭环。后来做 3D、做视频,底层用的还是它。


ZP但压缩在过去十年的 CV 里几乎是个"输家方向"——做生成、做大模型才是显学。两位做了那么久压缩,是怎么判断这个方向的赌注押对了?


李智昊压缩从来不是输家方向,只是在学术圈的能见度低。工业界从来没有离开过它——所有视频流、所有图像存储、所有移动端 ISP,背后都是压缩在工作。学术界反过来很多时候是错的。压缩是一个"对了一个数量级、错了几个数量级"的方向,回报极不对称——所以方向看上去冷,但里面真做对的人非常少,做对的人对底层结构的理解是其他方向凑不出来的。


而且过去两年这条赌注已经在兑现了。Latent Diffusion 是把图像生成救回来的关键;VAR 把生成模型从 next-token 改成 next-scale prediction,借的是图像压缩里的并行因果分组思想。压缩里几十年积累的核心结构正在系统性地反向赋能生成模型。我们押的不是冷门,是再过几年大家会发现这条线一直在主线上,只是之前没被叫出来。(ZP 注:VAR,Visual Autoregressive Modeling,视觉自回归建模,获得 NeurIPS 2024 最佳论文奖。它不像传统方法逐像素生成图像,而是从粗到细、逐层级生成,类似于先画轮廓再填细节。)


ZP这套直觉跟南大 Vision Lab 当时在做的事关系大吗?


李智昊很大。马展老师组那个时候同时在打通图像、视频、3D 点云、RAW 四条 learnt compression 主线——这种"多模态压缩同步推进"的组态,全球大多数压缩 lab 都做不到,多数只做其中一条。组里在 IEEE 1857.11、MPEG AI-PCC、MPEG V-DMC、JPEG AI 和 AVS 五个国际标准里都有技术贡献:陈彤师兄的图像编码工作是 IEEE 1857.11 标准的 baseline;王剑强师兄做的 SparsePCGC / Unicorn 系列是 MPEG AI-PCC 标准的核心提案之一。


我硕士那几年在那种环境里。亲眼看着 sparse tensor 多尺度表示怎么把点云压缩做到 SOTA,看着 RAW、视频、点云三种完全不同的信号在用同一个底层语法被处理——sparse representation、context modeling、entropy coding、rate-distortion optimization。一旦看清这个统一的语法,所谓"3D 数据"、"视频数据"的边界其实没那么硬。任何采样出来的信号都是某个潜在结构的有损投影,压缩做的就是把那个潜在结构反推出来。这种"压缩是一种通用的表征哲学"的认知,是后来 Sparc3D 真正的精神出发点。


ZP雨飞你的起点跟智昊很像,也是图像压缩这一类问题?


王雨飞方向上一致。我博士早期最先做的是 Raw Image Reconstruction with Learned Compact Metadata(CVPR 2023),后来扩展到 IJCV 2024。底层在解的是和智昊一样的问题——用最紧凑的元数据把 RAW 信号里有用的留住,剩下的扔掉。再往后做扩散模型、做生成式重建,底层逻辑也都是怎么用更短的表征去捕捉信号最关键的部分。


博士后期我开始做 3DGS 压缩。3D Gaussian Splatting 一个场景动辄几百万个高斯核,参数量大得吓人。我和智昊做了 ContextGS(NeurIPS 2024),用 anchor-level 的上下文模型把 3DGS 压到原大小百分之一以内。做完那个工作我才意识到一件事:3D 表征的压缩不只是把模型变小,它在重新定义 3D 数据应该怎么被组织。这是一个比"减少参数"大得多的问题——它在问,3D 这种信号最适合的表征形式到底是什么。


ZP两个人的合作是怎么开始的?


李智昊我们都在 Bihan Wen 教授组里。但合作的真正起点不是行政上的"同组"。是我们发现,全球范围内同时在做 ISP 和压缩、甚至更具体到 RAW compression 这个交叉点的人极少——图像压缩这一层全世界在认真做的实验室一只手数得过来,推到 RAW 压缩,少到几乎所有人都互相认识。两个人独立做了几年这件事,撞进同一个组——看起来是巧合,其实是这个交叉点上根本没几个人。


第一篇合作就是 ICML 2024 上从噪声 RAW 图像里做自监督压缩的工作。那时候发现一个挺有用的命题:噪声本身没有结构、不可压缩、熵高且分布平坦——所以一个最优的有损压缩器自动会把高频随机噪声当冗余扔掉。这意味着"在低码率下高保真重建 RAW 信号"这个目标,本身就内含了 denoising,不需要单独的去噪 loss、不需要 ground-truth clean image,自监督就能跑。这种 reduction 是后来 ContextGS、Sparc3D 反复出现的模式。


03 Sparc3D:3D 表征里到底有多少冗余


ZP聊聊 Sparc3D。这个工作解决的核心问题是什么?


李智昊3D 生成领域有一个被长期忽视的根本问题:现有表征对 3D 空间做的是无差别的均匀编码。


密集体素网格、三平面特征、均匀采样的 SDF——这些主流方法对整个三维空间做等量的资源分配。不管一个区域有没有几何信息,都分配等量的计算、存储和参数。


但 3D 空间的信息分布极度不均匀。任何一个有界物体的几何信号,都集中在一个二维流形——也就是物体表面——附近极薄的一层里;剩下的体积要么是物体内部、要么是周围空气,对几何细节零贡献。当前主流方法对这两类"几何无关区域"花的算力,本来该花在表面那一薄层真正承载几何细节的位置上。


这种冗余直接锁死了生成质量的上限。3D 表征要做对的第一件事,是承认这种空间不均匀性,让表征本身能够动态分配资源。


ZP稀疏表示不是新东西,TRELLIS 之前也在做。Sparc3D 在这个基础上具体改了什么?


李智昊TRELLIS 等先驱工作意识到稀疏是对的方向,这个判断没错。但它们的具体做法有一个根本性的设计偏差:编码端用 2D 视觉特征,解码端却输出 3D 有符号距离场——编码和解码在两种完全不同的数据模态之间跳转。


这不只是工程上的不优雅。压缩里有一条最朴素的常识:编码器和解码器必须看同一种东西,否则你压的不是这个东西的冗余,是模态转换带来的噪声。TRELLIS 这个设计让模态转换本身成了主要的信息瓶颈,再多的 sparse capacity 也救不回来。


更严重的是,跨模态设计反过来扭曲了任务定义。当编码端是 2D、解码端是 3D 的时候,loss 不可能再是"重建得有多忠实"——只能退化成"生成出来的 3D 看起来对不对"。整个框架被推到了 generation 视角,而不是 reconstruction + compression 视角。压缩视角原本会强迫模型识别"什么必须被保留"——一旦识别错了恢复就失败;这种纪律一旦丢了,模型就可以编造一组 generation-friendly 的特征过日子,下游生成模型也只能在这组次优特征上勉强工作。


Sparc3D 在架构层面的核心贡献是模态一致的稀疏卷积 VAE——我们叫 Sparconv-VAE。编码和解码全程在同一种 3D 稀疏表示上操作,从源头消除模态转换的信息损耗,把任务重新拉回"重建 + 压缩"的本来定义。配合可变形稀疏网格 Sparcubes,在 1536³ 分辨率下达到接近无损重建。


具体到分工:这个项目是我在 Math Magic 研究实习期间完成的,跟 Yufei Wang、Heliang Zheng、Yihao Luo 和 Bihan Wen 老师合作。Math Magic 提供了大规模数据和算力,Sparconv-VAE 这个核心架构由我们设计。这是我把南大学到的稀疏压缩思想第一次完整搬到 3D 生成尺度上做出来。


ZP这个工作对你们来说,意义只在 3D 生成吗?


王雨飞远不止。Sparc3D 真正验证的是一个更一般性的假设:对三维世界的压缩表征做得越好,下游任务的质量上限就越高。 3D 物体只是一个最干净的测试场——输入输出都是几何,没有时间、没有动作、没有 agent,是最容易把表征本身的好坏隔离出来研究的设置。一旦在这个最干净的场里证明了"表征压缩 → 下游质量"是可重复的,下一步就是把它推到更复杂的场景:视频、动态场景、最终是物理世界本身。


04 视频生成的冗余从哪来


ZP从 3D 物体跳到视频生成,逻辑上怎么连接?


李智昊视频说到底是三维世界在二维平面上的投影序列。如果一个 3D 场景完全静止,从任意角度观察到的视频流也应当完全静止——每一帧都是冗余的。传统视频压缩早就理解这一点:I 帧 / P 帧、motion compensation、residual coding、跨帧 context modeling,都是在系统化地处理"投影序列里的结构性冗余"。


但当前的视频生成模型没有理解这件事。它们在 2D 像素空间里暴力建模,试图通过海量参数去"记住"三维世界投射到二维后的所有复杂规律——光影变化、遮挡关系、透视变形。


所以当前视频生成模型的三个痛点——多视角不一致、算力消耗巨大、长视频质量崩塌——行业普遍归因于模型架构或数据不足。我们看到的是:根源在表征层,不在架构层。架构再先进、数据再多,喂给模型的还是一组没有 3D 几何先验的二维像素,模型只能在统计上拟合规律,而不是在因果上理解结构。NVIDIA Cosmos、GAIA-1、DriveDreamer 这一系做自动驾驶 world model 的工作都遇到过同一类问题——视觉指标上能压住,但放到 closed-loop simulation 里物理一致性立刻崩。


ZP你们做了一个 2K 实时的视频生成来验证这个思路。具体做法是什么?


王雨飞具体方案我们暂时不展开。但可以讲一下方向:把视频压缩里这几十年被验证过的思想,重新引入视频生成系统。


当前 video gen 用 3D VAE 做 tokenizer,沿用的是 image gen 的惯性——直接套用图像 latent diffusion 的 tokenizer 范式,在时间维度上加几层 conv 就完事了。这是次优的,因为视频和图像的冗余结构完全不同。视频的冗余主要在时间一致性、运动连贯性、视角恒等性这些维度,图像 VAE 不感知这些。视频压缩这边几十年积累的成熟工具——动态码率、变长 chunk、context modeling、跨帧预测、motion-compensated residual——大多数还没有被搬到生成模型这边来。这是我们正在做的方向,会陆续放出来。


工程上还有一个具体的 trade-off 值得说。3D VAE 的 chunk frame 在 video gen 里是为了时间一致性而设计的:chunk 越长,一致性越好,但训练 batch 越笨重,activation memory 越高,inference 也越离散化。video gen 这边大家都在追求时间一致性,所以倾向于用大 chunk;但放到 simulator 场景下,大 chunk 是 action latency 的直接元凶。这两个目标本质矛盾——除非你做的不是固定 chunk,而是动态自适应的 chunk。这正是把视频压缩里的"按内容自适应分配码率"思想搬过来的关键 motivation。


ZP但说实话,"动态分配"这个思路听起来并不新——自适应计算、动态 token pruning 在 NLP 和视觉里都有大量工作。你们跟这些已有工作的区别在哪里?


李智昊好问题,分两层回答。


第一层是技术层。动态 token pruning 在推理阶段做的是"已经编完码之后再挑着用",我们做的是在编码阶段就重新定义信息的分配方式——这两件事在技术上完全不同。前者是在冗余表征上做后处理,后者是从源头消除冗余。类比传统视频压缩:先编码全帧再做码率控制,跟在编码器层面就设计自适应采样结构,是完全不同的两个问题。后者属于表征设计,前者属于推理优化,处理的不是同一层的问题。


第二层有一个非常近的同期证据。Meta FAIR 12 月放出来的 Byte Latent Transformer 直接在 byte 流上训练,用一个小的 byte-level LM 估计下一字节的条件熵——熵超过阈值或相对当前 patch 内均值有跳变时切一个 patch 边界。高熵区段保持细粒度,低熵区段被合并成一个 patch。在 8B / 4T 规模上 FLOP 对齐打平 Llama 3 BPE,并打开了 patch size 这条新的 scaling 轴。这就是把压缩里的"熵自适应编码"思想直接搬回 tokenizer 层的最直接证据。


如果文本这种密度本就很高的信号都不应该等长 tokenize,视频这种 90% 都是冗余的信号更不应该。BLT 在文本上做的事方向是对的;视频领域至今没有人系统化地推过去——大家还在用"先在 3D VAE 里把视频均匀压一下,再扔进 transformer"的旧范式。


05 世界模型到底卡在哪


ZP世界模型这个概念已经被讨论了很多年,从 Dreamer、MuZero 就开始在用 learned world model 做 imagination。你们怎么看当前行业里"世界模型"这个词的使用?


李智昊世界模型不是新东西,它跟着强化学习走了二十多年。从 90 年代的 TD-Gammon 和 CartPole,到 Atari DQN、MuJoCo,到 AlphaStar 和 CARLA,到 Hafner 一路从 PlaNet 做到 Dreamer V3,再到 NeRF 和 3DGS——每一次跃迁都是模拟环境向真实世界的一次逼近。区别只在于"什么信号被当作模拟器输出":早期是状态向量,中期是低分辨率像素,现在收敛到高分辨率视频。


到 2026 年,行业收敛到一个共识:视频生成是世界模型最合适的中介层。原因很直接——通用接口、数据丰沛(互联网视频是少数能规模化获取的"世界先验")、可观测(人能直接看,便于评估调试)。


但当前行业里"世界模型"这个词确实有滥用。很多产品本质上只是带动作条件的视频生成——响应延迟在秒级、物理一致性谈不上、闭环训不动。Sora、Veo 这一档是没有交互的纯生成;自动驾驶那一档(GAIA-1、Cosmos、DriveDreamer)有动作条件但延迟和物理一致性都还没过门槛;Genie 系列在游戏环境里做得不错但还没推到真实世界。这些是真做事的团队,不是在喊概念——但他们距离"能用作 RL 训练环境的 simulator"还有距离。


ZP你们提了一个 L1 到 L4 的分级。能说一下这个框架?


王雨飞核心按"能不能当 Simulator 闭环训练策略"来分,每一档我们都给了具体的量化阈值,避免分级变成 marketing。


  • L1 短时视觉预测:能看到几秒未来,但没有交互能力。Sora、Veo 在这一级。


  • L2 动作条件响应:给动作能返回视频反馈,但 action latency 在 100ms 以上、物理一致性指标(碰撞、刚体、重力)通过率 <50%。当前绝大多数自称世界模型的产品卡在这里。


  • L3 可闭环 Simulator:action latency < 50ms、单步 inference cost 在单卡 ms 级、物理 case 集通过率 >80%。可以接 RL agent 跑通至少一个真实任务的 imagination training。


  • L4 Simulate Everything:长时稳定、跨场景泛化、物理引擎级精度、因果推理。终极目标。


这套分级我们用来对齐内部讨论和对外路线图。


ZP你们这个分级里 L2 占了"当前绝大多数产品",听起来像是行业的一道天花板。从 L2 到 L3 究竟差在哪?


李智昊通用做法"拿现成视频生成 + 动作条件"天然解决不了 L3 要求的两件事——这两件事是两个独立的问题,不能混为一谈。


第一件事是 action latency。这不是推理快慢,是输入一个 action 之后,视频流第几帧才能反映这个 action 的影响。当前 video tokenizer 普遍采用很长的 chunk frame——CogVideoX 是 4 帧、Cosmos 提供 4 或 8 帧(最高 8)、Wan 是 4 帧——一次编码整 chunk 一起预测、一起解码。这种设计在 video gen 里是为了时间一致性,但放到 simulator 场景下:agent 踩刹车,系统至少要等下一个完整 chunk 才能开始反应。在 chunked causal 生成范式下,chunk frame × 1/fps 直接是 action latency 的下限——24 fps 下 8-frame chunk 就锁死了至少 333ms 的 action latency。


action latency 跟决策频率的相对关系决定它能不能用——给 RL agent 一个跟决策周期同尺度的 lag,就等于在欺骗 credit assignment:agent 收到的反馈跟它实际做的动作不对齐。这不是 GPU 不够快的问题,是表征架构本身的设计缺陷。


第二件事才是 inference cost——单步推理的算力和墙钟时间。当前主流 video gen 模型单次推理需要 8 卡级别算力、单步几秒。simulator 单步几秒乘以一次 RL 训练的百万级 rollout,训练总成本爆炸到根本不可负担。一个真实可用的 simulator 单步成本必须降到 ms 级、单卡级。


这两件事对应到表征层是一个需求的两面——时间粒度要细,空间粒度要稀。看似矛盾,但只要做的是稀疏自适应表征——动态地在重要时空区域加细、在静止区域抽稀——两个就同时被满足。所以这两件事的解都不在条件端,都在表征层。


ZPL2→L3 的另一个要求是物理一致性。这个不是表征压缩能解决的吧?给视频模型加显式物理先验(PhysGen、PhysDreamer 这类)会不会更直接?


李智昊物理一致性这件事是双轨的——既需要先验,也需要表征。直接灌物理先验是对的,但有一个限制:先验只能覆盖你能写下来的物理规律(重力、刚体、流体),不能覆盖人体运动、布料、毛发、可形变物体这种很难显式写出方程的现象。所以纯先验路径只能 cover 一小块。


我们看到的是:表征要先做对,先验在那之上叠加。一个 2D 像素表征里,重力是一种"奇怪的关联模式"——物体下落到地面时像素重组的方式得靠模型从数据里 mine 出来;但在一个带 3D 几何先验的表征里,重力是一个直接作用在几何空间上的物理量。这就是为什么 3D 融合解决物理正确性——它让先验有地方可以挂载,而不是逼模型从像素统计里硬学。


ZP但有一个反面案例值得讨论。DeepMind 的 Genie 3 已经做到了 720p 的实时交互式视频,靠的就是大规模训练 + 工程优化,没怎么走表征压缩这条路。如果规模足够大、数据足够多,是不是真的可以绕过表征?毕竟在 NLP 里,GPT 也不是靠精细设计语言表征成功的。


李智昊先说立场:我并不认为 scaling 能"绕过"表征问题。这是两个轴,不是替代品。


GPT 的成功从来不是"scaling 不需要好表征"。语言本身就是一次极致的好表征——人类用几千年时间,把对世界的观察、推理、经验压缩成文字符号,自带语法、逻辑、因果结构这些隐式约束。GPT 在这个已经被压缩到极致的空间上做 scaling,上限自然高。它不是 scaling 战胜了表征,是 scaling 站在已经做对的表征肩膀上。


形式化讲,scaling law 描述的是固定输入分布下的训练损失曲线。但输入分布本身——也就是表征——决定了曲线的整个 family。Henighan 等人 2020 年那篇 scaling law 论文里,明确显示换 tokenizer 会把整条曲线沿 loss 轴垂直平移。ZP 注: Henighan et al., "Scaling Laws for Autoregressive Generative Modeling," arXiv 2020。)换好的表征不是让你"沿同一条曲线 scaling 更快",是让你换到一条更低的曲线上。同样的 compute budget,更好的表征就会落到更低的 loss——而下游能力跟 loss 是非线性挂钩的,loss 上的小差距会被放大成能力上的大差距。


Genie 3 在游戏环境里效果不错,因为游戏本身就是一种被简化、被结构化的世界表达——状态空间有限、像素规整、物理规则封闭。这不是 raw 的物理世界。当我们谈论真正的 world model——agent 要在里面学习开车、操作机械臂、跨场景导航——表征是否高效会直接决定你能 scale 到哪里。


所以我们的判断不是“压缩比 scaling 重要”,而是"不先把表征做对,scaling 再多也只能在一条更高的 loss 曲线上走"。scaling 当然重要,但它放大的是你已有的表征效率——好的表征被 scaling 放大成强智能,糟的表征被 scaling 放大成贵的笨模型。


06 信息论视角:压缩和智能上限的关系


ZP你们反复讲"表征压缩决定智能上限"。Sutskever 的 "compression is prediction" 已经被引用得很滥了。你们究竟在主张哪个版本?


李智昊先做一个澄清,免得被误解。我认同“压缩就是智能”这种简化说法——这是对 OpenAI、DeepMind,以及过去几十年所有在架构、算法、强化学习上做出过实质贡献的研究者的不公平。智能本身是一个比压缩更复杂、更多维的现象,是架构、目标函数、scaling、数据、算法多条路径共同探索出来的。我们想说的不是"压缩 = 智能",而是一个更弱、更具体的命题:表征效率决定了所有这些路径最终能接近的上限


这个命题在信息论里有一个有限但坚实的底子。Shannon 1948 年的 source coding theorem 给了 lossless 情形下最朴素的事实:信号的可压缩极限等于它的熵;最优算术编码做的就是把这个极限逼近——而做最优算术编码的前提,就是有最优的下一比特概率模型。从这个意义上讲,lossless compression 和最优 next-token prediction 在信息论里是同构的。Sutskever 在 2023 年 Simons Institute 的 "An Observation on Generalization" 演讲里讲的就是这件事;Hutter 设了 Hutter Prize 用 Wikipedia 压缩比作为 AGI 近似测试。


但 lossless 不能直接搬到表征学习——VAE 做的是 lossy compression,存在 rate-distortion-perception trade-off。Blau 和 Michaeli 2019 那篇论文给了更精准的 framing:在 lossy 设置下,存在三角形 trade-off——率(rate)、失真(distortion)、感知质量(perception)三者相互制约,不可能同时最大化。ZP注:指 Blau & Michaeli, "Rethinking Lossy Compression: The Rate-Distortion-Perception Tradeoff," ICML 2019。所以"好的表征"在 lossy 情形下不是单一目标——是在固定 rate 下同时优化 distortion 和 perception,并把这种优化跟下游任务的可学性对齐。这就是为什么不是任何 VAE 都能 power up 下游建模——只有在恰当的 rate-distortion-perception 工作点上设计的表征,才会给下游建模带来真正的 leverage。


这条逻辑在过去几年 AI 实践里有非常清楚的足迹。


语言模型:自然语言已经是人类对世界的一次极致压缩,剩下的工作只是在这个空间上做条件分布建模。所以 transformer + 自回归就够了。


图像生成:最早的扩散模型——DDPM(Ho et al. 2020)——直接在像素空间做扩散,单尺度、无压缩、没有 cascade。这个范式在 32×32 / 64×64 上能 work,但推到 256×256 或 512×512 就明显吃力——像素空间的概率分布太散、维度太高,单一模型怎么 scale 都拉不动。Latent Diffusion(Rombach 2022)的解法是先用 VAE 把像素压到低维隐空间,再在隐空间做扩散,把建模拆成两步:先压缩,再建模。一切就通了。这是图像生成的 ImageNet 时刻,是被压缩救回来的。


自回归图像生成:AR 在文本上 work,在图像上长期失败——直到 VAR(NeurIPS 2024 Best Paper)。VAR 把生成从 next-token 改成 next-scale prediction,结构上跟图像压缩里的 checkerboard context model(He et al. CVPR 2021)同构——都是把"全自回归的 strict sequential bottleneck"换成同一个 motif:组内并行 / 组间因果。VAR 是 scale 内部所有 token 并行预测、scale 之间 causal autoregressive;checkerboard 是 anchor 部分并行解码、non-anchor 用 anchor 当 context 并行解码。同一种"组内并行、组间因果"的分组思想,从压缩里的 entropy coding 反向搬回生成模型,AR 路线在图像上第一次真正跑通。VAR 的后续工作(Infinity)更进一步——把 bitwise self-correction 引入生成 chain,在概念层面对应信道编码里的纠错码思想,让分布飘移可以被在线纠正。


3D 生成:Sparc3D 在做同一类事。把 3D 几何用稀疏卷积 VAE 压成一个紧凑的 latent,让生成模型在这个 latent 上工作。表征压缩做对了,下游高分辨率生成是自然结果。


视频生成:到了视频,行业现在选的范式我们觉得错了。错的不是用 VAE,错的是在 VAE 设计上完全沿用了 image gen 的惯性——把视频当成"图像 + 时间 conv",对所有时空位置均匀分配 token。但视频里大量位置是静止背景、重复纹理、慢变光照——为什么这些位置要花跟运动主体同样多的 token?BLT 在文本上已经证明,即使密度最高的语言信号,等长 tokenization 都是次优的——视频领域至今没有人系统化地做这件事。这是我们正在改的方向。


把这条逻辑形式化:固定算力预算下,表征压缩的好处有两个,是独立的两个轴。


第一个轴是建模复杂度。表征越紧凑,留给生成模型的概率分布就越规整、维度越低,建模成本指数级降低。LLM 之所以 work,根子上就是这个。


第二个轴是算力分配。固定预算下,省下来的 token 算力可以转化成模型容量——更多参数、更深网络,也就是更多智能本身。


所以"表征效率决定智能上限"不是修辞,是真实存在的双重 multiplier。反过来,表征冗余的代价也是双重的:建模困难 + 算力浪费。两个 multiplier 同时作用,差距会非常快地拉开。


ZP这条逻辑在 RL 场景下,是不是还会被进一步放大?


王雨飞放大到致命。现代 RL agent 把策略优化搬进 world model 的 imagination 空间,需要跑数百万步探索才能收敛。per-step 推理成本乘以 rollout 步数——效率差一个数量级,可训任务的复杂度就差一个数量级。


具体到训练侧的细节:RL 训练里 rollout 是同步阻塞的——上一步推不完,下一步策略更新就没法启动。所以推理慢一个数量级,整个训练 wall-clock 直接慢一个数量级,这没法靠多卡并行抹平。在这种场景下,高冗余的视频表征不是"慢一点"——是把整个 world model 能解锁的 RL 任务上限直接锁死。一个走得通的 world model 不一定要在视觉指标上击败 Sora,但它必须在单步成本上做到可负担——否则你做得再好看,也跑不起一次完整训练。


ZP你们这条逻辑听起来像是 Hutter Prize 那一支思想的延伸——但 Hutter Prize 已经办了接近二十年,没有人觉得它真的通向 AGI。凭什么这次"压缩反向赋能生成"会不一样?


李智昊因为这次压缩不是目的,是中间层。Hutter Prize 的设置让"压缩 Wikipedia"成了终态——压完就完了,没人在压缩之上构建第二层智能。它失败的不是命题,是闭环:压完没人接着用。


而过去三年发生的事不一样。LDM 把图像 VAE 当成中间层,扩散模型在 VAE 之上做生成;BLT 把 byte-level entropy patcher 当中间层,大 LM 在 patch 之上做语言;VAR 把 checkerboard 式的"并行 + 因果"分组当中间层,自回归在多尺度上做图像;Infinity 又在这之上叠了纠错码思想做高分辨率稳定。压缩在这里不是 endpoint,是给上层模型搭一个更好的工作空间。Hutter Prize 缺失的"上层",过去三年 LDM、VAR、BLT 都在补——而且每一次补完,上层模型的能力都跳了一个台阶。这条 pattern 反复出现就不是巧合。视频 / world model 是这个 pattern 的下一步。


ZP谢赛宁说过,LLM 是"下载互联网",世界模型需要的是"下载人类"。你们怎么理解?


王雨飞这句话非常准确。语言压缩得再好,也只是人类认知的一个投影——是人类对世界进行了感知和推理之后,再用文字符号把推理结果写下来。它跳过了感知和行动这两层。真正的智能需要直接压缩物理世界本身——不是人类说了什么,而是人类如何在物理世界中感知和行动。


这也是为什么我们认为视频作为中间表征层仍然不可或缺。LeCun 的 V-JEPA / JEPA 系思路选择完全丢弃像素,在抽象嵌入空间做预测——它的 pixel-rejection 论证本身其实跟我们方向一致:高频纹理、随机细节这些不可压缩的东西不该被建模。我们不同意的是抽象层级——直接跳到全局 embedding 太刚性,丢掉了像素级 verifiability,一旦绑定某个机器人形态或某种感知配置就失去跨场景泛化。视频是通用接口,各种形态的 agent 都能用,互联网上有海量数据,人还能直接看,便于评估调试。


但关键是:视频不是目的,对真实三维世界的高效压缩理解才是。 视频只是中间媒介层。压缩的是世界,不是视频本身。


07  12个月,从论文到闭环 Simulator


ZP:压缩这条路全行业都在做,你们最大的 moat (护城河)是什么?


李智昊压缩在 CV 圈里是颗很冷的明珠。给个粗略量级——CVPR 2024 录取的 2700 多篇里,专门做 learned compression 的是二三十篇这个量级,做生成的接近一千篇。论文密度差一个数量级。原因不是这个方向不重要,是工程难度大、入门门槛高、能见度低,绝大多数博士会选择更"性感"的方向。但工业界一旦进入大规模部署,最终都会回到压缩——因为部署的本质就是在固定预算下做信息分配。


整个团队就是从这个冷门方向里长出来的:我在南大马展组——一个在五个国际压缩标准里都有技术贡献的实验室——做了多年 RAW 压缩;雨飞在 NTU 做了多年 RAW 重建和图像压缩。两人加上多篇联合一作 / 共一论文,覆盖了从 RAW 编码到 3DGS 压缩到 3D 几何压缩的整条链路。


我们真正的差异点不是哪一个单点技术稀缺,而是这个组合本身——把"图像 / RAW 压缩底子 + 3D 表征 + 视频 tokenizer"三层能力同时落在一个 founding team 上,这种"小圈子 + 长积累 + 多模态打通"的结构在创业公司里非常少见。要重组出类似的能力,至少需要两位资深研究者协作磨合一年以上。这条赌注的回报极不对称——方向赌对一档,回报甩开几档。给我们的窗口大约是 12-18 个月,在别人补齐之前先把 L3 跑通。


ZPSparc3D 和 2K 实时是非常小的团队完成的。但 world model 的工程量级远大于单篇论文。两个人的团队在接下来的阶段够用吗?


李智昊当然不够,正在招人。但团队规模和方向选择之间有一个关系想说一下。我们之所以坚持先把表征问题想清楚再堆人做工程,是因为方向对了之后每个人的产出密度会高很多。Sparc3D 和 2K 实时不是靠人海做出来的,是因为底层思路想对了,所以同样的算力和人力能产出更多。


ZP世界模型的评估是公认的难题。你们怎么看 benchmark?


李智昊我们内部有一个原则:只测试,不优化。 benchmark 的价值在于诚实验证表征是否真的带来了改进。一旦把指标反向注入训练目标,模型就会倾向于 hack 指标而不是真正提升世界模拟能力。这条原则在压缩界其实是基础常识——RD 曲线只能用来评估,不能用来过拟合,否则你只是在调参不在做研究。我们把这条搬进了 world model evaluation 的方法论。


具体到当前阶段,我们重点评估三类 L3 相关指标:


  • 延迟 benchmark:分两个子项——action latency(输入 action 到视频反馈的延迟)和 inference cost(单步算力和墙钟)。两个都要进 L3 区间(<50ms / 单卡 ms 级)。


  • 物理一致性 benchmark:内部构造了一套物理 case 集——重力、碰撞、刚体运动、可形变物体——case 集是写死的,不喂训练。目标 L3 通过率 >80%。


  • 闭环训练成功率:跟外部具身智能合作伙伴联合测试,看策略能否在我们的模拟器中真的收敛。这个指标只有外部跑得过才算数。


ZP未来 12 个月的路线图大致是什么样?


李智昊节奏是这样的:


  • Q1-Q2:发布 video tokenizer 第一版公开 demo,验证 action latency / inference cost 同时进 L3 区间。


  • Q2-Q3:闭环 Simulator demo——可以接 RL agent 做 rollout,物理一致性 case 集通过率验证。


  • Q3-Q4:跟具身智能合作伙伴联合训练,跑通至少一个真实任务的 L3 闭环。


  • 更长期:Sparc3D 验证过的稀疏 3D 表征和视频 latent 做深度融合,从 L3 向 L4 推进。


并行在做的是团队建设、算力 / 数据合作、以及和具身智能伙伴的合作框架。


ZP团队需要什么样的人?


李智昊三个方向都缺资深研究员:3D 表征 / 生成(熟悉 sparse representation、neural rendering、3DGS、latent diffusion 这一线工作);视频建模(做过大规模视频 tokenizer 或 video generative model,最好对 video coding 有 hands-on 背景);系统 / 推理优化(能把 transformer 推理优化到 L3 延迟要求)。


我们也在找具身智能方向的合作伙伴——我们提供 simulator,对方在我们的模拟器上跑 RL 训练。这是验证 L3 是否真的 work 的最硬核测试。


ZP最后一个问题。从 Sparc3D 到视频再到世界模型,你们反复讲的底层逻辑是压缩。如果用一句话总结这条路径,会是什么?


李智昊从压缩一个 3D 物体,到压缩整个 3D 世界——每一步都在同一个判断上展开:信号的有效熵远低于它的原始比特数,每消除一份冗余,就多一份预算留给智能本身。


文章来自于微信公众号 "Z Potentials",作者 "Z Potentials"

AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
AI数据分析

【开源免费】DeepBI是一款AI原生的数据分析平台。DeepBI充分利用大语言模型的能力来探索、查询、可视化和共享来自任何数据源的数据。用户可以使用DeepBI洞察数据并做出数据驱动的决策。

项目地址:https://github.com/DeepInsight-AI/DeepBI?tab=readme-ov-file

本地安装:https://www.deepbi.com/

【开源免费airda(Air Data Agent)是面向数据分析的AI智能体,能够理解数据开发和数据分析需求、根据用户需要让数据可视化。

项目地址:https://github.com/hitsz-ids/airda

2
智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。

项目地址:https://github.com/Significant-Gravitas/AutoGPT


【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

3
RAG

【开源免费】graphrag是微软推出的RAG项目,与传统的通过 RAG 方法使用向量相似性作为搜索技术不同,GraphRAG是使用知识图谱在推理复杂信息时大幅提高问答性能。

项目地址:https://github.com/microsoft/graphrag

【开源免费】Dify是最早一批实现RAG,Agent,模型管理等一站式AI开发的工具平台,并且项目方一直持续维护。其中在任务编排方面相对领先对手,可以帮助研发实现像字节扣子那样的功能。

项目地址:https://github.com/langgenius/dify


【开源免费】RAGFlow是和Dify类似的开源项目,该项目在大文件解析方面做的更出色,拓展编排方面相对弱一些。

项目地址:https://github.com/infiniflow/ragflow/tree/main


【开源免费】phidata是一个可以实现将数据转化成向量存储,并通过AI实现RAG功能的项目

项目地址:https://github.com/phidatahq/phidata


【开源免费】TaskingAI 是一个提供RAG,Agent,大模型管理等AI项目开发的工具平台,比LangChain更强大的中间件AI平台工具。

项目地址:https://github.com/TaskingAI/TaskingAI