AI资讯新闻榜单内容搜索-VAE

LeCun、谢赛宁团队重磅论文：RAE能大规模文生图了，且比VAE更好

编辑｜Panda 在文生图模型的技术版图中，VAE 几乎已经成为共识。从 Stable Diffusion 到 FLUX，再到一系列扩散 Transformer，主流路线高度一致：先用 VAE 压缩视

来自主题: AI技术研报

6682 点击 2026-01-24 10:52

比SOTA提速10倍！北大DragMesh重塑3D交互，物理零失真

让静态3D模型「动起来」一直是图形学界的难题：物理模拟太慢，生成模型又不讲「物理基本法」。近日，北京大学团队提出DragMesh，通过「语义-几何解耦」范式与双四元数VAE，成功将核心生成模块的算力消耗降低至SOTA模型的1/10，同时将运动轴预测误差降低了10倍。

来自主题: AI资讯

7278 点击 2026-01-05 09:35

MiniMax海螺首次开源 VTP，打通了 Visual Tokenizer 的 Scaling Law

MiniMax 海螺视频团队「首次开源」了 VTP（Visual Tokenizer Pre-training）项目。他们同步发布了一篇相当硬核的论文，它最有意思的地方在于 3 个点：「重建做得越好，生成反而可能越差」，传统 VAE 的直觉是错的

来自主题: AI技术研报

8159 点击 2025-12-20 10:04

FLUX.2开源了，但是我好像也看到了小公司的无力。

AI绘图圈的朋友们肯定都知道这个产品。FLUX。这次，发布了4款基础模型和1个VAE模型，其中2款是不开源的。分别是Pro和Flex，这两个最强大的模型，是闭源的。而其中2款模型是开源的，一个dev，目前已经开源了。

来自主题: AI资讯

9246 点击 2025-11-26 11:00

RAE+VAE? 预训练表征助力扩散模型Tokenizer，加速像素压缩到语义提取

近期，RAE（Diffusion Transformers with Representation Autoencoders）提出以「冻结的预训练视觉表征」直接作为潜空间，以显著提升扩散模型的生成性能。

来自主题: AI技术研报

10693 点击 2025-11-14 10:21

RAE的终极形态？北大&阿里提出UniLIP: 将CLIP拓展到重建、生成和编辑

统一多模态模型要求视觉表征必须兼顾语义（理解）和细节（生成 / 编辑）。早期 VAE 因语义不足而理解受限。近期基于 CLIP 的统一编码器，面临理解与重建的权衡：直接量化 CLIP 特征会损害理解性能；而为冻结的 CLIP 训练解码器，又因特征细节缺失而无法精确重建。例如，RAE 使用冻结的 DINOv2 重建，PSNR 仅 19.23。

来自主题: AI技术研报

8055 点击 2025-11-03 09:50

天下苦VAE久矣：阿里高德提出像素空间生成模型训练范式, 彻底告别VAE依赖

近年来，基于扩散模型的图像生成技术发展迅猛，催生了Stable Diffusion、Midjourney等一系列强大的文生图应用。然而，当前主流的训练范式普遍依赖一个核心组件——变分自编码器（VAE），这也带来了长久以来困扰研究者们的几个问题：

来自主题: AI技术研报

6313 点击 2025-10-30 17:03

VAE再被补刀！清华快手SVG扩散模型亮相，训练提效6200%，生成提速3500%

前脚谢赛宁刚宣告VAE在图像生成领域退役，后脚清华与快手可灵团队也带着无VAE潜在扩散模型SVG来了。

来自主题: AI技术研报

6503 点击 2025-10-29 16:28

无VAE扩散模型！清华&可灵团队「撞车」谢赛宁团队「RAE」

长期以来，扩散模型的训练通常依赖由变分自编码器（VAE）构建的低维潜空间表示。然而，VAE 的潜空间表征能力有限，难以有效支撑感知理解等核心视觉任务，同时「VAE + Diffusion」的范式在训练

来自主题: AI技术研报

6317 点击 2025-10-23 15:10

谢赛宁新作：VAE退役，RAE当立

谢赛宁团队最新研究给出了答案——VAE的时代结束，RAE将接力前行。其中表征自编码器RAE（Representation Autoencoders）是一种用于扩散Transformer（DiT）训练的新型自动编码器，其核心设计是用预训练的表征编码器（如DINO、SigLIP、MAE 等）与训练后的轻量级解码器配对，从而替代传统扩散模型中依赖的VAE（变分自动编码器）。

来自主题: AI技术研报

7899 点击 2025-10-14 16:34

AI资讯新闻榜单内容搜索-VAE

LeCun、谢赛宁团队重磅论文：RAE能大规模文生图了，且比VAE更好

比SOTA提速10倍！北大DragMesh重塑3D交互，物理零失真

MiniMax海螺首次开源 VTP，打通了 Visual Tokenizer 的 Scaling Law

FLUX.2开源了，但是我好像也看到了小公司的无力。

RAE+VAE? 预训练表征助力扩散模型Tokenizer，加速像素压缩到语义提取

RAE的终极形态？北大&阿里提出UniLIP: 将CLIP拓展到重建、生成和编辑

天下苦VAE久矣：阿里高德提出像素空间生成模型训练范式, 彻底告别VAE依赖

VAE再被补刀！清华快手SVG扩散模型亮相，训练提效6200%，生成提速3500%

无VAE扩散模型！ 清华&可灵团队「撞车」谢赛宁团队「RAE」

谢赛宁新作：VAE退役，RAE当立

无VAE扩散模型！清华&可灵团队「撞车」谢赛宁团队「RAE」