AI资讯新闻榜单内容搜索-VAE

彻底告别VE与VAE！商汤硬核重构多模态：砍掉所有中间编码器

多模态大模型的研发范式，正在被彻底重构。

来自主题: AI技术研报

5428 点击 2026-03-09 09:51

LeCun、谢赛宁团队重磅论文：RAE能大规模文生图了，且比VAE更好

编辑｜Panda 在文生图模型的技术版图中，VAE 几乎已经成为共识。从 Stable Diffusion 到 FLUX，再到一系列扩散 Transformer，主流路线高度一致：先用 VAE 压缩视

来自主题: AI技术研报

6964 点击 2026-01-24 10:52

比SOTA提速10倍！北大DragMesh重塑3D交互，物理零失真

让静态3D模型「动起来」一直是图形学界的难题：物理模拟太慢，生成模型又不讲「物理基本法」。近日，北京大学团队提出DragMesh，通过「语义-几何解耦」范式与双四元数VAE，成功将核心生成模块的算力消耗降低至SOTA模型的1/10，同时将运动轴预测误差降低了10倍。

来自主题: AI资讯

7529 点击 2026-01-05 09:35

MiniMax海螺首次开源 VTP，打通了 Visual Tokenizer 的 Scaling Law

MiniMax 海螺视频团队「首次开源」了 VTP（Visual Tokenizer Pre-training）项目。他们同步发布了一篇相当硬核的论文，它最有意思的地方在于 3 个点：「重建做得越好，生成反而可能越差」，传统 VAE 的直觉是错的

来自主题: AI技术研报

8377 点击 2025-12-20 10:04

FLUX.2开源了，但是我好像也看到了小公司的无力。

AI绘图圈的朋友们肯定都知道这个产品。FLUX。这次，发布了4款基础模型和1个VAE模型，其中2款是不开源的。分别是Pro和Flex，这两个最强大的模型，是闭源的。而其中2款模型是开源的，一个dev，目前已经开源了。

来自主题: AI资讯

9500 点击 2025-11-26 11:00

RAE+VAE? 预训练表征助力扩散模型Tokenizer，加速像素压缩到语义提取

近期，RAE（Diffusion Transformers with Representation Autoencoders）提出以「冻结的预训练视觉表征」直接作为潜空间，以显著提升扩散模型的生成性能。

来自主题: AI技术研报

10920 点击 2025-11-14 10:21

RAE的终极形态？北大&阿里提出UniLIP: 将CLIP拓展到重建、生成和编辑

统一多模态模型要求视觉表征必须兼顾语义（理解）和细节（生成 / 编辑）。早期 VAE 因语义不足而理解受限。近期基于 CLIP 的统一编码器，面临理解与重建的权衡：直接量化 CLIP 特征会损害理解性能；而为冻结的 CLIP 训练解码器，又因特征细节缺失而无法精确重建。例如，RAE 使用冻结的 DINOv2 重建，PSNR 仅 19.23。

来自主题: AI技术研报

8251 点击 2025-11-03 09:50