AI资讯新闻榜单内容搜索-VAE

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: VAE
MiniMax海螺首次开源 VTP,打通了 Visual Tokenizer 的 Scaling Law

MiniMax海螺首次开源 VTP,打通了 Visual Tokenizer 的 Scaling Law

MiniMax海螺首次开源 VTP,打通了 Visual Tokenizer 的 Scaling Law

MiniMax 海螺视频团队「首次开源」了 VTP(Visual Tokenizer Pre-training)项目。他们同步发布了一篇相当硬核的论文,它最有意思的地方在于 3 个点:「重建做得越好,生成反而可能越差」,传统 VAE 的直觉是错的

来自主题: AI技术研报
7911 点击    2025-12-20 10:04
FLUX.2开源了,但是我好像也看到了小公司的无力。

FLUX.2开源了,但是我好像也看到了小公司的无力。

FLUX.2开源了,但是我好像也看到了小公司的无力。

AI绘图圈的朋友们肯定都知道这个产品。FLUX。这次,发布了4款基础模型和1个VAE模型,其中2款是不开源的。分别是Pro和Flex,这两个最强大的模型,是闭源的。而其中2款模型是开源的,一个dev,目前已经开源了。

来自主题: AI资讯
9019 点击    2025-11-26 11:00
RAE+VAE? 预训练表征助力扩散模型Tokenizer,加速像素压缩到语义提取

RAE+VAE? 预训练表征助力扩散模型Tokenizer,加速像素压缩到语义提取

RAE+VAE? 预训练表征助力扩散模型Tokenizer,加速像素压缩到语义提取

近期,RAE(Diffusion Transformers with Representation Autoencoders)提出以「 冻结的预训练视觉表征」直接作为潜空间,以显著提升扩散模型的生成性能。

来自主题: AI技术研报
10482 点击    2025-11-14 10:21
RAE的终极形态?北大&阿里提出UniLIP: 将CLIP拓展到重建、生成和编辑

RAE的终极形态?北大&阿里提出UniLIP: 将CLIP拓展到重建、生成和编辑

RAE的终极形态?北大&阿里提出UniLIP: 将CLIP拓展到重建、生成和编辑

统一多模态模型要求视觉表征必须兼顾语义(理解)和细节(生成 / 编辑)。早期 VAE 因语义不足而理解受限。近期基于 CLIP 的统一编码器,面临理解与重建的权衡:直接量化 CLIP 特征会损害理解性能;而为冻结的 CLIP 训练解码器,又因特征细节缺失而无法精确重建。例如,RAE 使用冻结的 DINOv2 重建,PSNR 仅 19.23。

来自主题: AI技术研报
7865 点击    2025-11-03 09:50
天下苦VAE久矣:阿里高德提出像素空间生成模型训练范式, 彻底告别VAE依赖

天下苦VAE久矣:阿里高德提出像素空间生成模型训练范式, 彻底告别VAE依赖

天下苦VAE久矣:阿里高德提出像素空间生成模型训练范式, 彻底告别VAE依赖

近年来,基于扩散模型的图像生成技术发展迅猛,催生了Stable Diffusion、Midjourney等一系列强大的文生图应用。然而,当前主流的训练范式普遍依赖一个核心组件——变分自编码器(VAE),这也带来了长久以来困扰研究者们的几个问题:

来自主题: AI技术研报
6111 点击    2025-10-30 17:03
无VAE扩散模型! 清华&可灵团队「撞车」谢赛宁团队「RAE」

无VAE扩散模型! 清华&可灵团队「撞车」谢赛宁团队「RAE」

无VAE扩散模型! 清华&可灵团队「撞车」谢赛宁团队「RAE」

长期以来,扩散模型的训练通常依赖由变分自编码器(VAE)构建的低维潜空间表示。然而,VAE 的潜空间表征能力有限,难以有效支撑感知理解等核心视觉任务,同时「VAE + Diffusion」的范式在训练

来自主题: AI技术研报
6134 点击    2025-10-23 15:10
谢赛宁新作:VAE退役,RAE当立

谢赛宁新作:VAE退役,RAE当立

谢赛宁新作:VAE退役,RAE当立

谢赛宁团队最新研究给出了答案——VAE的时代结束,RAE将接力前行。其中表征自编码器RAE(Representation Autoencoders)是一种用于扩散Transformer(DiT)训练的新型自动编码器,其核心设计是用预训练的表征编码器(如DINO、SigLIP、MAE 等)与训练后的轻量级解码器配对,从而替代传统扩散模型中依赖的VAE(变分自动编码器)。

来自主题: AI技术研报
7735 点击    2025-10-14 16:34
刚刚,阿里图像编辑大杀器Qwen-Image-Edit上线,横扫像素与语义编辑,网友:再见PS

刚刚,阿里图像编辑大杀器Qwen-Image-Edit上线,横扫像素与语义编辑,网友:再见PS

刚刚,阿里图像编辑大杀器Qwen-Image-Edit上线,横扫像素与语义编辑,网友:再见PS

今天凌晨,阿里推出了最新图像编辑模型 Qwen-Image-Edit!该模型基于 200 亿参数的 Qwen-Image 架构构建,支持中英文双语精准文本编辑,在保持原有风格的同时完成修改。此外,Qwen-Image-Edit 将输⼊图像同时输⼊到 Qwen2.5-VL(实现视觉语义控制)和 VAE Encoder(实现视觉外观控制),兼具语义与外观的双重编辑能⼒。

来自主题: AI资讯
9468 点击    2025-08-19 08:52