AI资讯新闻榜单内容搜索-Diffusion

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: Diffusion
NeurIPS 2025 Oral | 1个Token零成本,REG让Diffusion训练收敛快20倍!

NeurIPS 2025 Oral | 1个Token零成本,REG让Diffusion训练收敛快20倍!

NeurIPS 2025 Oral | 1个Token零成本,REG让Diffusion训练收敛快20倍!

REG 是一种简单而有效的方法,仅通过引入一个 class token 便能大幅加速生成模型的训练收敛。其将基础视觉模型(如 DINOv2)的 class token 与 latent 在空间维度拼接后共同加噪训练,从而显著提升 Diffusion 的收敛速度与性能上限。在 ImageNet 256×256 上,

来自主题: AI技术研报
6550 点击    2025-11-29 13:46
NeurIPS重磅:华南理工团队重构扩散模型推理,质量效率双SOTA

NeurIPS重磅:华南理工团队重构扩散模型推理,质量效率双SOTA

NeurIPS重磅:华南理工团队重构扩散模型推理,质量效率双SOTA

扩散概率生成模型(Diffusion Models)已成为AIGC时代的重要基础,但其推理速度慢、训练与推理之间的差异大,以及优化困难,始终是制约其广泛应用的关键问题。近日,被NeurIPS 2025接收的一篇重磅论文EVODiff给出了全新解法:来自华南理工大学曾德炉教授「统计推断,数据科学与人工智能」研究团队跳出了传统的数值求解思维,首次从信息感知的推理视角,将去噪过程重构为实时熵减优化问题。

来自主题: AI技术研报
6692 点击    2025-11-24 14:32
通用的dLLM开发框架,让BERT掌握扩散式对话

通用的dLLM开发框架,让BERT掌握扩散式对话

通用的dLLM开发框架,让BERT掌握扩散式对话

扩散式语言模型(Diffusion Language Model, DLM)虽近期受关注,但社区长期受限于(1)缺乏易用开发框架与(2)高昂训练成本,导致多数 DLM 难以在合理预算下复现,初学者也难以真正理解其训练与生成机制。

来自主题: AI技术研报
7969 点击    2025-11-24 10:19
SGLang Diffusion震撼发布:图像视频生成速度猛提57%!

SGLang Diffusion震撼发布:图像视频生成速度猛提57%!

SGLang Diffusion震撼发布:图像视频生成速度猛提57%!

就在一周前,全宇宙最火爆的推理框架 SGLang 官宣支持了 Diffusion 模型,好评如潮。团队成员将原本在大语言模型推理中表现突出的高性能调度与内核优化,扩展到图像与视频扩散模型上,相较于先前的视频和图像生成框架,速度提升最高可达 57%:

来自主题: AI技术研报
7336 点击    2025-11-22 11:33
Lumina-DiMOO:多模态扩散语言模型重塑图像生成与理解

Lumina-DiMOO:多模态扩散语言模型重塑图像生成与理解

Lumina-DiMOO:多模态扩散语言模型重塑图像生成与理解

上海人工智能实验室推出了一款革新的多模态生成理解一体化的扩散语言模型 ——Lumina-DiMOO。基于离散扩散建模(Discrete Diffusion Modeling),Lumina-DiMOO 打破了多模态任务之间的壁垒,在同一离散扩散框架下,完成从 文本→图像、图像→图像、图像→文本的全栈能力闭环。

来自主题: AI技术研报
8178 点击    2025-11-17 14:33
AAAI 2026|教会视频扩散模型「理解科学现象」:从初始帧生成整个物理演化

AAAI 2026|教会视频扩散模型「理解科学现象」:从初始帧生成整个物理演化

AAAI 2026|教会视频扩散模型「理解科学现象」:从初始帧生成整个物理演化

近年来,Stable Diffusion、CogVideoX 等视频生成模型在自然场景中表现惊艳,但面对科学现象 —— 如流体模拟或气象过程 —— 却常常 “乱画”:如下视频所示,生成的流体很容易产生违背物理直觉的现象,比如气旋逆向旋转或整体平移等等。

来自主题: AI技术研报
10592 点击    2025-11-17 09:22
何必DiT!字节首次拿着自回归,单GPU一分钟生成5秒720p视频 | NeurIPS'25 Oral

何必DiT!字节首次拿着自回归,单GPU一分钟生成5秒720p视频 | NeurIPS'25 Oral

何必DiT!字节首次拿着自回归,单GPU一分钟生成5秒720p视频 | NeurIPS'25 Oral

一篇入围顶会NeurIPS’25 Oral的论文,狠狠反击了一把DiT(Diffusion Transformer)。这篇来自字节跳动商业化技术团队的论文,则是提出了一个名叫InfinityStar的方法,一举兼得了视频生成的质量和效率,为视频生成方法探索更多可能的路径。

来自主题: AI技术研报
8026 点击    2025-11-14 14:25
RAE+VAE? 预训练表征助力扩散模型Tokenizer,加速像素压缩到语义提取

RAE+VAE? 预训练表征助力扩散模型Tokenizer,加速像素压缩到语义提取

RAE+VAE? 预训练表征助力扩散模型Tokenizer,加速像素压缩到语义提取

近期,RAE(Diffusion Transformers with Representation Autoencoders)提出以「 冻结的预训练视觉表征」直接作为潜空间,以显著提升扩散模型的生成性能。

来自主题: AI技术研报
10387 点击    2025-11-14 10:21
AI快速生成全新抗体设计图,可精确打击病毒要害,大卫·贝克最新研究或改变传染病应对模式

AI快速生成全新抗体设计图,可精确打击病毒要害,大卫·贝克最新研究或改变传染病应对模式

AI快速生成全新抗体设计图,可精确打击病毒要害,大卫·贝克最新研究或改变传染病应对模式

近日,诺贝尔奖得主、美国华盛顿大学教授大卫·贝克(David Baker)和团队再次将 AI 成果送上 Nature,他们开发出一种基于 AI 的蛋白质结构生成模型 RFdiffusion,能在指定病毒表面特定表位的情况下,辅助人类从头设计出能够与之结合的抗体结构。

来自主题: AI资讯
8407 点击    2025-11-09 11:01
用更一致的轨迹、更少的解码步数「驯服」掩码扩散语言模型,扩散语言模型的推理性能和效率大幅提升

用更一致的轨迹、更少的解码步数「驯服」掩码扩散语言模型,扩散语言模型的推理性能和效率大幅提升

用更一致的轨迹、更少的解码步数「驯服」掩码扩散语言模型,扩散语言模型的推理性能和效率大幅提升

扩散大语言模型得到了突飞猛进的发展,早在 25 年 2 月 Inception Labs 推出 Mercury—— 第一个商业级扩散大型语言模型,同期人民大学发布第一个开源 8B 扩散大语言模型 LLaDA,5 月份 Gemini Diffusion 也接踵而至。

来自主题: AI技术研报
9199 点击    2025-11-05 15:17