AI资讯新闻榜单内容搜索-Diffusion

Mythos阴影里谷歌悄悄发模型DiffusionGemma，速度暴涨4倍

就在刚刚，谷歌闷头干了件大事：把生成图片的扩散模型，拿来写文字了，而且一出手就是4倍加速。新模型名为DiffusionGemma，它直接抛弃了传统自回归那套“逐Token生成”的打字机模式，而是像“印刷机”一样工作——

来自主题: AI资讯

7993 点击 2026-06-11 15:27

谷歌开源26B文本扩散MoE，劈柴：生成速度像赛马一样快

今天一早，谷歌又发新模型了！

来自主题: AI资讯

9686 点击 2026-06-11 14:29

扩散模型里的噪声，原来还有这样的作用：DRDD重新定义统一图像翻译

在图像到图像翻译（Image-to-Image Translation, I2I）这个任务上，扩散模型过去几年几乎形成了一套默认逻辑：先把输入图像和噪声混合，再一步步去噪，把目标图像 “还原” 出来。

来自主题: AI技术研报

9408 点击 2026-06-10 15:15

ICML 2026｜文生图模型也会「忘词」？复旦创智等提出Prompt Reinjection，无需训练提升文生图指令遵循能力

近年来，文生图模型的能力快速提升。从 Stable Diffusion 到 FLUX、Qwen-Image，扩散模型已经能够生成高质量图像，也能处理越来越复杂的文本提示。

来自主题: AI技术研报

9157 点击 2026-06-09 10:02

英伟达重新定义文生图最后一步：潜在表征直达4K，高精细节一步生成！

2K 图像 210ms 解码，4K 细节直接生成，传统「解码 + 超分」流水线可能要被重写了。

来自主题: AI技术研报

8450 点击 2026-06-08 14:50

DiffusionOPD：复旦联合通义万相提出扩散模型「在线策略蒸馏」新范式，让学⽣模型同时学会构图、⽂字与美学

近期，来自复旦大学与阿里巴巴通义万相的研究团队对此提出了新的思考。他们认为，多任务强化学习不应被视为一个统一优化问题，而应该解耦为两个彼此独立的过程：单任务的在线策略探索 & 多任务能力整合。

来自主题: AI技术研报

8198 点击 2026-05-30 10:49

Hallo-Live 让文本驱动音视频数字人迈入实时流式生成

最近，来自上海创智学院、复旦大学等机构的研究者提出了 Hallo-Live，试图正面解决这个矛盾。论文于 2026 年 4 月 26 日发布在 arXiv。该方法将异步双流扩散（Asynchronous Dual-Stream Diffusion）与人类偏好引导蒸馏（Human-Centric Preference-Guided DMD）结合起来

来自主题: AI技术研报

7894 点击 2026-05-24 10:20

扩散模型也有「Skills」了！魔搭开源11个现成模板，风格、修图、超清一键搞定

近期，专为Diffusion模型设计的插件框架——Diffusion Templates正式开源发布。这个框架能大幅降低可控生成技术的训练和使用难度，让开发者能够通过丰富的Templates来精准控制模型的生成结果。

来自主题: AI技术研报

7752 点击 2026-05-17 11:14

Siggraph 26 | 视频版Vision-Banana来了？大一统框架UniVidX刷新多项视频任务SOTA

近日，由香港科技大学 MMLab 及合作团队完成的研究工作「UniVidX: A Unified Multimodal Framework for Versatile Video Generation via Diffusion Priors」被计算机图形学顶级会议 SIGGRAPH 2026 正式接收。

来自主题: AI技术研报

9885 点击 2026-05-12 08:53

盛大AI研究院新作：流式生成超越非流式，一句话让虚拟人动作丝滑如真，推理延迟仅1帧

文本驱动的人体动作生成是游戏NPC、虚拟主播、机器人控制等实时交互系统的核心技术。

来自主题: AI技术研报

6602 点击 2026-04-14 14:58