AI资讯新闻榜单内容搜索-Diffusion

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: Diffusion
比Gemini Diffusion更全能!首个多模态扩散大语言模型MMaDA发布,同时实现强推理与高可控性

比Gemini Diffusion更全能!首个多模态扩散大语言模型MMaDA发布,同时实现强推理与高可控性

比Gemini Diffusion更全能!首个多模态扩散大语言模型MMaDA发布,同时实现强推理与高可控性

普林斯顿大学与字节 Seed、北大、清华等研究团队合作提出了 MMaDA(Multimodal Large Diffusion Language Models),作为首个系统性探索扩散架构的多模态基础模型,MMaDA 通过三项核心技术突破,成功实现了文本推理、多模态理解与图像生成的统一建模。

来自主题: AI技术研报
7994 点击    2025-05-22 17:30
首次!流匹配模型引入GRPO,GenEval几近满分,组合生图能力远超GPT-4o

首次!流匹配模型引入GRPO,GenEval几近满分,组合生图能力远超GPT-4o

首次!流匹配模型引入GRPO,GenEval几近满分,组合生图能力远超GPT-4o

流匹配模型因其坚实的理论基础和在生成高质量图像方面的优异性能,已成为图像生成(Stable Diffusion, Flux)和视频生成(可灵,WanX,Hunyuan)领域最先进模型的训练方法。然而,这些最先进的模型在处理包含多个物体、属性与关系的复杂场景,以及文本渲染任务时仍存在较大困难。

来自主题: AI技术研报
9054 点击    2025-05-14 10:19
CVPR2025|MCA-Ctrl:多方协同注意力控制助力AIGC时代图像精准定制化

CVPR2025|MCA-Ctrl:多方协同注意力控制助力AIGC时代图像精准定制化

CVPR2025|MCA-Ctrl:多方协同注意力控制助力AIGC时代图像精准定制化

近年来,生成式人工智能(Generative AI)技术的突破性进展,特别是文本到图像 T2I 生成模型的快速发展,已经使 AI 系统能够根据用户输入的文本提示(prompt)生成高度逼真的图像。从早期的 DALL・E 到 Stable Diffusion、Midjourney 等模型,这一领域的技术迭代呈现出加速发展的态势。

来自主题: AI技术研报
9352 点击    2025-05-12 14:59
ICLR 2025 | 无需训练加速20倍,清华朱军组提出用于图像翻译的扩散桥模型推理算法DBIM

ICLR 2025 | 无需训练加速20倍,清华朱军组提出用于图像翻译的扩散桥模型推理算法DBIM

ICLR 2025 | 无需训练加速20倍,清华朱军组提出用于图像翻译的扩散桥模型推理算法DBIM

扩散模型(Diffusion Models)近年来在生成任务上取得了突破性的进展,不仅在图像生成、视频合成、语音合成等领域都实现了卓越表现,推动了文本到图像、视频生成的技术革新。然而,标准扩散模型的设计通常只适用于从随机噪声生成数据的任务,对于图像翻译或图像修复这类明确给定输入和输出之间映射关系的任务并不适合。

来自主题: AI技术研报
7119 点击    2025-05-08 14:23
CVPR 2025 | 如何稳定且高效地生成个性化的多人图像?ID-Patch带来新解法

CVPR 2025 | 如何稳定且高效地生成个性化的多人图像?ID-Patch带来新解法

CVPR 2025 | 如何稳定且高效地生成个性化的多人图像?ID-Patch带来新解法

扩散模型(Diffusion Models, DMs)如今已成为文本生成图像的核心引擎。凭借惊艳的图像生成能力,它们正悄然改变着艺术创作、广告设计、乃至社交媒体内容的生产方式。

来自主题: AI技术研报
6424 点击    2025-05-03 14:52
Stable Diffusion变身3D神器!一个LoRA将2D图像转3D模型

Stable Diffusion变身3D神器!一个LoRA将2D图像转3D模型

Stable Diffusion变身3D神器!一个LoRA将2D图像转3D模型

在Stable Diffusion当中,只需加入一个LoRA就能根据图像创建3D模型了?

来自主题: AI技术研报
5980 点击    2025-03-26 14:56
爆火Block Diffusion引发LLM架构变革?自回归+扩散模型完美结合 | ICLR 2025

爆火Block Diffusion引发LLM架构变革?自回归+扩散模型完美结合 | ICLR 2025

爆火Block Diffusion引发LLM架构变革?自回归+扩散模型完美结合 | ICLR 2025

块离散去噪扩散语言模型(BD3-LMs)结合自回归模型和扩散模型的优势,解决了现有扩散模型生成长度受限、推理效率低和生成质量低的问题。通过块状扩散实现任意长度生成,利用键值缓存提升效率,并通过优化噪声调度降低训练方差,达到扩散模型中最高的预测准确性,同时生成效率和质量优于其他扩散模型。

来自主题: AI技术研报
9254 点击    2025-03-25 10:09
无需百卡集群!港科等开源LightGen: 极低成本文生图方案媲美SOTA模型

无需百卡集群!港科等开源LightGen: 极低成本文生图方案媲美SOTA模型

无需百卡集群!港科等开源LightGen: 极低成本文生图方案媲美SOTA模型

文本到图像(Text-to-Image, T2I)生成任务近年来取得了飞速进展,其中以扩散模型(如 Stable Diffusion、DiT 等)和自回归(AR)模型为代表的方法取得了显著成果。然而,这些主流的生成模型通常依赖于超大规模的数据集和巨大的参数量,导致计算成本高昂、落地困难,难以高效地应用于实际生产环境。

来自主题: AI技术研报
6067 点击    2025-03-20 09:18
10秒生成4分钟音乐,8GB显存就能跑!已登Hugging Face趋势榜一

10秒生成4分钟音乐,8GB显存就能跑!已登Hugging Face趋势榜一

10秒生成4分钟音乐,8GB显存就能跑!已登Hugging Face趋势榜一

DiffRhythm是一款新型AI音乐生成模型,能在10秒内生成长达4分45秒的完整歌曲,包含人声和伴奏。它采用简单高效的全diffusion架构,仅需歌词和风格提示即可创作,还支持本地部署,最低只需8G显存。

来自主题: AI技术研报
3934 点击    2025-03-12 15:59