AI资讯新闻榜单内容搜索-Diffusion

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: Diffusion
速递|破解3D生成取代CAD?SpAItial获1300万美金种子资金,前Synthesia联创集结Meta谷歌豪华技术团队

速递|破解3D生成取代CAD?SpAItial获1300万美金种子资金,前Synthesia联创集结Meta谷歌豪华技术团队

速递|破解3D生成取代CAD?SpAItial获1300万美金种子资金,前Synthesia联创集结Meta谷歌豪华技术团队

从OpenAI 的 4o 到 Stable Diffusion,能够根据文本提示生成逼真图像的 AI 基础模型如今已比比皆是。相比之下,能够仅凭文本提示就生成完整、连贯的 3D 在线环境的基础模型才刚刚崭露头角。

来自主题: AI资讯
5875 点击    2025-05-28 15:13
与Gemini Diffusion共振!首个扩散式「发散思维链」来了

与Gemini Diffusion共振!首个扩散式「发散思维链」来了

与Gemini Diffusion共振!首个扩散式「发散思维链」来了

近年来,思维链在大模型训练和推理中愈发重要。近日,西湖大学 MAPLE 实验室齐国君教授团队首次提出扩散式「发散思维链」—— 一种面向扩散语言模型的新型大模型推理范式。该方法将反向扩散过程中的每一步中间结果都看作大模型的一个「思考」步骤,然后利用基于结果的强化学习去优化整个生成轨迹,最大化模型最终答案的正确率。

来自主题: AI技术研报
5912 点击    2025-05-27 13:21
19岁少年「破解」谷歌新AI?每秒1479 token,扩散再战GPT!

19岁少年「破解」谷歌新AI?每秒1479 token,扩散再战GPT!

19岁少年「破解」谷歌新AI?每秒1479 token,扩散再战GPT!

年仅19岁少年,自称破解了谷歌最快的语言模型Gemini Diffusion,引爆社交平台。真相扑朔迷离,但有一点毫无疑问:谷歌I/O大会的「黑马」,比GPT快10倍的速度、媲美人类程序员的代码能力,正在掀起一场NLP范式大洗牌。

来自主题: AI资讯
7695 点击    2025-05-24 19:28
比Gemini Diffusion更全能!首个多模态扩散大语言模型MMaDA发布,同时实现强推理与高可控性

比Gemini Diffusion更全能!首个多模态扩散大语言模型MMaDA发布,同时实现强推理与高可控性

比Gemini Diffusion更全能!首个多模态扩散大语言模型MMaDA发布,同时实现强推理与高可控性

普林斯顿大学与字节 Seed、北大、清华等研究团队合作提出了 MMaDA(Multimodal Large Diffusion Language Models),作为首个系统性探索扩散架构的多模态基础模型,MMaDA 通过三项核心技术突破,成功实现了文本推理、多模态理解与图像生成的统一建模。

来自主题: AI技术研报
7917 点击    2025-05-22 17:30
首次!流匹配模型引入GRPO,GenEval几近满分,组合生图能力远超GPT-4o

首次!流匹配模型引入GRPO,GenEval几近满分,组合生图能力远超GPT-4o

首次!流匹配模型引入GRPO,GenEval几近满分,组合生图能力远超GPT-4o

流匹配模型因其坚实的理论基础和在生成高质量图像方面的优异性能,已成为图像生成(Stable Diffusion, Flux)和视频生成(可灵,WanX,Hunyuan)领域最先进模型的训练方法。然而,这些最先进的模型在处理包含多个物体、属性与关系的复杂场景,以及文本渲染任务时仍存在较大困难。

来自主题: AI技术研报
8974 点击    2025-05-14 10:19
CVPR2025|MCA-Ctrl:多方协同注意力控制助力AIGC时代图像精准定制化

CVPR2025|MCA-Ctrl:多方协同注意力控制助力AIGC时代图像精准定制化

CVPR2025|MCA-Ctrl:多方协同注意力控制助力AIGC时代图像精准定制化

近年来,生成式人工智能(Generative AI)技术的突破性进展,特别是文本到图像 T2I 生成模型的快速发展,已经使 AI 系统能够根据用户输入的文本提示(prompt)生成高度逼真的图像。从早期的 DALL・E 到 Stable Diffusion、Midjourney 等模型,这一领域的技术迭代呈现出加速发展的态势。

来自主题: AI技术研报
9256 点击    2025-05-12 14:59
ICLR 2025 | 无需训练加速20倍,清华朱军组提出用于图像翻译的扩散桥模型推理算法DBIM

ICLR 2025 | 无需训练加速20倍,清华朱军组提出用于图像翻译的扩散桥模型推理算法DBIM

ICLR 2025 | 无需训练加速20倍,清华朱军组提出用于图像翻译的扩散桥模型推理算法DBIM

扩散模型(Diffusion Models)近年来在生成任务上取得了突破性的进展,不仅在图像生成、视频合成、语音合成等领域都实现了卓越表现,推动了文本到图像、视频生成的技术革新。然而,标准扩散模型的设计通常只适用于从随机噪声生成数据的任务,对于图像翻译或图像修复这类明确给定输入和输出之间映射关系的任务并不适合。

来自主题: AI技术研报
7032 点击    2025-05-08 14:23
CVPR 2025 | 如何稳定且高效地生成个性化的多人图像?ID-Patch带来新解法

CVPR 2025 | 如何稳定且高效地生成个性化的多人图像?ID-Patch带来新解法

CVPR 2025 | 如何稳定且高效地生成个性化的多人图像?ID-Patch带来新解法

扩散模型(Diffusion Models, DMs)如今已成为文本生成图像的核心引擎。凭借惊艳的图像生成能力,它们正悄然改变着艺术创作、广告设计、乃至社交媒体内容的生产方式。

来自主题: AI技术研报
6357 点击    2025-05-03 14:52