AI资讯新闻榜单内容搜索-Diffusion

Meta新突破！跨模态生成告别噪声：流匹配实现任意模态无缝流转

在人工智能领域，跨模态生成（如文本到图像、图像到文本）一直是技术发展的前沿方向。现有方法如扩散模型（Diffusion Models）和流匹配（Flow Matching）虽取得了显著进展，但仍面临依赖噪声分布、复杂条件机制等挑战。

来自主题: AI技术研报

7757 点击 2025-06-04 14:18

冲击自回归，扩散模型正在改写下一代通用模型范式

上个月 21 号，Google I/O 2025 开发者大会可说是吸睛无数，各种 AI 模型、技术、工具、服务、应用让人目不暇接。在这其中，Gemini Diffusion 绝对算是最让人兴奋的进步之一。从名字看得出来，这是一个采用了扩散模型的 AI 模型，而这个模型却并非我们通常看到的扩散式视觉生成模型，而是一个地地道道的语言模型！

来自主题: AI技术研报

7737 点击 2025-06-04 14:04

原来Veo 3早有苗头！人大联合值得买科技在CVPR 2025提出全新「图像到有声视频」生成框架

来自中国人民大学高瓴人工智能学院与值得买科技 AI 团队在 CVPR 2025 会议上发表了一项新工作，首次提出了一种从静态图像直接生成同步音视频内容的生成框架。其核心设计 JointDiT（Joint Diffusion Transformer）框架实现了图像 → 动态视频 + 声音的高质量联合生成。

来自主题: AI技术研报

8685 点击 2025-05-29 14:20

速递｜破解3D生成取代CAD？SpAItial获1300万美金种子资金，前Synthesia联创集结Meta谷歌豪华技术团队

从OpenAI 的 4o 到 Stable Diffusion，能够根据文本提示生成逼真图像的 AI 基础模型如今已比比皆是。相比之下，能够仅凭文本提示就生成完整、连贯的 3D 在线环境的基础模型才刚刚崭露头角。

来自主题: AI资讯

6778 点击 2025-05-28 15:13

扩散语言模型九倍推理加速！上海交大：KV Cache并非自回归模型的专属技巧

首个用于加速扩散式大语言模型（diffusion-based Large Language Models, 简称 dLLMs）推理过程的免训练方法。

来自主题: AI技术研报

10094 点击 2025-05-27 16:22

与Gemini Diffusion共振！首个扩散式「发散思维链」来了

近年来，思维链在大模型训练和推理中愈发重要。近日，西湖大学 MAPLE 实验室齐国君教授团队首次提出扩散式「发散思维链」—— 一种面向扩散语言模型的新型大模型推理范式。该方法将反向扩散过程中的每一步中间结果都看作大模型的一个「思考」步骤，然后利用基于结果的强化学习去优化整个生成轨迹，最大化模型最终答案的正确率。

来自主题: AI技术研报

6994 点击 2025-05-27 13:21