AI资讯新闻榜单内容搜索-扩散模型

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: 扩散模型
多模态推理新范式!DiffThinker:用扩散模型「画」出推理和答案

多模态推理新范式!DiffThinker:用扩散模型「画」出推理和答案

多模态推理新范式!DiffThinker:用扩散模型「画」出推理和答案

在多模态大模型(MLLMs)领域,思维链(CoT)一直被视为提升推理能力的核心技术。然而,面对复杂的长程、视觉中心任务,这种基于文本生成的推理方式正面临瓶颈:文本难以精确追踪视觉信息的变化。形象地说,模型不知道自己想到哪一步了,对应图像是什么状态。

来自主题: AI技术研报
7040 点击    2026-01-08 15:20
清华朱军团队Nature Machine Intelligence:多模态扩散模型实现心血管信号实时全面监测

清华朱军团队Nature Machine Intelligence:多模态扩散模型实现心血管信号实时全面监测

清华朱军团队Nature Machine Intelligence:多模态扩散模型实现心血管信号实时全面监测

近日,清华朱军等团队提出了一种统一的多模态生成框架 UniCardio,在单扩散模型中同时实现了心血管信号的去噪、插补与跨模态生成,为真实场景下的人工智能辅助医疗提供了一种新的解决思路。

来自主题: AI技术研报
9151 点击    2025-12-30 15:14
让AI像人类画家一样边画边想,港中文&美团让模型「走一步看一步」

让AI像人类画家一样边画边想,港中文&美团让模型「走一步看一步」

让AI像人类画家一样边画边想,港中文&美团让模型「走一步看一步」

在文生图(Text-to-Image)和视频生成领域,以FLUX.1、Emu3为代表的扩散模型与自回归模型已经能生成极其逼真的画面。

来自主题: AI技术研报
10857 点击    2025-12-22 16:05
不靠死记布局也能按图生成,多实例生成的布局控制终于“可控且不串脸”了丨浙大团队

不靠死记布局也能按图生成,多实例生成的布局控制终于“可控且不串脸”了丨浙大团队

不靠死记布局也能按图生成,多实例生成的布局控制终于“可控且不串脸”了丨浙大团队

尽管扩散模型在单图像生成上已经日渐成熟,但当任务升级为高度定制化的多实例图像生成(Multi-Instance Image Generation, MIG)时,挑战随之显现:

来自主题: AI技术研报
10276 点击    2025-12-22 09:33
让扩散模型「可解释」不再降质,开启图片编辑新思路

让扩散模型「可解释」不再降质,开启图片编辑新思路

让扩散模型「可解释」不再降质,开启图片编辑新思路

过去三年,扩散模型席卷图像生成领域。以 DiT (Diffusion Transformer) 为代表的新一代架构不断刷新图像质量的极限,让模型愈发接近真实世界的视觉规律。

来自主题: AI技术研报
7882 点击    2025-12-16 16:27
里程碑时刻!首个100B扩散语言模型来了,技术报告揭秘背后细节

里程碑时刻!首个100B扩散语言模型来了,技术报告揭秘背后细节

里程碑时刻!首个100B扩散语言模型来了,技术报告揭秘背后细节

前段时间,我们在 HuggingFace 页面发现了两个新模型:LLaDA2.0-mini 和 LLaDA2.0-flash。它们来自蚂蚁集团与人大、浙大、西湖大学组成的联合团队,都采用了 MoE 架构。前者总参数量为 16B,后者总参数量则高达 100B—— 在「扩散语言模型」这个领域,这是从未见过的规模。

来自主题: AI资讯
10008 点击    2025-12-12 16:08
NUS LV Lab新作|FeRA:基于「频域能量」动态路由,打破扩散模型微调的静态瓶颈

NUS LV Lab新作|FeRA:基于「频域能量」动态路由,打破扩散模型微调的静态瓶颈

NUS LV Lab新作|FeRA:基于「频域能量」动态路由,打破扩散模型微调的静态瓶颈

新加坡国立大学 LV Lab(颜水成团队) 联合电子科技大学、浙江大学等机构提出 FeRA (Frequency-Energy Constrained Routing) 框架:首次从频域能量的第一性原理出发,揭示了扩散去噪过程具有显著的「低频到高频」演变规律,并据此设计了动态路由机制。

来自主题: AI技术研报
7358 点击    2025-12-12 15:34
NeurIPS 2025 Spotlight | 中国联通以全局优化重塑扩散模型加速

NeurIPS 2025 Spotlight | 中国联通以全局优化重塑扩散模型加速

NeurIPS 2025 Spotlight | 中国联通以全局优化重塑扩散模型加速

当前,视频生成模型性能正在快速提升,尤其是基于Transformer架构的DiT模型,在视频生成领域的表现已经逐渐接近真实拍摄效果。然而,这些扩散模型也面临一个共同的瓶颈:推理时间长、算力成本高、生成速度难以提升。随着视频生成长度持续增加、分辨率不断提高,这个瓶颈正在成为影响视频创作体验的主要障碍之一。

来自主题: AI技术研报
8260 点击    2025-11-26 13:46
NeurIPS 2025 | UniLumos: 引入物理反馈的统一图像视频重打光框架,实现20倍加速的真实光影重塑!

NeurIPS 2025 | UniLumos: 引入物理反馈的统一图像视频重打光框架,实现20倍加速的真实光影重塑!

NeurIPS 2025 | UniLumos: 引入物理反馈的统一图像视频重打光框架,实现20倍加速的真实光影重塑!

图像与视频重光照(Relighting)技术在计算机视觉与图形学中备受关注,尤其在电影、游戏及增强现实等领域应用广泛。当前,基于扩散模型的方法能够生成多样且可控的光照效果,但其优化过程通常依赖于语义空间,而语义上的相似性无法保证视觉空间中的物理合理性,导致生成结果常出现高光过曝、阴影错位、遮挡关系错误等不合理现象。

来自主题: AI技术研报
6580 点击    2025-11-25 10:03