过去,很多图像生成模型都能同时画出两个物体;但要让它们真正「长成一个新物体」,其实远没有那么简单。
如果让AI把「玻璃罐」和「猫头鹰」结合起来,很多模型表面上看似做到了,实际上却没有真正融合。
有的结果只是把两个物体放在同一张图里,彼此靠近、重叠,但仍然是两个分离的概念;还有的结果更直接,只保留了其中一个物体,另一个概念几乎消失不见。
这正是跨物体融合生成长期存在的两个核心难题: 一类叫coexistent generation,也就是「共存但不融合」;另一类叫bias generation,也就是「只偏向一边,另一边被吞掉」。
最近,来自南京理工大学和南京大学的研究者提出了VMDiff(Visual Mixing Diffusion)。 这项工作的目标不是让两个概念「出现在同一张图里」,而是让它们真正融合成一个结构连贯、语义平衡、视觉统一的新实体。

论文链接:
https://arxiv.org/abs/2509.23605
项目主页:
https://xzr52.github.io/VMDiff_index/
代码仓库:
https://github.com/xzr52/VMDiff_code

图 1. VMDiff能将两个输入物体融合为结构统一的新实体。

图 2. 现有方法常见的两类失败:共存不融合,或只偏向一边。

VMDiff最核心的思路,不是笼统地说「在noise和embedding上融合」,而是更精确地把整个过程拆成两个目标完全不同的阶段:
这两个阶段分别对应论文中的Hybrid Sampling Process(HSP) 和 Efficient Adaptive Adjustment(EAA)。 而HSP里面最值得讲的,就是两个非常「反直觉但很对」的设计选择:
该保留信息的时候,不做插值,而是拼接; 该形成统一整体的时候,不再拼接,而是插值。

图 3. VMDiff由HSP与EAA两部分组成:前者负责融合生成,后者负责自适应调参。
很多人一看到「融合」就会想到插值。 但 VMDiff 在前面的 Blending Noise(BNoise) 阶段并没有这么做。
它先从高斯噪声出发,再通过引导去噪和反演,把噪声逐步变成一个带有两个输入概念信息的语义噪声。 而在这个阶段,VMDiff 对两个输入特征采用的不是插值,而是拼接(concatenate)。
为什么这里要拼接?
因为这一阶段的目标还不是「生成一个整体」,而是「把两个来源的信息都尽可能保住」。 如果过早插值,两个物体中那些不完全对齐的局部细节,很容易在平均过程中被抹平;相反,拼接能先把双方的重要特征都保留下来,再交给后续的反演过程去提炼。
换句话说,VMDiff在这一步解决的是:如何在真正开始生成之前,先把两个概念的信息注入噪声。

图 4. 在 BNoise 阶段,拼接比插值更有利于保留输入细节。
前面那一步解决的是「两个概念都在」。 但只做到这一步还不够,因为「都在」不等于「融合好了」。
如果在最终生成阶段还继续拼接,那么模型虽然拥有两边的信息,但它们还是彼此分离的,最后很容易长成「两个物体挤在一起」的结果。 所以在Mixing Denoise(MDeNoise) 阶段,VMDiff做了第二个关键转换:
它不再拼接,而是用球面插值(spherical interpolation) 去混合两组视觉表征,让它们沿着一个更自然的潜空间路径逐步过渡,最终形成单一、连贯、和谐的新实体。
这一点特别重要。 它说明 VMDiff 不是简单地「全程统一融合策略」,而是针对不同阶段的目标,选择了不同的操作:
这正是VMDiff和很多「直接混一混」方法最本质的区别。

图 5. 在最终生成阶段,插值比拼接更容易形成统一整体。
即便有了前面的两步,模型仍然可能偏向其中一个输入。 比如「口红 + 钢铁侠手办」,最后也许更容易只剩口红,或者只剩钢铁侠风格,而无法做到真正平衡。
所以VMDiff 又设计了一个 Similarity Score(SS),专门衡量生成结果是否同时:
1. 既像输入图像 1,也像输入图像 2;
2. 既符合类别语义 1,也符合类别语义 2;
3. 而且两边不能差太多。

这个式子可以拆成四部分来看:

表示visual similarity,要求生成结果在视觉上都接近两个输入图像;

semantic similarity,要求生成结果在语义上都符合两个类别标签;

visual balance,惩罚视觉上只偏向其中一边;

semantic balance,惩罚语义上只保留一个概念。
换句话说,VMDiff优化的不是「像某一个输入」,而是:既保留两个来源的视觉与语义,又显式压制不平衡。
有了这个目标之后,后面的 Efficient Adaptive Adjustment (EAA) 就有了明确的优化方向: 先搜索控制融合比例的 ,再根据结果进一步调整 ,必要时重采样噪声 ,从而自动找到一个既自然、又平衡的融合点。
EAA自动搜索「最平衡的融合点」
有了这个相似度与平衡联合目标之后,VMDiff 用 Efficient Adaptive Adjustment(EAA) 去自动搜索参数。
它会分层地调整:控制融合比例的α、控制噪声侧影响的β1、β2,以及随机噪声ϵ
做法并不是昂贵的梯度反向传播,而是更轻量的层次化搜索,比如 golden section search,再结合少量重采样。 这使得 VMDiff 不需要一个特别重的优化过程,也能比较高效地找到「最像两边、又最平衡」的解。

图 6. EAA 通过分层搜索逐步提升相似度并减小失衡。
为了系统评估这件事,作者构建了IIOF(Image-Image Object Fusion) 数据集,包含 780 个图像对,覆盖动物、水果、人造物体和角色手办等类别。 实验表明,VMDiff 不只是主观上更有创意,在客观指标也都表现突出。
在多概念生成对比中,很多基线方法仍然容易出现「只是叠在一起」或者「偏向其中一边」的问题;而 VMDiff 生成的结果往往更像是一个真正统一的混合实体。 从表 1 可以看到,VMDiff 并不是只在单一指标上占优,而是在语义一致性、单实体连贯性、相似度和平衡性等多个维度上都表现突出。

表 1. IIOF 数据集上的定量对比结果

图 7. 与多概念生成方法相比,VMDiff 更能生成统一而平衡的融合体。

图 8. 与混合和编辑方法相比,VMDiff 的结果更完整、更自然。
VMDiff 真正有意思的地方,不只是做出了几张好看的图,而是它给「跨物体视觉融合」这件事提供了一种很清晰的方法论:
这三件事以前常常被混在一起处理,而 VMDiff 把它们拆开了,并为每一步都设计了对应的机制。 这也是为什么它生成出来的结果,不是简单拼贴,也不是只偏向一边,而更像一个真的被「设计出来」的新物体。
总结
很多方法能把两个物体同时画出来, 但 VMDiff 的目标不是「同时出现」,而是「真正长成一个新物体」。对角色设计、潮玩设计、电影动画和工业外观探索来说,这种「真正生成一个新物体」的能力,比简单拼贴更接近实际创作需求。 它最核心的洞察在于:
这让跨物体融合不再只是「把A和B放一起」, 而是真正走向「从A和B里,创造出一个新的C」。
参考资料:
https://arxiv.org/abs/2509.23605
文章来自于微信公众号 "新智元",作者 "新智元"