跨物体融合新突破！从拼贴到创造：AI学会「生」出新物体

8537点击 2026-04-04 10:58

过去，很多图像生成模型都能同时画出两个物体；但要让它们真正「长成一个新物体」，其实远没有那么简单。

如果让AI把「玻璃罐」和「猫头鹰」结合起来，很多模型表面上看似做到了，实际上却没有真正融合。

有的结果只是把两个物体放在同一张图里，彼此靠近、重叠，但仍然是两个分离的概念；还有的结果更直接，只保留了其中一个物体，另一个概念几乎消失不见。

这正是跨物体融合生成长期存在的两个核心难题：一类叫coexistent generation，也就是「共存但不融合」；另一类叫bias generation，也就是「只偏向一边，另一边被吞掉」。

最近，来自南京理工大学和南京大学的研究者提出了VMDiff（Visual Mixing Diffusion）。这项工作的目标不是让两个概念「出现在同一张图里」，而是让它们真正融合成一个结构连贯、语义平衡、视觉统一的新实体。

跨物体融合新突破！从拼贴到创造：AI学会「生」出新物体

论文链接：

https://arxiv.org/abs/2509.23605

项目主页：

https://xzr52.github.io/VMDiff_index/

代码仓库：

https://github.com/xzr52/VMDiff_code

跨物体融合新突破！从拼贴到创造：AI学会「生」出新物体

图 1. VMDiff能将两个输入物体融合为结构统一的新实体。

跨物体融合新突破！从拼贴到创造：AI学会「生」出新物体

图 2. 现有方法常见的两类失败：共存不融合，或只偏向一边。

跨物体融合新突破！从拼贴到创造：AI学会「生」出新物体

VMDiff最核心的思路，不是笼统地说「在noise和embedding上融合」，而是更精确地把整个过程拆成两个目标完全不同的阶段：

在前一阶段，目标是尽可能完整保留两个输入的信息；
在后一阶段，目标是把这些信息真正长成一个统一的新物体。

这两个阶段分别对应论文中的Hybrid Sampling Process（HSP） 和 Efficient Adaptive Adjustment（EAA）。而HSP里面最值得讲的，就是两个非常「反直觉但很对」的设计选择：

该保留信息的时候，不做插值，而是拼接；该形成统一整体的时候，不再拼接，而是插值。

跨物体融合新突破！从拼贴到创造：AI学会「生」出新物体

图 3. VMDiff由HSP与EAA两部分组成：前者负责融合生成，后者负责自适应调参。

第一步：先别急着「混」，先保证两个输入都真的在场

很多人一看到「融合」就会想到插值。但 VMDiff 在前面的 Blending Noise（BNoise） 阶段并没有这么做。

它先从高斯噪声出发，再通过引导去噪和反演，把噪声逐步变成一个带有两个输入概念信息的语义噪声。而在这个阶段，VMDiff 对两个输入特征采用的不是插值，而是拼接（concatenate）。

为什么这里要拼接？

因为这一阶段的目标还不是「生成一个整体」，而是「把两个来源的信息都尽可能保住」。如果过早插值，两个物体中那些不完全对齐的局部细节，很容易在平均过程中被抹平；相反，拼接能先把双方的重要特征都保留下来，再交给后续的反演过程去提炼。

换句话说，VMDiff在这一步解决的是：如何在真正开始生成之前，先把两个概念的信息注入噪声。

跨物体融合新突破！从拼贴到创造：AI学会「生」出新物体

图 4. 在 BNoise 阶段，拼接比插值更有利于保留输入细节。

第二步：真正生成时，目标变了——这时必须让它长成一个整体

前面那一步解决的是「两个概念都在」。但只做到这一步还不够，因为「都在」不等于「融合好了」。

如果在最终生成阶段还继续拼接，那么模型虽然拥有两边的信息，但它们还是彼此分离的，最后很容易长成「两个物体挤在一起」的结果。所以在Mixing Denoise（MDeNoise） 阶段，VMDiff做了第二个关键转换：

它不再拼接，而是用球面插值（spherical interpolation） 去混合两组视觉表征，让它们沿着一个更自然的潜空间路径逐步过渡，最终形成单一、连贯、和谐的新实体。

这一点特别重要。它说明 VMDiff 不是简单地「全程统一融合策略」，而是针对不同阶段的目标，选择了不同的操作：

在BNoise阶段，怕丢信息，所以选拼接；
在MDeNoise阶段，怕长不成整体，所以选插值。

这正是VMDiff和很多「直接混一混」方法最本质的区别。

跨物体融合新突破！从拼贴到创造：AI学会「生」出新物体

图 5. 在最终生成阶段，插值比拼接更容易形成统一整体。

但「成整体」还不够，VMDiff 还要解决另一个麻烦：别偏科

即便有了前面的两步，模型仍然可能偏向其中一个输入。比如「口红 + 钢铁侠手办」，最后也许更容易只剩口红，或者只剩钢铁侠风格，而无法做到真正平衡。

所以VMDiff 又设计了一个 Similarity Score（SS），专门衡量生成结果是否同时：

1. 既像输入图像 1，也像输入图像 2；

2. 既符合类别语义 1，也符合类别语义 2；

3. 而且两边不能差太多。

跨物体融合新突破！从拼贴到创造：AI学会「生」出新物体

这个式子可以拆成四部分来看：

跨物体融合新突破！从拼贴到创造：AI学会「生」出新物体

表示visual similarity，要求生成结果在视觉上都接近两个输入图像；

跨物体融合新突破！从拼贴到创造：AI学会「生」出新物体

semantic similarity，要求生成结果在语义上都符合两个类别标签；

跨物体融合新突破！从拼贴到创造：AI学会「生」出新物体

visual balance，惩罚视觉上只偏向其中一边；

跨物体融合新突破！从拼贴到创造：AI学会「生」出新物体

semantic balance，惩罚语义上只保留一个概念。

换句话说，VMDiff优化的不是「像某一个输入」，而是：既保留两个来源的视觉与语义，又显式压制不平衡。

有了这个目标之后，后面的 Efficient Adaptive Adjustment (EAA) 就有了明确的优化方向：先搜索控制融合比例的，再根据结果进一步调整，必要时重采样噪声，从而自动找到一个既自然、又平衡的融合点。

EAA自动搜索「最平衡的融合点」

有了这个相似度与平衡联合目标之后，VMDiff 用 Efficient Adaptive Adjustment（EAA） 去自动搜索参数。

它会分层地调整：控制融合比例的α、控制噪声侧影响的β1、β2，以及随机噪声ϵ

做法并不是昂贵的梯度反向传播，而是更轻量的层次化搜索，比如 golden section search，再结合少量重采样。这使得 VMDiff 不需要一个特别重的优化过程，也能比较高效地找到「最像两边、又最平衡」的解。

跨物体融合新突破！从拼贴到创造：AI学会「生」出新物体

图 6. EAA 通过分层搜索逐步提升相似度并减小失衡。

结果上，VMDiff 做到的不是「更花哨」，而是「更像一个新物体」

为了系统评估这件事，作者构建了IIOF（Image-Image Object Fusion） 数据集，包含 780 个图像对，覆盖动物、水果、人造物体和角色手办等类别。实验表明，VMDiff 不只是主观上更有创意，在客观指标也都表现突出。

在多概念生成对比中，很多基线方法仍然容易出现「只是叠在一起」或者「偏向其中一边」的问题；而 VMDiff 生成的结果往往更像是一个真正统一的混合实体。从表 1 可以看到，VMDiff 并不是只在单一指标上占优，而是在语义一致性、单实体连贯性、相似度和平衡性等多个维度上都表现突出。

跨物体融合新突破！从拼贴到创造：AI学会「生」出新物体

表 1. IIOF 数据集上的定量对比结果

跨物体融合新突破！从拼贴到创造：AI学会「生」出新物体

图 7. 与多概念生成方法相比，VMDiff 更能生成统一而平衡的融合体。

跨物体融合新突破！从拼贴到创造：AI学会「生」出新物体

图 8. 与混合和编辑方法相比，VMDiff 的结果更完整、更自然。

这篇工作的价值，不只是生成几个新奇例子

VMDiff 真正有意思的地方，不只是做出了几张好看的图，而是它给「跨物体视觉融合」这件事提供了一种很清晰的方法论：

先解决「信息别丢」；
再解决「整体要成」；
最后再解决「双方要平衡」。

这三件事以前常常被混在一起处理，而 VMDiff 把它们拆开了，并为每一步都设计了对应的机制。这也是为什么它生成出来的结果，不是简单拼贴，也不是只偏向一边，而更像一个真的被「设计出来」的新物体。

总结

很多方法能把两个物体同时画出来，但 VMDiff 的目标不是「同时出现」，而是「真正长成一个新物体」。对角色设计、潮玩设计、电影动画和工业外观探索来说，这种「真正生成一个新物体」的能力，比简单拼贴更接近实际创作需求。它最核心的洞察在于：

在噪声构造阶段，用拼接保住两边信息；
在最终生成阶段，用插值把两边长成一个整体；
再用联合考虑相似度与平衡的目标函数，自动找到最佳融合点。

这让跨物体融合不再只是「把A和B放一起」，而是真正走向「从A和B里，创造出一个新的C」。

参考资料：

https://arxiv.org/abs/2509.23605

文章来自于微信公众号 "新智元"，作者 "新智元"

关键词: VMDiff , 模型训练 , 人工智能 , AI