架构解耦是统一多模态模型所必须的吗？全新AIA损失：No

8629点击 2025-12-02 15:17

近一年以来，统一理解与生成模型发展十分迅速，该任务的主要挑战在于视觉理解和生成任务本身在网络层间会产生冲突。早期的完全统一模型（如 Emu3）与单任务的方法差距巨大，Janus-Pro、BAGEL 通过一步一步解耦模型架构，极大地减小了与单任务模型的性能差距，后续方法甚至通过直接拼接现有理解和生成模型以达到极致的性能。

香港中文大学 MMLab 和美团的研究者相信，在不久的将来统一模型的性能一定能够达到单任务的水平，但同时也引起了他们的思考，目前通过拆解架构换取性能提升的方式真的是正确的吗，它是否背离统一模型的初衷，它能够提升性能的内在原因又是什么，这种方式真的是统一模型必须的吗？

「统一模型的初衷」以及「架构解耦的缺点」

统一理解生成模型的初衷是为了通过透明化、合理化的图文交错思考过程，提高单任务的性能，例如让模型走迷宫时统一模型可以生成每一步对应的图像，可以在模型做数学题的时候给图像画上辅助线，或者是在生成一张图像的时候边画边思考有没有生成不合理的地方并且自动修正，这些都是 Uni-MMMU 等当前统一模型基准所关注，也是它本身被独立成一个领域的初衷。

再回到架构解耦的模型，例如 BAGEL 上，它本身如果要实现图文交错思考，需要经历隐空间解码到文字或者像素空间，然后再编码到隐空间的复杂过程，两个任务也几乎不在同一个模型空间中，具有计算开销大、信息丢失两大问题。虽然在当前情况下相比于其可观的性能，这个问题似乎并不显著，但是研究者认为随着研究的进行，这会是一个很大的问题。

AIA: 模型架构解耦不是统一模型必须的

为了探究清楚「架构解耦带来性能提升的内在原因」以及「探索不使用架构解耦的前提下提升模型性能的方式」，香港中文大学 MMLab 和美团联合推出了 AIA。

架构解耦是统一多模态模型所必须的吗？全新AIA损失：No

论文标题：Architecture Decoupling Is Not All You Need For Unified Multimodal Model
论文链接：https://arxiv.org/abs/2511.22663
代码：https://github.com/zhengdian1/AIA
网页：https://github.com/zhengdian1/AIA-project

研究者首先通过研究不同架构的统一模型在每一层网络中跨模态交互的强度，他们惊讶地发现不管如何进行模型架构解耦，理解和生成任务在同一层网络中始终呈现负相关的关系，同时进一步验证了这个现象与输入的模态、长度和类别都没有关系，这说明是模型自发在学习如何合理地分配两个任务在每一层中的占比，从而「缓解冲突」，这又说明架构解耦本质上并没有解决任务之间冲突的问题。

研究者进一步在最后一列可视化了现在单任务 SOTA 的模型的多模态交互模式（HunyuanImage-3.0 虽然是统一模型，但更侧重于生成效果），结果发现随着模型解耦程度的增强，其对应的跨模态交互模式会趋向于单任务的表现，这也是能够实现性能提升的主要原因。

架构解耦是统一多模态模型所必须的吗？全新AIA损失：No

基于这个发现，研究者设计了 Attention Interaction Alignment (AIA) 损失，通过将单任务模型的跨模态交互模式作为学习目标，在训练的过程中显式地约束统一模型的交互模式。

AIA 效果如何？

研究者在 Emu3 和 Janus-Pro 这两种完全统一架构、轻微模型解耦架构上进行了实验，如下表所示，结果表明本文的方法能够在没有任何其他 trick 的情况下提升这些模型的性能，减小了与更高解耦程度模型的差距。

架构解耦是统一多模态模型所必须的吗？全新AIA损失：No

同时，研究者给出了使用 AIA 损失之后 Emu3 和 Janus-Pro 跨模态交互模式曲线变化，可以发现加入了 AIA 损失之后，两个模型的交互曲线都向单任务模型的表现靠近了，既证明了 AIA 损失的有效性，同时也说明了模型架构解耦不是唯一能够提高统一模型性能的方式。

当然，研究者也承认在目前情况下完全统一的方法和高解耦程度的模型之间存在很大的差距，但正如 Emu3.5 的出现，他们认为这个差距会越来越小。因此，研究者呼吁更多的人抛开表层的框架和数据配比，深入研究统一模型的任务冲突问题，寻找更优的解法。

AIA 好训吗？

由于 Emu3 只有预训练 (PT) 阶段是统一训练的，因此研究者在其 PT 权重上进行微调，而 Janus-Pro 给的是最终 SFT 微调后的权重，研究者在此基础上进行后训练。

研究者通过调整 AIA 损失与 next-token-prediction (NTP) 损失的比重来测试其微调的敏感度，结果发现训练 Emu3 的时候由于其预训练知识比较薄弱，AIA 损失在一个很大的范围内都能达到稳定收敛的效果。而在 Janus-Pro 中，由于其本身预训练知识很强，AIA 的加入非常容易影响模型训练，但在合适的比重情况下仍然能够达到不错的效果。

AIA 有什么优势？

AIA 损失的加入可以一定程度上减少现在常见的数据配比工程问题，本文的方法在生成与理解数据配比在 1:1 的情况下能够达到更好的效果，这说明在一定程度上两个任务的训练不再是冲突的，产生了协同优化的效果。

统一模型训练的正确道路是什么？

通过结合现在所有统一模型训练的问题以及本文的实验分析，可以发现不管怎样解耦模型，其始终会在统一训练的过程中动态分配不同任务在同一层的权重来缓解冲突，那这是否实际上代表了统一模型的正确行为？

尽管任务间存在负相关，模型可以通过输入序列（图像-文本或文本-图像）和特殊 token（如 <img start>）识别当前任务，并自动调整跨模态交互。借助像本文 AIA 这样的显式引导方法，任务冲突可能不是需要避免的问题，而是统一模型的天然特性。

另一条统一路径是移除所有可以用来区分任务的线索（即采用统一分词器、消除任务相关特殊 token、使用交错数据数据输入），迫使模型只能从输入中学习真正的统一空间。虽然这种方法或许可以解决任务间的负相关问题，但也会显著增加训练难度。

未来展望

AIA 迈出了统一模型训练原理分析的第一步，研究者希望能够有更多志同道合的研究者加入这个领域的探索。统一模型现在的理论、架构都远远没有达到成熟，需要大家共同进行探索。同时研究者也希望大家能够更加关注统一模型真正的意义，不要一味地关注当前单任务基准上的性能。

文章来自于“机器之心”，作者 “机器之心”。

关键词: AI , 模型训练 , AIA , 人工智能

AITNT资源拓展

根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考

微调

【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台，可以对大语言模型（LLM）和多模态图文模型（VLM）进行预训练和轻量级微调。XTuner 支持多种微调算法，如 QLoRA、LoRA 和全量参数微调。
项目地址：https://github.com/InternLM/xtuner

架构解耦是统一多模态模型所必须的吗？全新AIA损失：No

「统一模型的初衷」以及「 架构解耦的缺点」

AIA: 模型架构解耦不是统一模型必须的

AIA 效果如何？

AIA 好训吗？

AIA 有什么优势？

统一模型训练的正确道路是什么？

未来展望

「统一模型的初衷」以及「架构解耦的缺点」