ICLR 2026 | 帝国理工大学提出DyMo:让多模态模型学会「选择」,突破模态缺失难题

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
ICLR 2026 | 帝国理工大学提出DyMo:让多模态模型学会「选择」,突破模态缺失难题
8305点击    2026-03-09 14:28

多模态学习(Multimodal Learning)正在推动 AI 在医学影像、自动驾驶、人机交互等领域取得突破。通过融合图像、文本、表格等多种模态,模型能够获得更全面的信息,从而显著提升性能。


然而,在真实世界中,一个关键问题几乎不可避免:「模态缺失(Missing Modality)」。例如:医学诊断中,部分检查未完成;自动驾驶中,某些传感器失效;多模态数据库中,部分字段缺失。


现有的不完整多模态学习方法通常采取两种策略,要么直接丢弃缺失模态(无恢复方法,recovery-free),从而可能损失重要的任务相关信息;要么尝试恢复缺失模态(recovery-based,基于恢复方法),但这又可能引入无关噪声。我们将这一矛盾称为「丢弃 - 插补困境」(discarding-imputation dilemma)


为了解决这一问题,帝国理工大学的研究团队引入一个全新的视角:不盲目丢弃,也不盲目使用恢复模态,而是在推理时动态识别并融合可靠的恢复模态,突破传统「丢弃或插补」的二元限制。为此,作者设计了一种新的推理阶段动态模态选择框架 DyMo


DyMo 从信息论的角度出发,理论性地建立信息量和任务损失之间的联系,提出用于指导模态选择过程的奖励函数。此外,作者还设计了一种灵活的多模态网络结构,可兼容任意模态组合,并配套提出了专门的训练策略,以学习鲁棒的多模态表示。在多个自然图像与医学影像数据集上的实验表明,DyMo 在各种模态缺失场景下均显著优于现有方法。该工作已被机器学习顶级会议 ICLR 2026 接收。


ICLR 2026 | 帝国理工大学提出DyMo:让多模态模型学会「选择」,突破模态缺失难题


  • 论文标题:Inference-Time Dynamic Modality Selection for Incomplete Multimodal Classification
  • 论文作者:Siyi Du, Xinzhe Luo, Declan P. O'Regan, Chen Qin
  • 作者单位:英国帝国理工大学
  • 论文链接:https://openreview.net/forum?id=PWhDUWRVhM
  • 代码链接:https://github.com//siyi-wind/DyMo


丢弃 vs 恢复的困境


针对模态缺失问题,现有方法主要分为两类:


  • 基于恢复的方法(recovery-based methods),这些方法先补全模态,再进行模态融合。
  • 无恢复方法(recovery-free methods),这类方法直接忽略缺失模态,仅使用可用模态进行预测。


但在现实场景中,不同模态对任务的重要性往往存在显著差异。这种差异主要来源于:(i)各模态包含的任务相关信息强度不同,(ii)各模态中包含的噪声程度不同。


ICLR 2026 | 帝国理工大学提出DyMo:让多模态模型学会「选择」,突破模态缺失难题

图 1。(a–b) “丢弃–插补困境” 的直观证据:(a-1) vs (a-2) 无恢复方法(recovery-free methods)由于直接忽略缺失但高度任务相关的模态(如 {M, T}),只能学习到判别能力较弱的特征表示;(b) 基于恢复的方法(recovery-based methods)产生不可靠的重建结果,例如低保真重建(橙色)或语义错位(黄色)。(c) DyMo 能够通过动态融合任务相关且可靠的恢复模态来有效解决这一困境,并在多个数据集上显著提升性能:如在 PolyMNIST、MST 和 CelebA 数据集上,分类准确率分别提高了 1.61%、1.68% 和 3.88%(见论文表 1)。


当高度关键的模态缺失时,传统的无需恢复方法只能依赖剩余信息较弱的模态,从而导致模型判别能力下降 (如图 1(a))。虽然恢复方法试图通过重建缺失模态来解决这一问题,但恢复质量往往不稳定(如图 1(b)),可能生成低保真恢复(low-fidelity),即图像模糊或失真,或者语义错位(semantic misalignment):恢复内容与真实标签不一致。将这些不可靠模态用于融合,反而会引入与任务无关的噪声,干扰模型决策。


DyMo:推理阶段动态模态选择框架


围绕「丢弃–插补困境」,作者提出了一种全新的解决思路 —— DyMo:一种推理阶段动态模态选择框架。其核心思想不是简单「丢弃」或「强行恢复」,而是在推理阶段自适应地选择并融合可靠的恢复模态,最大化多模态任务相关信息(图 1(c))。文章具体贡献如下:


  • 首次系统性提出并刻画「丢弃–插补困境」,引入动态神经网络机制(dynamic neural networks)来打破这一结构性两难。
  • 提出 DyMo,其核心创新包括:(1)基于多模态任务相关信息增益的动态模态选择算法,(2)支持任意模态组合的多模态网络结构,(3)专门的训练策略让模型能够学习鲁棒的潜在表示。
  • DyMo 在 5 个多样化数据集(包括自然图像和医学影像)上达到 SOTA 性能。
  • DyMo 易于使用(可与多种模态恢复方法结合),且动态算法无需额外复杂结构开销,方便部署。


支持任意模态组合的网络架构


ICLR 2026 | 帝国理工大学提出DyMo:让多模态模型学会「选择」,突破模态缺失难题

图 2。用于任意模态的多模态网络结构。


DyMo 多模态网络结构的目标是:无论输入模态是否完整,都能生成可靠的预测结果,并为后续的动态模态选择提供基础。整体架构主要由三个部分组成:单模态编码器进行特征提取;多模态 Transformer 建模跨模态关系;线性分类器使用 [CLS] token 的表示进行预测。


方法核心:推理阶段动态模态选择与融合


1. MTIR (multimodal task-relevant information reward)多模态任务相关信息奖励: DyMo 的核心是一个奖励函数: MTIR,用于估计每一个恢复模态带来的多模态任务相关信息增益。更直观的说:


  • reward > 0: 该模态提供了有用信息,应当融合
  • reward = 0: 该模态可能是低保真度恢复,信息很少,价值有限
  • reward < 0: 该模态可能是语义不一致恢复,反而会误导模型


ICLR 2026 | 帝国理工大学提出DyMo:让多模态模型学会「选择」,突破模态缺失难题


ICLR 2026 | 帝国理工大学提出DyMo:让多模态模型学会「选择」,突破模态缺失难题


从该公式中,可以得到一个关键的结论:降低任务损失,能够提高任务相关信息的下界,因此,DyMo 使用一个简单但有效的 proxy:


用交叉熵损失的下降来估计任务相关信息增益


ICLR 2026 | 帝国理工大学提出DyMo:让多模态模型学会「选择」,突破模态缺失难题


ICLR 2026 | 帝国理工大学提出DyMo:让多模态模型学会「选择」,突破模态缺失难题


ICLR 2026 | 帝国理工大学提出DyMo:让多模态模型学会「选择」,突破模态缺失难题


ICLR 2026 | 帝国理工大学提出DyMo:让多模态模型学会「选择」,突破模态缺失难题


ICLR 2026 | 帝国理工大学提出DyMo:让多模态模型学会「选择」,突破模态缺失难题


ICLR 2026 | 帝国理工大学提出DyMo:让多模态模型学会「选择」,突破模态缺失难题


ICLR 2026 | 帝国理工大学提出DyMo:让多模态模型学会「选择」,突破模态缺失难题


ICLR 2026 | 帝国理工大学提出DyMo:让多模态模型学会「选择」,突破模态缺失难题


ICLR 2026 | 帝国理工大学提出DyMo:让多模态模型学会「选择」,突破模态缺失难题


ICLR 2026 | 帝国理工大学提出DyMo:让多模态模型学会「选择」,突破模态缺失难题


ICLR 2026 | 帝国理工大学提出DyMo:让多模态模型学会「选择」,突破模态缺失难题


ICLR 2026 | 帝国理工大学提出DyMo:让多模态模型学会「选择」,突破模态缺失难题


ICLR 2026 | 帝国理工大学提出DyMo:让多模态模型学会「选择」,突破模态缺失难题


辅助缺失不可知对比损失:旨在进一步增强类内聚类和类间分离。


ICLR 2026 | 帝国理工大学提出DyMo:让多模态模型学会「选择」,突破模态缺失难题


ICLR 2026 | 帝国理工大学提出DyMo:让多模态模型学会「选择」,突破模态缺失难题


实验结果


作者使用 5 个不同的数据集(包含图像,文本,表格模态)进行实验,包括三个模拟数据集:PolyMNIST, MST, CelebA,和两个大的真实数据集:自然图像 - 表格数据集 DVM 和医学图像 - 表格数据集 UK Biobank (UKBB)。


对于 DyMo 中的恢复方法,三个模拟数据集使用 VAE 类方法,两个真实数据集使用 MAE 类方法。在消融实验部分作者还包含了更多的恢复方法。模型在完整的数据集上进行训练,并在各种缺失场景下进行评估:(i)对于 PolyMNIST,作者设置随机缺失一定比例的模态; (ii) 对于 MST 和 CelebA,作者测试了缺失模式的不同组合; (iii) 对于 DVM 和 UKBB,作者评估了全表格和表格内(即模态内)缺失。


DyMo 超越过去的先进模型


DyMo 与先进的动态 / 静态模态融合方法,基于恢复的方法,和无恢复方法进行比较。实验结果表明,DyMo 在缺失模态场景下实现了巨大的性能飞跃,特别是在严重模态缺失场景。比如,在 PolyMNIST 数据集上,当 80% 模态缺失时,DyMo 相比最先进动态融合方法,准确率提升高达 13.12%,展现出极强的鲁棒性。


此外,实验还显示了「丢弃 - 插补困境」的存在:(1)无恢复方法在高度任务相关模态缺失时会出现显著性能下降。例如,在 MST 数据集上,当缺失模态为 {M, T} 而非 {S, T} 时,MUSE 的分类准确率下降了高达 61.18%。(2)基于恢复的方法在严重模态缺失场景下同样面临挑战。例如,在 PolyMNIST 数据集上,当缺失率从 η = 0 增加到 η = 0.8 时,OnlineMAE 的准确率下降了 9.91%,表明恢复过程中生成了不可靠的模态。相比现有方法,DyMo 能够有效突破这一困境,在各种严重模态缺失场景下均取得显著性能优势。


ICLR 2026 | 帝国理工大学提出DyMo:让多模态模型学会「选择」,突破模态缺失难题

图 3。和静态 / 动态模态融合方法比较。


ICLR 2026 | 帝国理工大学提出DyMo:让多模态模型学会「选择」,突破模态缺失难题

图 4。和无恢复方法,基于恢复方法比较。


可视化与样例分析


作者的隐层特征表示可视化和样例分析展示了 DyMo 能够有效选择可靠的恢复模态,并提升模型性能。


ICLR 2026 | 帝国理工大学提出DyMo:让多模态模型学会「选择」,突破模态缺失难题

图 5。DyMo 在 MST 数据集上的隐层特征表示 t-SNE 可视化,对比了不同模态使用策略的效果:(a-1) 仅使用原始可观测模态;(a-2) 直接融合所有恢复模态(不加筛选);(a-3) 融合由 DyMo 自动选择的恢复模态。


ICLR 2026 | 帝国理工大学提出DyMo:让多模态模型学会「选择」,突破模态缺失难题

图 6。PolyMNIST 数据集上的案例分析:黄色表示原始可观测模态,蓝色表示由 DyMo 自动选择用于融合的模态。


讨论与总结


DyMo 提供了一个新的视角,问题不再是「如何恢复所有模态」,而是「哪些恢复模态值得信任」


通过在推理阶段动态选择可靠模态,DyMo 成功突破了传统「丢弃或插补」的二元限制,为不完整多模态学习提供了一种更加灵活和鲁棒的解决方案。


未来方向:


  • 动态选择是否需要扩展到训练阶段
  • 如何扩展到分类以外的任务
  • 如何更加可靠和高效,或者与多模态大语言模型(MLLMs)进行结合


文章来自于“机器之心”,作者 “杜思逸”。

AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
AI数据分析

【开源免费】DeepBI是一款AI原生的数据分析平台。DeepBI充分利用大语言模型的能力来探索、查询、可视化和共享来自任何数据源的数据。用户可以使用DeepBI洞察数据并做出数据驱动的决策。

项目地址:https://github.com/DeepInsight-AI/DeepBI?tab=readme-ov-file

本地安装:https://www.deepbi.com/

【开源免费airda(Air Data Agent)是面向数据分析的AI智能体,能够理解数据开发和数据分析需求、根据用户需要让数据可视化。

项目地址:https://github.com/hitsz-ids/airda

2
知识库

【开源免费】FASTGPT是基于LLM的知识库开源项目,提供开箱即用的数据处理、模型调用等能力。整体功能和“Dify”“RAGFlow”项目类似。很多接入微信,飞书的AI项目都基于该项目二次开发。

项目地址:https://github.com/labring/FastGPT