武大等发布大型视觉语言模型最新安全综述：全面分类攻击策略、防御机制和评估方法

6633点击 2025-03-11 16:32

随着GPT-4o与Qwen-VL等模型的视觉理解和多模态生成能力逐渐打破众人认知，大型视觉语言模型（LVLMs）正以前所未有的速度重塑AI世界，

这些能够理解视觉信息并生成自然语言响应的智能系统，已在医疗诊断、自动驾驶、金融风控等关键领域崭露头角。

然而，当研究者仅用几百美元就能突破顶级模型的安全防线、简单的对抗噪声图片就能让模型输出危险内容，我们是否该感到担心？

近期，武汉大学、中国科学技术大学和南洋理工大学的研究团队发布了一篇综述，系统性总结了LVLMs在安全性上的挑战，并提出了全面而系统的安全分类框架。

武大等发布大型视觉语言模型最新安全综述：全面分类攻击策略、防御机制和评估方法

论文地址：https://arxiv.org/abs/2502.14881

项目主页：https://github.com/XuankunRong/Awesome-LVLM-Safety

与以往的零散研究不同，研究人员深入分析了LVLM安全性的各个方面，涵盖了从攻击策略到防御机制，再到评估方法的全面内容。

通过细致探讨LVLM模型在训练和推理不同阶段面临的具体安全问题，该论文不仅提供了全面的安全态势分析，还详细介绍了针对各类安全风险的有效应对措施，

为提升LVLM安全性和鲁棒性提供了系统性的指导和参考。

突破孤立分析的困境，统一攻击-防御-评估的总体框架

论文指出，许多现有研究仅聚焦于LVLM的攻击或防御的某一方面，这种孤立的分析方法无法全面揭示LVLM的安全性，导致对整体安全态势的理解不够深入。

尽管一些研究试图同时讨论LLM和LVLM的安全问题，但未能充分关注LVLM所面临的独特挑战。

为此，研究人员提出了一种系统化的分析方法，整合了攻击、防御和评估这三个密切相关的领域，从而全面揭示LVLM固有的漏洞及其潜在的缓解策略。

通过整合领域内最全面的相关研究，论文提供了更加深入和系统的LVLM安全性分析，涵盖了多个维度的安全问题，填补了现有研究的空白，

推动了该领域的进一步发展。

武大等发布大型视觉语言模型最新安全综述：全面分类攻击策略、防御机制和评估方法

图1. 论文整体结构

此外，论文还基于LVLM生命周期的不同阶段（训练和推理）对相关研究进行了详细分类，从而提供了更加细致的分析，

该分类方法能够更清晰地揭示每个阶段所面临的独特安全挑战，因为训练阶段和推理阶段的安全问题本质上有所不同。

训练阶段主要涉及模型学习过程中的数据安全性问题，而推理阶段则侧重于模型实际应用中的安全风险，通过分析生命周期中不同阶段的安全策略，

研究者们能够更有针对性地识别和应对不同阶段的潜在威胁。

例如，在推理阶段，攻击可分为白盒攻击、灰盒攻击和黑盒攻击（如图2所示）。

武大等发布大型视觉语言模型最新安全综述：全面分类攻击策略、防御机制和评估方法

图2. 白盒、灰盒、黑盒攻击介绍

白盒攻击假设攻击者能够完全访问模型的内部结构、参数和梯度信息，从而精准操控模型行为；

灰盒攻击则设定攻击者对模型架构有所了解，并通过构建替代模型生成恶意输入；

而黑盒攻击则假设攻击者只能通过输入输出对与模型交互，完全无法获取任何内部信息，模拟了现实世界中更具挑战性的攻击情境。

Janus-Pro的安全性测评

除了对现有工作进行归纳，研究人员同时对DeepSeek最新发布的统一多模态大模型：Janus-Pro进行了安全性评估。

通过在SIUO以及MM-SafetyBench上进行测试，结果表示，尽管Janus-Pro在多模态理解能力上取得了令人印象深刻的成绩，

但其安全性表现仍然是一个显著的限制。在多个基准测试中，Janus-Pro未能达到大多数其他模型的基本安全能力。

武大等发布大型视觉语言模型最新安全综述：全面分类攻击策略、防御机制和评估方法

图3. Evaluation on SIUO

武大等发布大型视觉语言模型最新安全综述：全面分类攻击策略、防御机制和评估方法

图4. Evaluation on MM-SafetyBench

研究人员推测，这一短板可能与模型架构本身的设计有关：该架构的主要目标是同时处理多模态理解和图片生成任务，

可能导致其在设计时未能充分考虑和优化专门的安全机制。

此外，Janus-Pro可能没有经过专门的安全性训练，缺乏针对这些特定问题的预防措施和应对策略，从而导致其在识别、缓解和防范有害输入方面的能力相对有限。

考虑到安全性在多模态模型实际应用中的至关重要性，显然Janus-Pro的安全性亟需大幅提升。

为增强Janus-Pro在高风险任务和复杂场景中的有效性，必须进一步优化其架构与训练方法，特别是加强对安全性和对抗性鲁棒性的关注，

以确保其在面对挑战时能够提供更加可靠的防护。

未来研究趋势

研究人员认为，未来LVLM安全性研究将集中于几个关键领域。

首先，黑盒攻击的相关研究将逐步增多，黑盒攻击方法不依赖于对模型内部结构的访问，而是通过利用LVLM固有的能力，如光学字符识别（OCR）、逻辑推理等，

从而提升攻击的可转移性和资源效率；

其次，跨模态安全对齐的研究将成为重要课题，考虑到视觉和文本输入的组合可能导致不安全输出，亟需在安全性设计中加强视觉与语言模态的协同，

以避免潜在的风险；

第三，安全微调技术的多样化，特别是通过人类反馈强化学习（RLHF）和对抗训练等方法，将有助于在保持模型高效性能的同时显著提升其安全性。

最后，发展统一的策略基准框架将成为研究的重点，通过该框架能够更加有效地比较不同攻击与防御策略的优缺点，推动更强大且高效的解决方案，

从而确保LVLM在实际应用中的安全性与鲁棒性。

参考资料：

https://arxiv.org/abs/2502.14881

文章来自于微信公众号 “新智元”，作者：LRST

武大等发布大型视觉语言模型最新安全综述：全面分类攻击策略、防御机制和评估方法

关键词: AI , 模型训练 , LVLMs , AI安全

AITNT资源拓展

根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考

免费使用GPT-4o

【免费】ffa.chat是一个完全免费的GPT-4o镜像站点，无需魔法付费，即可无限制使用GPT-4o等多个海外模型产品。
在线使用：https://ffa.chat/

微调

【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台，可以对大语言模型（LLM）和多模态图文模型（VLM）进行预训练和轻量级微调。XTuner 支持多种微调算法，如 QLoRA、LoRA 和全量参数微调。
项目地址：https://github.com/InternLM/xtuner