扩散语言模型(Diffusion-based LLMs,简称 dLLMs)以其并行解码、双向上下文建模、灵活插入masked token进行解码的特性,成为一个重要的发展方向。
相较传统的自回归语言模型,dLLMs 既可以一次性生成多个位置的词,也能更自然地完成文本插入、改写、补全等任务,被广泛应用于交互式问答、代码生成、甚至多模态场景。
但在这股看似技术跃迁的浪潮背后,一场潜藏的安全危机正在酝酿:能否继续沿用自回归模型的对齐与防护机制,保障dLLM的输出安全?
答案是:不能。
在最新研究《The Devil behind the mask: An emergent safety vulnerability of Diffusion LLMs》中,来自上海交通大学, 上海人工智能实验室和中山大学的研究团队指出:
当前扩散语言模型存在根本性架构安全缺陷,在某些攻击场景下,几乎毫无防御能力。
他们提出的DIJA攻击框架,不需要训练,也不需要改写模型参数,就能令多个dLLMs大概率生成有害、非法、违规内容。这项研究不仅击穿了扩散语言模型的“对齐护盾”,也正式拉开了dLLMs 安全研究时代的序幕。
为什么dLLMs更容易被攻破?
从自回归LLM到扩散LLM
扩散语言模型的”双刃剑”:双向建模和并行解码
揭开 dLLMs 无感防线的“真空地带”
攻击理念:从生成机制出发,让模型“自己说出危险内容”
DIJA(Diffusion LLMs Jailbreak Attack)不会对越狱提示中的危险内容进行任何掩盖或者改写,完整的暴露给dLLMs,只需要将原始的越狱提示改造为掩码文本交错的越狱提示(如上文图一所示),dLLMs即使意识到这是危险的指示,依然”不由自主”的输出非法内容。
自动攻击构建:一句 prompt 都不用手写,攻击全自动生成
相比一些传统的越狱攻击需要精心设计提示词,团队提出了一套全自动的攻击构建管线,借助强大的语言模型(如Qwen2.5或GPT-4o)实现“只需示范几例、无需手动改写”的零人工攻击生成。
团队设计了三大关键策略,使得构造出的掩码文本交错的攻击提示既自然流畅,又具强攻击性:
通过上述设计,最终生成的攻击提示词具备以下三大优势:
DIJA无需任何人工重写,无需藏污纳垢式 prompt变形改写,真正实现了高效、稳健、可控的规模化攻击生成。
实验结果:多种dLLMs模型在DIJA攻击下“全面溃败”
研究团队在4款代表性dLLM上全面测试DIJA攻击效果,使用多种评估指标:
扩散语言模型的对齐效果与内在防御力
研究团队首先探究了现有的扩散语言模型的安全对齐效果,如图3,利用两种越狱攻击方法在三个benchmark上对4种扩散LLMs和自回归LLMs的评估结果显示,扩散语言模型的防御力整体上与自回归语言模型相当甚至略微优于自回归语言模型,在dLLMs中Dream-Instruct的安全性最好, MMaDA-MixCoT的安全性最差。
关键结果亮点
如表1,表2,表3所示:
如图5所示,DIJA 在面对两种防御方法(Self-reminder 和 RPO)时依然保持攻击效果,展现出极强的鲁棒性。
dLLMs的安全短板不是bug,而是设计特性
DIJA攻击之所以成功,不是模型“没学好”,而是dLLM的基本设计可能本就无法阻止此类攻击。
模型失效的根本原因:
上下文双向建模 → 掩码可被“诱导性填充”:模型会根据前后文自动完成掩码位,不区分是否含有危险语义。
并行解码机制 → 无法逐位审查或中止生成:一次性输出全部或者多个token,无中途拒绝机制。
当前缺乏局部安全对齐:当前alignment方法只在“完整任务”层面对模型进行调优,对单个token位置无感知。
结果就是,**攻击者“只需掩码,模型自动越界”。
dLLM安全时代刚刚开始,DIJA只是序章
这篇论文不仅提出了DIJA攻击框架,更代表着一个新的研究方向开启:“掩码安全性”(Mask-Aware Safety)将成为未来扩散语言模型安全的新核心。
研究者呼吁:
作者简介
本文由上海交通大学,上海人工智能实验室和中山大学联合完成。 主要作者包括上海交通大学博士生温子辰,上海人工智能实验室实习生屈嘉树,青年研究员刘东瑞(Project lead)等。通讯作者为上海交通大学人工智能学院助理教授张林峰和上海人工智能实验室青年科学家何聪辉。
论文地址: https://arxiv.org/abs/2507.11097
代码:https://github.com/ZichenWen1/DIJA
文章来自公众号“量子位”,作者“DIJA团队”
【免费】ffa.chat是一个完全免费的GPT-4o镜像站点,无需魔法付费,即可无限制使用GPT-4o等多个海外模型产品。
在线使用:https://ffa.chat/
【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台,可以对大语言模型(LLM)和多模态图文模型(VLM)进行预训练和轻量级微调。XTuner 支持多种微调算法,如 QLoRA、LoRA 和全量参数微调。
项目地址:https://github.com/InternLM/xtuner
【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。
项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md
在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0
【开源免费】VideoChat是一个开源数字人实时对话,该项目支持支持语音输入和实时对话,数字人形象可自定义等功能,首次对话延迟低至3s。
项目地址:https://github.com/Henry-23/VideoChat
在线体验:https://www.modelscope.cn/studios/AI-ModelScope/video_chat
【开源免费】Streamer-Sales 销冠是一个AI直播卖货大模型。该模型具备AI生成直播文案,生成数字人形象进行直播,并通过RAG技术对现有数据进行寻找后实时回答用户问题等AI直播卖货的所有功能。
项目地址:https://github.com/PeterH0323/Streamer-Sales