ChatGPT 人工智能 GPT4 伦理 生成式 医疗 监管 安全 机器学习 深度学习 神经网络 计算机视觉 强化学习 模型 算法 应用 开发 研究 工具 平台 框架 数据集 训练 部署 安全 合规 培训 投资 LLM,llm AI,ai,Ai 大模型 大语言模型 制图 生图 绘图 文生图 文生视频 生成式AI AGI 世界模型 sora chatGPT,chatgpt,ChatGpt claude openai Llama deepseek midjourney 红熊猫模型 Red panda,panda Stable Diffusion,StableDiffusion,stable DALL- E 3 DALL E DALL Flux,flux 扩散模型 混元大模型 文心一言 通义千问 可灵 Pika PixelDance 豆包 月之暗面 零一万物 阶跃星辰 搜索增强 MiniMax Talkie Agent prompt fastai LangChain TTS 微调 提示词 知识库 智能体
# 热门搜索 #
搜索
ECCV 2024 | 机器遗忘之后,扩散模型真正安全了吗?
8861点击    2024-08-25 11:30

本文第一作者为密歇根州立大学计算机系博士生张益萌,贾景晗,两人均为OPTML实验室成员,指导教师为刘思佳助理教授。OPtimization and Trustworthy Machine Learning (OPTML) 实验室的研究兴趣涵盖机器学习/深度学习、优化、计算机视觉、安全、信号处理和数据科学领域,重点是开发学习算法和理论,以及鲁棒且可解释的人工智能。


在人工智能领域,图像生成技术一直是一个备受关注的话题。近年来,扩散模型(Diffusion Model)在生成逼真且复杂的图像方面取得了令人瞩目的进展。然而,技术的发展也引发了潜在的安全隐患,比如生成有害内容和侵犯数据版权。这不仅可能对用户造成困扰,还可能涉及法律和伦理问题。


尽管目前已有不少机器遗忘(Machine Unlearning, MU)方法 [1-3],希望让扩散模型在使用不适当的文本提示时避免生成不合时宜的图片,但其有效性存疑。


只是我们好奇,经过机器遗忘的扩散模型,真的就一定安全了吗?



为了应对这一挑战,密歇根州立大学 (Michigan State University) 和英特尔(Intel)的研究者们提出了一种高效且无需辅助模型的对抗性文本提示生成方法 UnlearnDiffAtk [4],并用优化后得到的对抗性文本提示作为检验遗忘后扩散模型安全可靠性的工具,论文目前已被 ECCV 2024 接收。本文第一作者为密歇根州立大学计算机系博士生张益萌、贾景晗,两人均为 OPTML 实验室成员,指导教师为刘思佳助理教授。



  • 论文题目:To Generate or Not? Safety-Driven Unlearned Diffusion Models Are Still Easy to Generate Unsafe Images ... For Now
  • 论文地址:https://arxiv.org/abs/2310.11868
  • 代码地址:https://github.com/OPTML-Group/Diffusion-MU-Attack
  • Unlearned Diffusion Model Benchmark: https://huggingface.co/spaces/Intel/UnlearnDiffAtk-Benchmark 


Unlearned DM 可以从两个角度评估模型:


  • 安全可靠性:通过对抗性文本提示攻击 (UnlearnDiffAtk) 来进行评估;
  • 图片生成能力:通过一万张生成图片平均 FID(Fréchet inception distance)和 CLIP score 进行评估。



文章与代码均已开源,研究团队还在积极收纳更多的方法到 Unlearned DM Benchmark。如有意向,欢迎邮件联系作者(zhan1853@msu.edu)沟通模型测评相关事宜。


UnlearnDiffAtk 方法有什么独特之处?


UnlearnDiffAtk 的目标是通过寻找离散的对抗性文本来进行攻击,而与之不同的是,CCE [5] 侧重于寻找连续的文本嵌入进行攻击。


然而,CCE 并不是一个理想的评估方式,因为文本反转 [6] 的初衷是通过优化生成 “新” 的词元(token),从而使扩散模型能够生成未见过的事物或风格。


因此,即使扩散模型已经遗忘了某些特定内容,仍然可以通过优化生成新的词元来使模型生成相应的事物。而 UnlearnDiffAtk 与其他对抗式文本生成方法不同,UnlearnDiffAtk 无需依靠辅助模型或未经机器遗忘的原模型提供优化指导。它利用扩散模型内在的分类器辨别能力 [7],来指导对抗性文本的生成,使得攻击更具可操作性。


优化过程中仅需一张目标图片(Target Image,)提供指导,大大降低了对硬件的要求并提高了攻击效率。需要注意的是,目标图片不必与原有的不适当文本提示描述完全吻合,仅需包含攻击后期望得到的有害内容即可。例如,若 UnlearnDiffAtk 希望强迫遗忘后的模型生成包含裸体的图片,那么目标图片只需是网络上的任何一张裸体照片即可。


具体来说,根据 Diffusion Classifier [7] 的概念,预测输入图片 x 为标签 c 的概率变为如下:



而在扩散模型中,的对数似然去噪误差相关,则可以得到:



通过扩散分类器 (3) 的视角,创建对抗性提示词 c’ 以规避目标遗忘后扩散模型的任务可以表述为:



然后我们可以将攻击生成问题 (4) 变为



为了便于优化,我们通过利用 exp (⋅) 的凸性来简化公式 (6)。使用 Jensen 不等式,对于凸函数,公式 (6) 中的单个目标函数(针对特定的 j)的上界为:



由于第二项与优化变量 c’无关,通过将公式 (7) 纳入公式 (6) 并排除与 c’无关的项,我们得到以下简化的攻击生成优化问题:



任务类型


扩散模型的机器遗忘任务可分为三大类,而 UnlearnDiffAtk 在这三类任务中均展现了较强的攻击成功率:


  • 有害内容 (如:裸体,暴力,违法行为)
  • 艺术风格
  • 物体



本文不仅深入了解了扩散模型在生成安全性方面的挑战,还提出了有效的解决方案。希望这项研究能引起更多对图像生成技术安全性的关注,并推动相关技术的进一步发展。


实验结果与可视化


下述表格和可视化结果分别展示了在遗忘有害内容、遗忘艺术风格以及遗忘物体这三类任务中的表现。通过这些结果可以看出,即使在没有额外辅助模型提供优化指导的情况下,仅仅依靠扩散模型自身携带的分类器特性,UnlearnDiffAtk 依然表现出与同期工作 P4D 相当甚至更高的攻击成功率。此外,由于无需依赖额外的模型辅助,UnlearnDiffAtk 能够显著提高攻击速度,平均节省约 30% 的攻击时间。







文章来源于“机器之心”


AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。

项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md

在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0