生成式AI如何告别色情、版权困扰？基于权重显著性的机器遗忘算法有奇效

7989点击 2024-04-19 11:08

近期，硅谷 AI 公司 OpenAI 可谓是话题度拉满，先是一出「宫斗戏」引起舆论哗然，后是公布 Sora 效果炸裂受到了全网的一致好评。在这期间，一桩诉讼案件同样引爆了热点 —— 因 ChatGPT 涉嫌侵犯纽约时报著作权，OpenAI 及微软被起诉并要求支付巨额版权费 [1]。一方是传统新闻行业的代表刊物，一方是新兴人工智能技术发展中的佼佼者。双方展开这场「里程碑式」拉锯战的同时，也将科研圈长期存在的问题再次拉上了台面：

在 AI 高速发展的浪潮中，如何在保持技术创新的同时不失对于数据安全问题的考量？

的确，随着近年来产业化模型的逐步发展，数据安全在个人隐私、模型安全、版权问题等多方面都受到了严峻的挑战，如：语言模型因引入个人信息而埋下的隐私泄露隐患；扩散生成模型因训练数据中涵盖色情、暴力等不良图像而导致具备产生违法内容的能力。此外，诸如国家互联网信息办公室颁布的《生成式人工智能服务管理暂行办法》[2]，以及欧盟的《一般数据保护条例》[3]（GDPR）等也意味着对于数据安全的约束也逐渐从道德层面转向了法律、法规层面。人们对于数据安全的需求逐渐从幕后转向了台前，对于机器学习相关研究者以及现有人工智能服务的提供者而言也是亟待解决的问题与挑战。

直观而言，移除敏感数据并重新训练（Retrain）是一种合理的消除数据影响并保证模型安全的方法。然而，训练模型对时间和算力的消耗不容小觑，对于一些已经产业化并投入使用的大模型，重新训练的额外开销会急剧增大。如何快速有效的消除数据对模型带来的影响 —— 机器遗忘，便成为了一个新兴的热门研究方向。

什么是机器遗忘？

机器遗忘（Machine Unlearning, 也可称机器「反」学习），这种方法旨消除特定训练数据（如敏感或非法信息）对已完成预训练模型的影响，同时保持该模型的实用性。在评估一种机器遗忘方法时，我们需从三个关键维度出发：

1. 高效：算法是否高效运行；

2. 精准：特定数据是否被精准遗忘；

3. 稳定：遗忘后模型是否具有稳定泛化能力。

遗憾的是，现有的机器遗忘方法都无法同时满足这三个维度的要求。近日，密歇根州立大学（Michigan State University)、宾夕法尼亚大学（University of Pennsylvania）和 IBM 研究院（IBM Research）的研究者们分析了已有机器遗忘方法的局限性，基于权重显著性提出了一种简单、直观但表现优异的机器遗忘框架 ——SalUn（Saliency Unlearn）。实验结果表明，在图像分类和图像生成任务上，SalUn 都能够出色地满足高效、精准和稳定这三个维度的要求，证明了其在机器遗忘领域的创新性和重要性。