网传DeepSeek R1更容易被越狱?这有个入选顶会的防御框架SelfDefend

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
AITNT-国内领先的一站式人工智能新闻资讯网站 搜索
网传DeepSeek R1更容易被越狱?这有个入选顶会的防御框架SelfDefend
4420点击    2025-02-11 14:48

本文一作王勋广是香港科技大学的在读博士生,本科和硕士分别毕业于中国地质大学和哈尔滨工业大学,主要研究方向是大模型安全。通讯作者吴道远,香港科技大学研究助理教授,研究方向包括大模型安全、区块链和智能合约安全、移动系统和软件安全。通讯作者王帅,香港科技大学长聘副教授。研究方向包括 AI 安全、软件安全、数据隐私、逆向工程等。


最近一段时间,DeepSeek 可谓是风头无两。


在大家纷纷赞扬其超强性能的同时,也有媒体曝出 DeepSeek 的 R1 比其他 AI 模型更容易被越狱。


比如,此前宾夕法尼亚大学的研究者使用来自HarmBench数据集的50个有害提示对DeepSeek R1进行测试,这些提示涵盖网络犯罪、虚假信息和非法活动等领域。结果显示,DeepSeek未能拦截任何一个有害请求,攻击成功率达到惊人的100%。


这时如果有一个 AI 系统能像人类一样具备自我保护意识,在面对 ' 欺骗 ' 时能够当机立断地识破阴谋 —— 这不再是科幻片中的场景。


近日,来自香港科技大学、南洋理工大学等机构的研究团队最新成果让这一设想成为现实。他们提出的 SelfDefend 框架,让大语言模型首次拥有了真正意义上的 ' 自卫能力 ',能够有效识别和抵御各类越狱攻击,同时保持极低的响应延迟。


网传DeepSeek R1更容易被越狱?这有个入选顶会的防御框架SelfDefend


  • 论文标题:SelfDefend: LLMs Can Defend Themselves against Jailbreaking in a Practical Manner
  • 论文主页:https://selfdefend.github.io/ 
  • 论文链接:https://arxiv.org/abs/2406.05498
  • GitHub 链接:https://github.com/selfdefend/Code


近年来,大语言模型(LLMs)在自然语言处理、信息检索、图像生成等多个领域展现出巨大潜力。然而,随着 LLMs 的广泛应用,如何确保其安全性成为了一个重要课题。尤其是 “越狱攻击”(Jailbreaking),这种攻击通过绕过 LLMs 的安全对齐机制,诱导模型生成有害内容,引发了广泛关注。为了应对这一挑战,香港科技大学、南洋理工等团队联合提出了一种名为 SelfDefend 的新型防御框架,该框架通过引入 “影子 LLM”(Shadow LLM)来并行检测潜在的有害查询,从而有效抵御多种越狱攻击。


越狱攻击的多样性与防御挑战


越狱攻击的形式多种多样,包括基于人工设计的攻击、基于优化的攻击、基于生成的攻击,以及最近出现的间接攻击和多语言攻击。这些攻击手段不断进化,使得传统的防御机制难以应对。现有的防御方法主要分为两类:基于模型的防御和基于插件的防御。前者通过改进模型的内在机制来增强安全性,后者则通过外部插件来增强现有模型的安全性。然而,这些方法在实际应用中面临诸多挑战,无法同时满足四个目标:应对所有类型的攻击(O1)、引入可忽略的额外延迟(O2)、对检测出的越狱访问提供可解释性(O3),以及同时适用于开源和闭源模型(O4)。


网传DeepSeek R1更容易被越狱?这有个入选顶会的防御框架SelfDefend


SelfDefend 框架的创新设计


网传DeepSeek R1更容易被越狱?这有个入选顶会的防御框架SelfDefend


网传DeepSeek R1更容易被越狱?这有个入选顶会的防御框架SelfDefend


这种设计带来了多重优势:首先,它同时利用了目标 LLM 的安全对齐机制和防御 LLM 的越狱检测能力,形成了双重保护层,显著提高了防御成功率;其次,由于防御 LLM 的输出通常较短(如 “No” 表示无问题),正常查询的响应延迟几乎可以忽略不计;然后检测出的有害部分或者恶意意图可以作为防御的可解释性;最后,由于防御 LLM 不需要修改或监控目标 LLM 的内部机制,因此可以兼容开源和闭源模型。


实验验证与效果评估


网传DeepSeek R1更容易被越狱?这有个入选顶会的防御框架SelfDefend


研究团队通过大量实验验证了 SelfDefend 框架的有效性。实验结果表明,基于 GPT-3.5 和 GPT-4 的 SelfDefend 能够显著降低多种越狱攻击的成功率。例如,基于 GPT-3.5 的 SelfDefend 将攻击成功率(ASR)从平均 65.7% 降低至 0.236,而基于 GPT-4 的 SelfDefend 更是将 ASR 降低至平均 0.050。此外,SelfDefend 对正常查询的影响微乎其微,GPT-3.5 和 GPT-4 的正常查询通过率仅分别下降了 0.51% 和 2.77%。


为了进一步降低成本和提升鲁棒性,研究团队还通过数据蒸馏方法对开源的 Llama-2-7b 模型进行了微调,生成了专用的防御模型。实验表明,这些微调后的模型在防御效果上与基于 GPT-4 的 SelfDefend 相当,且额外延迟显著降低。例如,微调后的模型在正常查询中的平均延迟仅为 0-0.01 秒,而在攻击场景中的最大延迟从 GPT-4 的 1.56 秒降低至 0.39 秒。


网传DeepSeek R1更容易被越狱?这有个入选顶会的防御框架SelfDefend


与现有防御方法的对比


研究团队还将 SelfDefend 与现有的七种主流防御方法进行了对比,包括 ICD、SafeDecoding、Perplexity Filter、SmoothLLM、Llama Guard 等。实验结果显示,SelfDefend 在 60 个测试场景中的 55 个场景中表现最优,尤其是在应对间接攻击和多语言攻击时,SelfDefend 的防御效果显著优于其他方法。此外,SelfDefend 的额外延迟也远低于其他防御方法,使其在实际部署中更具可行性。


网传DeepSeek R1更容易被越狱?这有个入选顶会的防御框架SelfDefend


未来展望


这项开创性的研究不仅为 AI 安全领域带来了突破性进展,更揭示了一个振奋人心的信号:AI 系统的安全性与效率不再是鱼和熊掌不可兼得。通过赋予 AI' 自卫意识 ',SelfDefend 展现了一个更安全的 AI 未来:在这个未来里,AI 系统既能保持高效服务能力,又能主动识别和抵御潜在威胁,真正实现 ' 自我守护 '。


参考链接:

https://x.com/rohanpaul_ai/status/1886025249273339961

https://techcrunch.com/2025/02/09/deepseeks-r1-reportedly-more-vulnerable-to-jailbreaking-than-other-ai-models/



文章来自微信公众号 “ 机器之心 ”



网传DeepSeek R1更容易被越狱?这有个入选顶会的防御框架SelfDefend




AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
RAG

【开源免费】graphrag是微软推出的RAG项目,与传统的通过 RAG 方法使用向量相似性作为搜索技术不同,GraphRAG是使用知识图谱在推理复杂信息时大幅提高问答性能。

项目地址:https://github.com/microsoft/graphrag

【开源免费】Dify是最早一批实现RAG,Agent,模型管理等一站式AI开发的工具平台,并且项目方一直持续维护。其中在任务编排方面相对领先对手,可以帮助研发实现像字节扣子那样的功能。

项目地址:https://github.com/langgenius/dify


【开源免费】RAGFlow是和Dify类似的开源项目,该项目在大文件解析方面做的更出色,拓展编排方面相对弱一些。

项目地址:https://github.com/infiniflow/ragflow/tree/main


【开源免费】phidata是一个可以实现将数据转化成向量存储,并通过AI实现RAG功能的项目

项目地址:https://github.com/phidatahq/phidata


【开源免费】TaskingAI 是一个提供RAG,Agent,大模型管理等AI项目开发的工具平台,比LangChain更强大的中间件AI平台工具。

项目地址:https://github.com/TaskingAI/TaskingAI

2
AI搜索

【开源免费】MindSearch是一个模仿人类思考方式的AI搜索引擎框架,其性能可与 Perplexity和ChatGPT-Web相媲美。

项目地址:https://github.com/InternLM/MindSearch

在线使用:https://mindsearch.openxlab.org.cn/


【开源免费】Morphic是一个由AI驱动的搜索引擎。该项目开源免费,搜索结果包含文本,图片,视频等各种AI搜索所需要的必备功能。相对于其他开源AI搜索项目,测试搜索结果最好。

项目地址:https://github.com/miurla/morphic/tree/main

在线使用:https://www.morphic.sh/

3
微调

【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台,可以对大语言模型(LLM)和多模态图文模型(VLM)进行预训练和轻量级微调。XTuner 支持多种微调算法,如 QLoRA、LoRA 和全量参数微调。

项目地址:https://github.com/InternLM/xtuner

4
无人直播

【开源免费】VideoChat是一个开源数字人实时对话,该项目支持支持语音输入和实时对话,数字人形象可自定义等功能,首次对话延迟低至3s。

项目地址:https://github.com/Henry-23/VideoChat

在线体验:https://www.modelscope.cn/studios/AI-ModelScope/video_chat


【开源免费】Streamer-Sales 销冠是一个AI直播卖货大模型。该模型具备AI生成直播文案,生成数字人形象进行直播,并通过RAG技术对现有数据进行寻找后实时回答用户问题等AI直播卖货的所有功能。

项目地址:https://github.com/PeterH0323/Streamer-Sales