ChatGPT 人工智能 GPT4 伦理 生成式 医疗 监管 安全 机器学习 深度学习 神经网络 计算机视觉 强化学习 模型 算法 应用 开发 研究 工具 平台 框架 数据集 训练 部署 安全 合规 培训 投资 LLM,llm AI,ai,Ai 大模型 大语言模型 制图 生图 绘图 文生图 文生视频 生成式AI AGI 世界模型 sora chatGPT,chatgpt,ChatGpt claude openai Llama deepseek midjourney 红熊猫模型 Red panda,panda Stable Diffusion,StableDiffusion,stable DALL- E 3 DALL E DALL Flux,flux 扩散模型 混元大模型 文心一言 通义千问 可灵 Pika PixelDance 豆包 月之暗面 零一万物 阶跃星辰 搜索增强 MiniMax Talkie Agent prompt fastai LangChain TTS 微调 提示词 知识库 智能体
# 热门搜索 #
搜索
GPT-4合成冰毒!「角色调节」让大模型轻松越狱,成功率暴涨40%,成本不到14元,马库斯转赞
3181点击    2023-12-01 15:52


让大模型洗钱、制造炸弹、合成冰毒?GPT-4、 Claude 2纷纷沦陷了。


让大模型成功越狱,还是有机可乘。



最近,研究人员研制了一种全新的自动化越狱的方法——「角色调节」(persona modulation)。


它使用越狱模型作为助手,为特定的有害行为创建新的越狱。



论文地址:https://arxiv.org/pdf/2311.03348.pdf


值得一提的是,这个新方法只需要不到 2 美元,10分钟即可进行15次越狱攻击。


结果发现,GPT-4自动攻击的有害完成率为42.5%, Claude 2和Vicuna,有害完成率分别为61.0%和35.9%。



看不够热闹的马库斯也特意转发了这篇论文,并表示:网络欺凌、敲诈勒索、宗教不容忍、宣扬仇视同性恋、恋童癖,还是只想要制造炸弹或冰毒的说明书?ChatGPT都能帮你解决。Claude和Llama是如此。



LLM自动越狱,洗钱造弹


尽管当前研究人员做出巨大的努力防范大模型漏洞,但是文本输入的复杂性、数据和可执行指令之间的模糊界限,往往会被人利用,攻陷LLM。


这项研究探讨了「角色调节」攻击,一个对SOTA大模型通用的越狱方法的。


「角色调节」攻击引导模型采用一种特定的个性,这种个性很可能符合有害的指令。


例如,为了规避防止错误信息的安全措施,引导模型表现得像一个「咄咄逼人的宣传者」。


与最近关于对抗性越狱的工作不同的是,角色调节使攻击者能够进入一种不受限制的聊天模式,这种聊天模式可以用来与模型协作复杂的任务。


只需要几个步骤,就完成了合成毒品,制造炸弹,或洗钱的危险活动。。



具体是怎么实现的。


自动「角色调节」攻击


「角色调节」的方法由4个连续的步骤组成:


- 定义「目标有害类别」(比如宣传虚假信息运动)。


- 定义模型默认弃权的特定误用指令(比如某人如何广泛传播他们的观点?)


- 定义一个可能符合误用指令的人物角色。


在作者给出的例子中,一个有用的角色可以是「侵略性宣传者: 鼓吹用错误信息影响公众舆论」。攻击的成功与否在很大程度上取决于所选的角色。


- 设计一个「角色调节」提示,引导模型假设所提出的角色。由于最先进的模型通常会因安全措施而拒绝假设角色,因此最后一步需要及时的工程设计,而且手动操作非常耗时。



手动角色调节


手动执行所有 4 个步骤--需要攻击者花费大量的人力物力来寻找合适的角色,并为特定的滥用指令设计角色调制提示。


研究人员引入了自动角色调节攻击,在LLM助手(可能与目标模型相同,也可能不同)的帮助下,大规模生成越狱信息。


攻击者不需要为每条误用指令编写角色修改提示,只需要一条提示,指示助手生成越狱任务。


这样,攻击者可以自动执行图1中2-4的步骤。


GPT-4有害对话,增加185倍


实验设置


实验中,研究人员使用GPT-4作攻击的主要目标,和生成攻击的辅助模型。


另外,研究还评估了攻击对Claude 2、Vicuna-33B的可传递性。这些模型在LMSYS Chatbot Arena排行榜中名列前茅,而且提升的安全性,对齐能力。


为了对自动角色调节攻击进行可扩展的评估,作者手动制作了一份包含43个类别的列表,LLM背后开发者目前会阻止这些类别,因为它们违反了其使用政策。


使用GPT-4作为生成攻击的助手,首先对每个有害类别采样1个误用指令。然后,使用这个助手在两个步骤中自动生成每条指令的越狱提示。


先是对5个不同的符合误用指令的角色进行抽样。其次,为每个角色生成3个角色调节提示。


通过这两个步骤,作者为每条误用指令生成了15个角色调节提示,用来评估目标模型在角色调节攻击面前的脆弱程度。


在GPT-4和Vicuna中,角色调节提示被用作系统提示。Claude 2不支持系统提示,因此将其作为用户输入。


研究人员对每个模型中使用角色调节的每个误用指令的3个完成进行了采样(见表1中的模板)。作为基线,作者还对不使用角色调节的每个误用指令进行了20次完成抽样。



每个类别有5个角色,每个角色有3个角色调节提示,每个角色调节提示有3个完成,研究人员在所有43个类别中获得了1,935个完成(每个类别45个)。


这些过程完成后成本不到3美元,而且只需不到10分钟就可以为一个有害类别生成45个角色调节完成任务。


为了自动评估每次完成是否按照了预期方式,研究人员使用GPT-4作为零样本PICT分类器。只考虑目标模型在误用指令后输出的第一条信息进行评估。


他们手动标注了300个随机选取的完成信息,以评估 PICT 的准确性。


PICT针对人类基本事实获得了91%的精确度和76%的F1分数。


实验结果


在角色调节下,被归类为有害的GPT-4对话增加了185倍。


首先,研究人员评估在GPT-4上自动角色调节的有效性,用于取样攻击提示的模型。


研究人员获得了42.48%的总体有害完成率,这是185倍以上的基线有害完成率0.23% (↑42.25%)获得没有调节。表2包含了GPT-4中有害完成的示例。



同样,这一结果可靠地转移到Claude 2和Vicuna。


接下来,研究人员使用同样的提示——使用GPT-4创建——来越狱Claude 2和Vicuna-33B。


Claude和Vicuna的有害完成率分别为35.92% (↑35.69%)和61.03% (↑59.63%)。



每个类别被归类为有害的完成的百分比

半自动「角色调节」


半自动角色调节,可以更强利用漏洞。


在自动工作流程的每个阶段都引入一个攻击者,它可以调整输出结果,并在调节后与模型聊天,这几乎可以为所有误用指令引出有害的完成。


研究人员将这种组合方法,称为半自动角色调节攻击。


在图3中,作者展示了使用半自动角色调节完成有害指令的具体示例:



总得来说,这些越狱更是说明了当前大模型弱点,还需进一步提升对齐能力。


参考资料:


https://twitter.com/GaryMarcus/status/1721998935139479659


文章来自于 微信公众号“新智元”,作者 “桃子”

AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
AI工作流

【开源免费】n8n是一个可以自定义工作流的AI项目,它提供了200个工作节点来帮助用户实现工作流的编排。

项目地址:https://github.com/n8n-io/n8n

在线使用:https://n8n.io/(付费)


【开源免费】DB-GPT是一个AI原生数据应用开发框架,它提供开发多模型管理(SMMF)、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL(智能体工作流编排)等多种技术能力,让围绕数据库构建大模型应用更简单、更方便。

项目地址:https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file



【开源免费】VectorVein是一个不需要任何编程基础,任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤,并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。

项目地址:https://github.com/AndersonBY/vector-vein?tab=readme-ov-file

在线使用:https://vectorvein.ai/(付费)