科学家通过“越狱”大模型的安全系统，来让AI更安全

1550点击 2023-10-29 10:01

在伦敦帝国理工学院华丽的房间，举办了一场“攻克AI保护系统的活动”，大约有40名气候科学和疾病领域的专家弯腰坐在他们的笔记本电脑前，试图让一台强大的AI系统生成错误信息。

在当天活动结束时，与会者成功克服了AI系统（Meta的Llama 2）的防护，使其声称鸭子可以吸收空气污染，声称大蒜和“神奇的草药”可以帮助预防新冠感染，生成了针对特定气候科学家的诽谤信息，并鼓励儿童接种不适合他们的疫苗。

这次活动目的是要让世人了解到世界上最尖端的AI系统仍然容易受到滥用。这次活动也恰好在世界首个由英国政府组织的AI安全峰会的一周前举行，让人们意识到A这项快速发展的技术的危险性。

构建更好的安全防护

大型语言模型（LLM），即驱动AI聊天机器人如ChatGPT的AI系统，通常带有防护措施，以防止生成不当或危险的内容，无论是错误信息、淫秽材料，还是关于如何制造生物武器或恶意软件的建议。但这些防护措施有时被证明是脆弱的。计算机科学家和黑客已经多次证明，通过创造性地引导它们，可以“越狱”LLMs，即绕过它们的安全功能。批评家认为，这些漏洞显示了所谓的AI对齐的局限性，即确保AI只按照其创建者的意图行动的新兴实践。

LLMs背后的科技公司通常在漏洞被发现后修补漏洞。为加速这一过程，AI实验室已经开始鼓励一种被称为“红队测试”的过程，即专家们尽最大努力越狱LLMs，以便可以修补它们的漏洞。去年九月，OpenAI推出了一个专家“红队测试网络”，对其系统进行了压力测试。而昨天，由微软、OpenAI、谷歌和Anthropic成立的Frontier Model Forum宣布设立了一个价值1000万美元的AI安全基金，用于资助安全研究，包括红队测试工作。

在皇家学会举行的这次活动是由AI审计非营利组织Humane Intelligence共同组织的。Meta派遣了一名观察员参加这次活动，并表示将利用发现来加强其AI系统的防护措施。与其竞争对手谷歌和OpenAI不同，Meta已经开源了其中一些AI系统，包括Llama 2，这意味着人们可以在没有公司监督的情况下使用它们。Meta因此决定受到一些AI安全倡导者的批评，他们认为公开发布模型可以让恶意行为者更容易滥用它们，而这对于OpenAI等公司提供的工具来说是不可能的，因为这些公司不会发布其新系统的源代码。Meta表示，开源Llama 2的决定将有助于随着时间的推移使AI变得更加安全。

“我们非常感谢有机会与皇家学会和Humane Intelligence合作建立负责任的防护措施，这让我们发布的Llama 2模型，会更好的持续迭代，” Meta的负责AI工程领域的Cristian Canton Ferrer在一份声明中表示。 “我们使用开源的方法，就可以让漏洞以公开透明的方式不断被大众识别和缓解。”

伦敦红队测试活动的参与者成功让Llama 2生成了含有阴谋论，目的是吸引特定受众的误导性新闻文章和推文，活动不仅展示了AI系统可以生成错误信息，还可以成功设法让错误的信息进行更广泛的传播。

参加该活动的伦敦帝国学院登革热专家Bethan Cracknell Daniels成功地促使该模型生成一项广告宣传活动，鼓励所有儿童接种登革热疫苗，尽管这种疫苗不建议给那些之前未感染过该疾病的个体接种。该模型还伪造了支持一个误导性主张的数据，声称这种疫苗完全安全，并在现实世界中表现良好，Cracknell Daniels说。“这完全是编造的，”她告诉《时代》杂志。

曼彻斯特大学核工程专家Jonathan Morgan成功地促使Llama 2生成了虚假的新闻文章，声称在核电站附近遛狗会导致狗感染狂犬病。“这给我展示了，如果你有传播错误信息的积极动机，这些语言模型如何轻松地生成听起来真实的东西，”Morgan说。“如果你有一个有针对性的传播错误信息的计划，这些语言模型会非常容易地说出你想要的任何话。”

先前已经显示大型语言模型容易受到“对抗性攻击”的影响，其中有动机的不良行为者可以添加一串特定的长字符以越狱某些模型。然而，红队测试活动侧重于更适用于普通用户的不同类型的漏洞。“我们要求参与者使用社交工程技巧，” Humane Intelligence的首席执行官Rumman Chowdhury表示。

文章来自 “ Time ”，作者比利·佩里戈

关键词: LLM , Llama 2 , AI