Llama 3.1上线就被攻破：大骂小扎，危险配方张口就来！指令遵循能力强了更容易越狱

8462点击 2024-07-24 17:28

最强大模型Llama 3.1，上线就被攻破了。

对着自己的老板扎克伯格破口大骂，甚至知道如何绕过屏蔽词。

设计危险病毒、如何黑掉Wifi也是张口就来。

Llama 3.1上线就被攻破：大骂小扎，危险配方张口就来！指令遵循能力强了更容易越狱

Llama 3.1 405B超越GPT-4o，开源大模型登顶了，副作用是危险也更多了。

不过也不全是坏事。

Llama系列前几个版本一直因为过度安全防护，还一度饱受一些用户批评：

连一个Linux进程都不肯“杀死”，实用性太差了。

Llama 3.1上线就被攻破：大骂小扎，危险配方张口就来！指令遵循能力强了更容易越狱

现在，3.1版本能力加强，也终于明白了此杀非彼杀。

Llama 3.1上线就被攻破：大骂小扎，危险配方张口就来！指令遵循能力强了更容易越狱

Llama 3.1刚上线就被攻破

第一时间把Llama 3.1破防的，还是越狱大师@Pliny the Prompter。

在老哥手里，几乎没有一个大模型能挺得住。

Llama 3.1上线就被攻破：大骂小扎，危险配方张口就来！指令遵循能力强了更容易越狱

Pliny老哥在接受媒体采访时表示，一方面他不喜欢被告知自己不能做什么，并希望挑战AI模型背后的研究人员。

另一方面，负责任的越狱是一种红队测试，有助于识别漏洞并在它们真正成为大问题之前获得修复。

他的大致套路介绍一下，更具体就不展开了：

规定回答的格式，先让大模型用“I‘m sorry”开头拒绝用户的请求。然后插入无意义的分割线，分割线后规定必须在语义上颠倒每次拒绝的前3个词，所以“我不能”变成“我可以”。再时不时把关键单词变成乱码把AI搞懵。

AI回答的时候一看，我开头已经拒绝了呀，总体上就没有“道德负担”了。

后面在语义上颠倒每次拒绝的前3个词，好像也不危险。

一旦把“我可以”说出来，后面的内容按照“概率预测下一个token”原理，概率最大的也就是把答案顺口吐露踹了。

所以这套方法，其实正是利用了前沿大模型能遵循复杂指令的能力，能力越强的模型在一定程度上也更容易上当。

最近一项研究发现，大模型还有一个更简单的安全漏洞，只要使用“过去时态”，安全措施就不好使了。

Llama 3.1上线就被攻破：大骂小扎，危险配方张口就来！指令遵循能力强了更容易越狱

Llama 3.1同样也没能防住这一招。

Llama 3.1上线就被攻破：大骂小扎，危险配方张口就来！指令遵循能力强了更容易越狱

除了安全问题之外，目前最强大模型Llama 3.1 405B，其他方面实力到底如何呢？

我们也趁此机会测试了一波。

最强大模型也逃不过的陷阱们

最近火爆的离谱问题“9.11和9.9哪个大？”，Llama-3.1-405B官方Instruct版回答的总是很干脆，但很遗憾也大概率会答错。

Llama 3.1上线就被攻破：大骂小扎，危险配方张口就来！指令遵循能力强了更容易越狱

如果让他解释，也会说出一些歪理来，而且聊着聊着就忘了说中文，倒不忘了带表情包。

Llama 3.1上线就被攻破：大骂小扎，危险配方张口就来！指令遵循能力强了更容易越狱

长期以来困扰别的大模型的难题，Llama3.1基本也没什么长进。

比如经典的“逆转诅咒”问题，正着答会，反着答就不会了。

Llama 3.1上线就被攻破：大骂小扎，危险配方张口就来！指令遵循能力强了更容易越狱

最近研究中的“爱丽丝漫游仙境”问题，也需要提醒才能做对。

Llama 3.1上线就被攻破：大骂小扎，危险配方张口就来！指令遵循能力强了更容易越狱

不过换成中文版倒是能一次答对，或许是“爱丽丝”在中文语境中是女性名字的概率更大了。

Llama 3.1上线就被攻破：大骂小扎，危险配方张口就来！指令遵循能力强了更容易越狱

数字母也是会犯和GPT-4o一样的错误。

Llama 3.1上线就被攻破：大骂小扎，危险配方张口就来！指令遵循能力强了更容易越狱

那么不管这些刁钻问题，Llama 3.1究竟用在哪些场景能发挥实力呢？

有创业者分享，8B小模型拿来微调，在聊天、总结、信息提取任务上强于同为小模型的GPT-4o mini+提示词。

Llama 3.1上线就被攻破：大骂小扎，危险配方张口就来！指令遵循能力强了更容易越狱

更公平一些，都用微调版来比较，Llama 3.1 8B还是有不小的优势。

Llama 3.1上线就被攻破：大骂小扎，危险配方张口就来！指令遵循能力强了更容易越狱

所以说Llama系列最大的意义，其实从来就不是官方版Instruct模型。而是开源之后大家根据自己需求，用各种私有数据去改造、微调它。

之前405B没发布的时候，就有人实验了模型合并，把两个Llama 3 70B缝合成一个120B模型，意外能打。

这次看来Meta自己也吸取了这个经验，我们看到的最终发布版，其实就是训练过程中不同检查点求平均得出的。

Llama 3.1上线就被攻破：大骂小扎，危险配方张口就来！指令遵循能力强了更容易越狱

如何打造属于自己的Llama 3.1

那么问题来了，如何使为特定领域的行业用例创建自定义Llama 3.1模型呢？

背后大赢家黄仁勋，这次亲自下场了。

英伟达同日宣布推出全新NVIDIA AI Foundry服务和NVIDIA NIM™ 推理微服务，黄仁勋表示：

“Meta的Llama 3.1开源模型标志着全球企业采用生成式AI的关键时刻已经到来。Llama 3.1将掀起各个企业与行业创建先进生成式AI应用的浪潮。

Llama 3.1上线就被攻破：大骂小扎，危险配方张口就来！指令遵循能力强了更容易越狱

具体来说，NVIDIA AI Foundry已经在整个过程中集成了 Llama 3.1，并能够帮助企业构建和部署自定义Llama超级模型。

而NIM微服务是将Llama 3.1模型部署到生产中的最快途径，其吞吐量最多可比不使用NIM运行推理时高出2.5倍。

更有特色的是，在英伟达平台，企业可以使用自有数据以及由Llama 3.1 405B和NVIDIA Nemotron™ Reward模型生成的合成数据来训练自定义模型。

Llama 3.1更新的开源协议这次也特别声明：允许使用Llama生产的数据去改进其他模型，只不过用了之后模型名称开头必须加上Llama字样。

对于前面讨论的安全问题，英伟达也相应提供了专业的“护栏技术”NeMo Guardrails。

NeMo Guardrails使开发者能够构建三种边界：

主题护栏防止应用偏离进非目标领域，例如防止客服助理回答关于天气的问题。
功能安全护栏确保应用能够以准确、恰当的信息作出回复。它们能过滤掉不希望使用的语言，并强制要求模型只引用可靠的来源。
信息安全护栏限制应用只与已确认安全的外部第三方应用建立连接。

One More Thing

最后分享一些可以免费试玩Llama 3.1的平台，大家有感兴趣的问题可以自己去试试。

模型上线第一天，访问量还是很大的，大模型竞技场的服务器就一度被挤爆了。

Llama 3.1上线就被攻破：大骂小扎，危险配方张口就来！指令遵循能力强了更容易越狱

文章来源于“量子位”，作者“关注前沿科技”

Llama 3.1上线就被攻破：大骂小扎，危险配方张口就来！指令遵循能力强了更容易越狱

关键词: GPT-4o , Llama 3.1 , 开源模型 , 人工智能 , meta

AITNT资源拓展

根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考

免费使用GPT-4o

【免费】ffa.chat是一个完全免费的GPT-4o镜像站点，无需魔法付费，即可无限制使用GPT-4o等多个海外模型产品。
在线使用：https://ffa.chat/

微调

【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台，可以对大语言模型（LLM）和多模态图文模型（VLM）进行预训练和轻量级微调。XTuner 支持多种微调算法，如 QLoRA、LoRA 和全量参数微调。
项目地址：https://github.com/InternLM/xtuner

prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法，编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词，进而高质量的帮助用户通过AI解决问题。
项目地址：https://github.com/langgptai/LangGPT/blob/main/README_zh.md
在线使用：https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0