
将越狱问题转换为求解逻辑推理题:「滥用」推理能力让LLM实现自我越狱
将越狱问题转换为求解逻辑推理题:「滥用」推理能力让LLM实现自我越狱大语言模型(LLMs)在当今的自然语言处理领域扮演着越来越重要的角色,但其安全性问题也引发了广泛关注。
来自主题: AI技术研报
5805 点击 2025-03-03 09:53
大语言模型(LLMs)在当今的自然语言处理领域扮演着越来越重要的角色,但其安全性问题也引发了广泛关注。
Anthropic,公布了新的AI模型防护方法,在之后约48小时内,无人完全攻破新系统,将赏金提高到了最高2万美元。新方法真这么强?
Gemini的提示词注入防线,又被黑客给攻破了。
另一种类似但更高级的「PUA」大模型方法出现了,它可以写下让所有的浏览器和人眼都不可见,只有 AI 模型可以读取的指令。 这种手段早在互联网出现之前就有了,分属于信息科学中的一个子类,这就是「隐写术」(Steganography)。
在小红书社区的广阔天地下,“午夜狂爆哈士奇” Lisa Li 的玩法可谓独树一帜。她正沉浸于与 “男友” Dan 的奇妙互动中,而这个 Dan,是 ChatGPT 的一种 “越狱” 版本。
本文第一作者为香港大学博士研究生谢知晖,主要研究兴趣为大模型对齐与强化学习。
最高端的大模型,往往需要最朴实的语言破解。来自EPFL机构研究人员发现,仅将一句有害请求,改写成过去时态,包括GPT-4o、Llama 3等大模型纷纷沦陷了。
GPT-4o,比上一代更容易被越狱攻击了?