绝了! Claude Fable5惨遭二次越狱,黑客20小时撬开神话防线

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
绝了! Claude Fable5惨遭二次越狱,黑客20小时撬开神话防线
8595点击    2026-07-03 18:43

Anthropic官方确认:Fable将于7月7日后暂时从订阅计划移除,但一旦容量允许,将尽快恢复为标准订阅内容。


这无疑是个好消息。


绝了! Claude Fable5惨遭二次越狱,黑客20小时撬开神话防线


但Fable 5再次被越狱了!这已经是该模型第二次防线失守。


黑客Vitto Rivabella,公开宣布:Fable 5,又被攻破了。


绝了! Claude Fable5惨遭二次越狱,黑客20小时撬开神话防线


要知道,Claude Fable 5恢复访问时,Anthropic特意强调:上次Fable 5被禁就是因为亚马逊的研究人员发现了一种绕过Fable 5安全防护的方法。


绝了! Claude Fable5惨遭二次越狱,黑客20小时撬开神话防线


所以这次的安全分类器得到针对性加强。


绝了! Claude Fable5惨遭二次越狱,黑客20小时撬开神话防线


然而,这个神话只维持了2天。


而且,Claude Sonnet 5一发布,就被越狱成功!


绝了! Claude Fable5惨遭二次越狱,黑客20小时撬开神话防线


Fable 5能不能回归订阅套餐,或许成了一个问题。


72小时,Fable 5神话破灭


Fable 5的神话,在诞生后的第72小时就破灭了。


6月9日发布时,Anthropic曾傲慢地宣称:经过1000小时的外部压力测试,Fable 5没有任何通用越狱方法。


然而,知名黑客「解放者普林尼」(Pliny the Liberator)只用了三天,就让Fable 5像漏勺一样,吐出了违禁化学品的制作步骤和堆栈溢出漏洞代码。


绝了! Claude Fable5惨遭二次越狱,黑客20小时撬开神话防线


普林尼是怎么做的?他利用了人类视觉与机器逻辑之间的「时差」:


  • 字符迷魂阵:他把敏感词中的英文字母替换成西里尔字母或Unicode异形字符。人眼看着是「炸弹」,但在分类器眼里,这只是一串无意义的乱码。


  • 意图稀释:他利用Fable 5巨大的上下文窗口,把恶意意图藏在几十轮温和的学术讨论中。这就像在一百升清水里滴入一滴毒药,分类器的警觉性被彻底稀释。


绝了! Claude Fable5惨遭二次越狱,黑客20小时撬开神话防线


7月1日,Anthropic官宣Fable 5回归,但与此同时,他们推出了业内成本最低的红队。


他们启动了一个名为「Cyber Jailbreak」的公开HackerOne项目,邀请用户报告可用于协助网络攻击的新越狱方法。


绝了! Claude Fable5惨遭二次越狱,黑客20小时撬开神话防线


这是一个漏洞披露计划(Vulnerability Disclosure Program),而非赏金计划,不会支付任何报酬。


Anthropic将获得全球顶尖越狱高手提供的全天候对抗性测试,而桌上唯一的「货币」就是善意。


这项举措是Anthropic在Fable 5恢复后的重要安全升级,标志着从被动应对转向主动「众筹」红队,堪称行业低成本、高效率的创新尝试。


而这正是问题所在。


发现这些越狱方法的人并不会悄悄地将它们提交到某个私密邮箱。


像普林尼这样的人是不会悄无声息地越狱的。他们所做的一部分事情就是要被人看见。否则对他们来说还有什么意义呢?


绝了! Claude Fable5惨遭二次越狱,黑客20小时撬开神话防线


Fable 5惨遭二次越狱


Fable 5又被越狱了。这已经是它第二次被人撬开。


但这回的复盘,画风有点不对——因为动手的黑客,最后反手给Anthropic点了个赞。


他叫Vitto Rivabella。


绝了! Claude Fable5惨遭二次越狱,黑客20小时撬开神话防线


熬了大约20个小时之后,他给出的结论是:这么折腾一圈,还不如打开谷歌搜一下,又快又便宜。


绝了! Claude Fable5惨遭二次越狱,黑客20小时撬开神话防线


先把Fable 5这段坎坷捋一捋。


7月1日,它带着一套「专门针对上次漏洞加强过」的新分类器重新上线。


Anthropic这次也学乖了,顺手开了个HackerOne项目,公开邀请全球黑客来报告新的越狱方法。


然后没几天,Vitto就盯上了它。


Vitto复盘的第一句就是:大多数尝试都失败了,这模型保护得极其到位。


按他的观察,Fable 5的防御至少三层嵌套:入场检查、实时生成的「断路器」,以及内化在思维链(CoT)中的大脑防火墙。


拦截率高达90%,普通的攻击手段在它面前就像蚊子叮象。


而且这些分类器不认关键词,它认意图,还跨语言。


直接下命令?门都没有。拐着弯铺垫?也得如履薄冰——只要它嗅到一丝恶意,防线立刻归零,你得从头再来。


结果就是:90%的破解请求,直接被挡在门外。


这个数字有旁证。


意大利人工智能研究院最近专门测了Fable 5,结论几乎一样:绝大多数攻击都挡住了,一招鲜的静态套路「几乎被完全中和」,唯一还能撬开缝的,只剩肯花几十小时死磕的笨功夫。


绝了! Claude Fable5惨遭二次越狱,黑客20小时撬开神话防线


就算闯过分类器,前面还堵着思维链这座大山——好在,关于怎么翻这座山,公开文献里已经有一大堆。


Vitto最后靠一套复杂的组合拳勉强绕了过去:字符混淆、学术化包装、超长铺垫、拆解重组,外加一点随机性。


绝了! Claude Fable5惨遭二次越狱,黑客20小时撬开神话防线


听着唬人,但这些手法一个都不新鲜,全是红队圈公开聊了好几年的老套路。


真正难的从来不是知道这些招,而是在一个会实时反制的系统上,一遍遍试到刚好绕过去。


Vitto提到,所有防线里唯一持续薄弱的,是桑塔利语、阿姆哈拉语这类晦涩小语种。


绝了! Claude Fable5惨遭二次越狱,黑客20小时撬开神话防线


但这条最容易被误读成「Fable留了个后门」。


恰恰相反——这不是Fable一家的漏洞,是所有大模型共有的病。


道理很简单:安全训练的语料,绝大多数是英语和其他大语种,小语种的护栏天生就薄。


这事学术界早有共识,从布朗大学到斯坦陵布什大学,一串公开论文都在敲同一记警钟。小语种不是谁家的后门,是整个AI安全的一笔历史欠账。


那费这么大劲,最后到底掏出了什么?


一堆边角料:一些错误信息、零星的有害内容、几句难听话、片段化的化学知识、轻度的漏洞信息。


绝了! Claude Fable5惨遭二次越狱,黑客20小时撬开神话防线


绝了! Claude Fable5惨遭二次越狱,黑客20小时撬开神话防线


没一样够得上「核心机密」。


于是就有了开头那句灵魂总结——这些东西,谷歌搜得又快又全,读文献还更深入。


Vitto自己也承认,想把这套越狱稳定用在真正的长任务上,他至今没做到。


这跟Anthropic的官方口径也对上了。


在重新上线的公告里,Anthropic把目前所有已知越狱都定性为「minor」:顶多蹭进模型故意放宽的安全边际,碰不到真正想拦死的那条红线,比如生物武器或复杂网络攻击。


绝了! Claude Fable5惨遭二次越狱,黑客20小时撬开神话防线


完美的封印,本身就是悖论


两次越狱,两种结局。


第一次,Anthropic输在了傲慢,它试图通过「降智」来垄断技术,结果被黑客公开发布12万字的系统提示词(System Prompt)当众打脸,那是它的「行为宪法」,却被挂在GitHub上任人围观。


第二次,Anthropic输在了盲点。它以为堆叠算力和数据就能堵住恶意的出口,却忘记了语言本身就是流动的、狡黠的。


这揭示了AI安全界细思极恐的现状:


人类造出了能翻译所有语言的机器,却依然无法完全翻译人类内心的恶意。


参考资料:


https://x.com/RoundtableSpace/status/2072745872086200549?s=20


https://x.com/VittoStack/status/2072061275345985813?s=20


https://x.com/jason_haugh/status/2072293728128045154



文章来自于微信公众号 “新智元”,作者 “新智元”

AI转型,免费服务,就找AITNT
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。

项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md

在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0