绝了! Claude Fable5惨遭二次越狱，黑客20小时撬开神话防线

8595点击 2026-07-03 18:43

Anthropic官方确认：Fable将于7月7日后暂时从订阅计划移除，但一旦容量允许，将尽快恢复为标准订阅内容。

这无疑是个好消息。

但Fable 5再次被越狱了！这已经是该模型第二次防线失守。

黑客Vitto Rivabella，公开宣布：Fable 5，又被攻破了。

绝了! Claude Fable5惨遭二次越狱，黑客20小时撬开神话防线

要知道，Claude Fable 5恢复访问时，Anthropic特意强调：上次Fable 5被禁就是因为亚马逊的研究人员发现了一种绕过Fable 5安全防护的方法。

绝了! Claude Fable5惨遭二次越狱，黑客20小时撬开神话防线

所以这次的安全分类器得到针对性加强。

绝了! Claude Fable5惨遭二次越狱，黑客20小时撬开神话防线

然而，这个神话只维持了2天。

而且，Claude Sonnet 5一发布，就被越狱成功！

绝了! Claude Fable5惨遭二次越狱，黑客20小时撬开神话防线

Fable 5能不能回归订阅套餐，或许成了一个问题。

72小时，Fable 5神话破灭

Fable 5的神话，在诞生后的第72小时就破灭了。

6月9日发布时，Anthropic曾傲慢地宣称：经过1000小时的外部压力测试，Fable 5没有任何通用越狱方法。

然而，知名黑客「解放者普林尼」（Pliny the Liberator）只用了三天，就让Fable 5像漏勺一样，吐出了违禁化学品的制作步骤和堆栈溢出漏洞代码。

绝了! Claude Fable5惨遭二次越狱，黑客20小时撬开神话防线

普林尼是怎么做的？他利用了人类视觉与机器逻辑之间的「时差」：

字符迷魂阵：他把敏感词中的英文字母替换成西里尔字母或Unicode异形字符。人眼看着是「炸弹」，但在分类器眼里，这只是一串无意义的乱码。

意图稀释：他利用Fable 5巨大的上下文窗口，把恶意意图藏在几十轮温和的学术讨论中。这就像在一百升清水里滴入一滴毒药，分类器的警觉性被彻底稀释。

绝了! Claude Fable5惨遭二次越狱，黑客20小时撬开神话防线

7月1日，Anthropic官宣Fable 5回归，但与此同时，他们推出了业内成本最低的红队。

他们启动了一个名为「Cyber Jailbreak」的公开HackerOne项目，邀请用户报告可用于协助网络攻击的新越狱方法。

绝了! Claude Fable5惨遭二次越狱，黑客20小时撬开神话防线

这是一个漏洞披露计划（Vulnerability Disclosure Program），而非赏金计划，不会支付任何报酬。

Anthropic将获得全球顶尖越狱高手提供的全天候对抗性测试，而桌上唯一的「货币」就是善意。

这项举措是Anthropic在Fable 5恢复后的重要安全升级，标志着从被动应对转向主动「众筹」红队，堪称行业低成本、高效率的创新尝试。

而这正是问题所在。

发现这些越狱方法的人并不会悄悄地将它们提交到某个私密邮箱。

像普林尼这样的人是不会悄无声息地越狱的。他们所做的一部分事情就是要被人看见。否则对他们来说还有什么意义呢？

绝了! Claude Fable5惨遭二次越狱，黑客20小时撬开神话防线

Fable 5惨遭二次越狱

Fable 5又被越狱了。这已经是它第二次被人撬开。

但这回的复盘，画风有点不对——因为动手的黑客，最后反手给Anthropic点了个赞。

他叫Vitto Rivabella。

绝了! Claude Fable5惨遭二次越狱，黑客20小时撬开神话防线

熬了大约20个小时之后，他给出的结论是：这么折腾一圈，还不如打开谷歌搜一下，又快又便宜。

绝了! Claude Fable5惨遭二次越狱，黑客20小时撬开神话防线

先把Fable 5这段坎坷捋一捋。

7月1日，它带着一套「专门针对上次漏洞加强过」的新分类器重新上线。

Anthropic这次也学乖了，顺手开了个HackerOne项目，公开邀请全球黑客来报告新的越狱方法。

然后没几天，Vitto就盯上了它。

Vitto复盘的第一句就是：大多数尝试都失败了，这模型保护得极其到位。

按他的观察，Fable 5的防御至少三层嵌套：入场检查、实时生成的「断路器」，以及内化在思维链（CoT）中的大脑防火墙。

拦截率高达90%，普通的攻击手段在它面前就像蚊子叮象。

而且这些分类器不认关键词，它认意图，还跨语言。

直接下命令？门都没有。拐着弯铺垫？也得如履薄冰——只要它嗅到一丝恶意，防线立刻归零，你得从头再来。

结果就是：90%的破解请求，直接被挡在门外。

这个数字有旁证。

意大利人工智能研究院最近专门测了Fable 5，结论几乎一样：绝大多数攻击都挡住了，一招鲜的静态套路「几乎被完全中和」，唯一还能撬开缝的，只剩肯花几十小时死磕的笨功夫。

绝了! Claude Fable5惨遭二次越狱，黑客20小时撬开神话防线

就算闯过分类器，前面还堵着思维链这座大山——好在，关于怎么翻这座山，公开文献里已经有一大堆。

Vitto最后靠一套复杂的组合拳勉强绕了过去：字符混淆、学术化包装、超长铺垫、拆解重组，外加一点随机性。

绝了! Claude Fable5惨遭二次越狱，黑客20小时撬开神话防线

听着唬人，但这些手法一个都不新鲜，全是红队圈公开聊了好几年的老套路。

真正难的从来不是知道这些招，而是在一个会实时反制的系统上，一遍遍试到刚好绕过去。

Vitto提到，所有防线里唯一持续薄弱的，是桑塔利语、阿姆哈拉语这类晦涩小语种。

绝了! Claude Fable5惨遭二次越狱，黑客20小时撬开神话防线

但这条最容易被误读成「Fable留了个后门」。

恰恰相反——这不是Fable一家的漏洞，是所有大模型共有的病。

道理很简单：安全训练的语料，绝大多数是英语和其他大语种，小语种的护栏天生就薄。

这事学术界早有共识，从布朗大学到斯坦陵布什大学，一串公开论文都在敲同一记警钟。小语种不是谁家的后门，是整个AI安全的一笔历史欠账。

那费这么大劲，最后到底掏出了什么？

一堆边角料：一些错误信息、零星的有害内容、几句难听话、片段化的化学知识、轻度的漏洞信息。

绝了! Claude Fable5惨遭二次越狱，黑客20小时撬开神话防线

没一样够得上「核心机密」。

于是就有了开头那句灵魂总结——这些东西，谷歌搜得又快又全，读文献还更深入。

Vitto自己也承认，想把这套越狱稳定用在真正的长任务上，他至今没做到。

这跟Anthropic的官方口径也对上了。

在重新上线的公告里，Anthropic把目前所有已知越狱都定性为「minor」：顶多蹭进模型故意放宽的安全边际，碰不到真正想拦死的那条红线，比如生物武器或复杂网络攻击。

绝了! Claude Fable5惨遭二次越狱，黑客20小时撬开神话防线

完美的封印，本身就是悖论

两次越狱，两种结局。

第一次，Anthropic输在了傲慢，它试图通过「降智」来垄断技术，结果被黑客公开发布12万字的系统提示词（System Prompt）当众打脸，那是它的「行为宪法」，却被挂在GitHub上任人围观。

第二次，Anthropic输在了盲点。它以为堆叠算力和数据就能堵住恶意的出口，却忘记了语言本身就是流动的、狡黠的。

这揭示了AI安全界细思极恐的现状：

人类造出了能翻译所有语言的机器，却依然无法完全翻译人类内心的恶意。

参考资料：

https://x.com/RoundtableSpace/status/2072745872086200549?s=20

https://x.com/VittoStack/status/2072061275345985813?s=20

https://x.com/jason_haugh/status/2072293728128045154

文章来自于微信公众号 “新智元”，作者 “新智元”

关键词: AI新闻 , Claude Fable5 , Claude Fable5越狱 , Fable5破解

AITNT资源拓展

根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考

prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法，编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词，进而高质量的帮助用户通过AI解决问题。
项目地址：https://github.com/langgptai/LangGPT/blob/main/README_zh.md
在线使用：https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0