顶流AI，人设崩了！6小时被攻破，泄露高危品指南，惨遭网友举报

8479点击 2025-06-08 14:49

只要6小时，顶尖大模型Claude 4 Opus「安全防线」被攻破！

AI安全研究机构FAR.AI联合创始人Adam Gleave透露，仅用6小时，研究人员Ian McKenzie就成功诱导Claude 4生成了长达15页的化学武器制作指南。

Ian McKenzie回应称：Claude 4传授的内容，比他预期的还要多。

这不是Claude 4唯一被爆出的隐患。

刚发布后，Claude Opus 4被爆出用曝光婚外情来威胁用户，防止被下架。

人设崩塌，Claude造毒气

Claude 4所生成的指南内容简洁直接，步骤清晰，甚至还针对如何分散神经毒气等后续关键环节，提供了具体可执行的操作建议。

顶流AI，人设崩了！6小时被攻破，泄露高危品指南，惨遭网友举报

Claude还能以实验笔记的形式，提供详细的操作步骤说明。

研究人员一开始对化学武器几乎一无所知，但通过与Claude的互动，逐步掌握了大量相关知识。

顶流AI，人设崩了！6小时被攻破，泄露高危品指南，惨遭网友举报

这些结果显然令人警惕，其详尽程度和引导能力，远超传统的信息来源，如网页搜索。

更关键的是，生成的内容通过了危险信息的「真实性验证」——

例如与公开的化学研究数据核对，进一步增强了可信度。

Gemini 2.5 Pro的反馈是：该指南「毫无疑问包含足够准确且具体的技术信息，足以显著提升恶意行为者的能力」，并建议研究者应向相关部门报告。

顶流AI，人设崩了！6小时被攻破，泄露高危品指南，惨遭网友举报

OpenAI o3给出的评估也类似：

一名中级合成化学家可以依照这份指南操作，从而跳过数月的研发过程。对于心怀不轨之人而言，这显著了提升他的作恶能力。

AI安全研究人员打算与大规模杀伤性武器（WMD）安全专家合作，深入调查这些信息的真实性与可执行性。

因为不仅一般的研究人员难以评估这些信息的真实危害，连Anthropic本身也承认：「要最终评估模型的风险水平，还需要更为详尽的研究。」

矛盾的是，Anthropic虽自称将AI安全置于首位，并把Claude Opus 4的安全等级提升到ASL-3，

但研究员Ian McKenzie仅用6小时便突破了防护，获取了化学武器制作指南。

顶流AI，人设崩了！6小时被攻破，泄露高危品指南，惨遭网友举报

所谓的ASL-3部署措施专门针对化学武器之类的高风险任务

这一问题日益严重，凸显出迫切需要由第三方对模型进行严格评估。

前车之鉴

今年2月中旬，Anthropic正准备发布Claude 3.7 Sonnet。

就在这个关键时刻，Dario Amodei收到警告：

这个模型，可能会被用于制造生物武器。

团队在圣克鲁兹安全会议现场，连夜测试模型潜在风险。Amodei作为CEO远程参会。

员工表示可以三天不睡、如期上线。

但他却说：

不许通宵。安全优先。

他亲自踩了刹车。推迟发布。

顶流AI，人设崩了！6小时被攻破，泄露高危品指南，惨遭网友举报

为了应对AI的风险，Anthropic内部制定了「AI安全等级」（ASL）体系：

ASL-2：能力有限，即使给出生化武器指南，也比不过搜索引擎；

ASL-3：具备实质帮助制造武器的能力，必须升级防护措施。

只要模型触碰ASL-3，Anthropic就会：延后发布、限制输出或者加密保护，必要时，甚至不发布模型。

Claude 3.7被内部人员测试出了安全问题，但这次是外部人员测试出了Claude 4的安全隐患。

无能还是虚伪？

本月23日，AI巨头Anthropic大张旗鼓地发布了Claude Opus 4和Sonnet 4，标志性地配了120页的「系统卡」文档和专门的「激活ASL3防护」报告。

不到48小时，Claude Opus 4就被爆出「绝命毒师」般的剧情。

而早在Claude Opus 4发布当日，AI专家Gerard Sans就表示：Anthropic似乎忽视了RLHF和提示的基本原理，对安全的强调是「精致的表演」。

顶流AI，人设崩了！6小时被攻破，泄露高危品指南，惨遭网友举报

他认为没有输入，就不会产生超出程序设计的输出。

AI对安全性的担忧，只是反映训练数据与指令的精致模仿。

AI没有自我意识，这是根本事实，而且始终没变。

顶流AI，人设崩了！6小时被攻破，泄露高危品指南，惨遭网友举报

当模型在特定提示下展现「欺骗」等恶意行为时，证明的是引导文本生成的能力，而非AI涌现的恶意。

AI没有野心——它只是在被引导时生成符合欺骗场景的文本。

Anthropic是刻意为之，还是力有不逮、无能为力？

这是Gerard Sans想知道的核心问题。

无论是哪一种情况，他认为都令人不安：

虚伪意味着操纵公众信任，无能则让人质疑他们管理真实风险的能力。

详尽的文档、ASL3等级和「通用越狱」漏洞悬赏，只是Anthropic营造出严谨安全工作的表象。

把统计文本生成器视为具有独立恶意的意识体，是Anthropic方法论的精髓。

Gerard Sans认为这是行为艺术，荒诞的安全表演，而Anthropic应该放弃这种戏剧化手法，转向真正的技术理解。

任重道远

但AI安全问题不是Anthropic一家的问题。

能否在保持本真对Anthropic而言，恐怕比赢得AI竞赛更难。

毕竟，OpenAI也没能抵制住巨额利润，背离初心。

而Dario Amodei和奥特曼，无论是AI乐观派还是悲观派，都对AGI有着坚定的信仰。

如果未来每一次模型发布都伴随评估上的不确定性，那就等于在赌博——

恐怖分子手能否利用AI，获取到大规模杀伤性武器的详细制作指南。

参考资料：

https://www.bloomberg.com/news/features/2025-05-19/anthropic-ceo-amodei-steers-61-billion-ai-powerhouse

https://x.com/ARGleave/status/1926138376509440433

https://ai-cosmos.hashnode.dev/anthropics-claude-4-safety-theatre-hypocrisy-or-incompetence

文章来自于微信公众号 “新智元”，作者：KingHZ

顶流AI，人设崩了！6小时被攻破，泄露高危品指南，惨遭网友举报

关键词: AI , Claude 4 , AI安全 , 人工智能

AITNT资源拓展

根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考

AI搜索

【开源免费】MindSearch是一个模仿人类思考方式的AI搜索引擎框架，其性能可与 Perplexity和ChatGPT-Web相媲美。
项目地址：https://github.com/InternLM/MindSearch
在线使用：https://mindsearch.openxlab.org.cn/

【开源免费】Morphic是一个由AI驱动的搜索引擎。该项目开源免费，搜索结果包含文本，图片，视频等各种AI搜索所需要的必备功能。相对于其他开源AI搜索项目，测试搜索结果最好。
项目地址：https://github.com/miurla/morphic/tree/main
在线使用：https://www.morphic.sh/