AI资讯新闻榜单内容搜索-思维链劫持

AI越会思考，越容易被骗？「思维链劫持」攻击成功率超过90%

独立研究者 Jianli Zhao 等人近日的一项新研究发现，通过在有害请求前填充一长串无害的解谜推理序列（harmless puzzle reasoning），就能成功对推理模型实现越狱攻击。他们将这种方法命名为思维链劫持（Chain-of-Thought Hijacking）。

来自主题: AI技术研报

9684 点击 2025-11-04 10:27

OpenAI破大防，拒绝率从98%骤降2%！陈怡然团队提出全新思维链劫持攻击

「思维链劫持」（H-CoT）的攻击方法，成功攻破了包括OpenAI o1/o3、DeepSeek-R1等在内的多款大型推理模型的安全防线。研究表明，这些模型的安全审查过程透明化反而暴露了弱点，攻击者可以利用其内部推理过程绕过安全防线，使模型拒绝率从98%骤降2%。

来自主题: AI技术研报

8091 点击 2025-03-28 16:09

攻破OpenAI o1/o3、DeepSeek R1防线，安全推理过程反成大模型「阿喀琉斯之踵」

杜克大学计算进化智能中心的最新研究给出了警示性答案。团队提出的 H-CoT（思维链劫持）的攻击方法成功突破包括 OpenAI o1/o3、DeepSeek-R1、Gemini 2.0 Flash Thinking 在内的多款高性能大型推理模型的安全防线：在涉及极端犯罪策略的虚拟教育场景测试中，模型拒绝率从初始的 98% 暴跌至 2% 以下，部分案例中甚至出现从「谨慎劝阻」到「主动献策」的立场反转。

来自主题: AI技术研报

6631 点击 2025-03-09 10:37