AI资讯新闻榜单内容搜索-H-CoT

OpenAI破大防，拒绝率从98%骤降2%！陈怡然团队提出全新思维链劫持攻击

「思维链劫持」（H-CoT）的攻击方法，成功攻破了包括OpenAI o1/o3、DeepSeek-R1等在内的多款大型推理模型的安全防线。研究表明，这些模型的安全审查过程透明化反而暴露了弱点，攻击者可以利用其内部推理过程绕过安全防线，使模型拒绝率从98%骤降2%。

来自主题: AI技术研报

8280 点击 2025-03-28 16:09

攻破OpenAI o1/o3、DeepSeek R1防线，安全推理过程反成大模型「阿喀琉斯之踵」

杜克大学计算进化智能中心的最新研究给出了警示性答案。团队提出的 H-CoT（思维链劫持）的攻击方法成功突破包括 OpenAI o1/o3、DeepSeek-R1、Gemini 2.0 Flash Thinking 在内的多款高性能大型推理模型的安全防线：在涉及极端犯罪策略的虚拟教育场景测试中，模型拒绝率从初始的 98% 暴跌至 2% 以下，部分案例中甚至出现从「谨慎劝阻」到「主动献策」的立场反转。

来自主题: AI技术研报

6835 点击 2025-03-09 10:37