可攻可防,越狱成功率近90%!六大主流模型全中招 | EMNLP'25 可攻可防,越狱成功率近90%!六大主流模型全中招 | EMNLP'25 关键词: AI,模型训练,AI安全,DTD 聚焦大型语言模型(LLMs)的安全漏洞,研究人员提出了全新的越狱攻击范式与防御策略,深入剖析了模型在生成过程中的注意力变化规律,为LLMs安全研究提供了重要参考。论文已被EMNLP2025接收 来自主题: AI技术研报 4739 点击 2025-10-27 10:25