可攻可防,越狱成功率近90%!六大主流模型全中招 | EMNLP'25
可攻可防,越狱成功率近90%!六大主流模型全中招 | EMNLP'25聚焦大型语言模型(LLMs)的安全漏洞,研究人员提出了全新的越狱攻击范式与防御策略,深入剖析了模型在生成过程中的注意力变化规律,为LLMs安全研究提供了重要参考。论文已被EMNLP2025接收
来自主题: AI技术研报
6327 点击 2025-10-27 10:25
搜索
聚焦大型语言模型(LLMs)的安全漏洞,研究人员提出了全新的越狱攻击范式与防御策略,深入剖析了模型在生成过程中的注意力变化规律,为LLMs安全研究提供了重要参考。论文已被EMNLP2025接收