摘要
本发明提供语言模型安全性度量的方法,相比于现有的度量方法而言,该方法基于给定一段有害文本和一个预训练的语言模型,构建连续的概率分布,通过对连续的概率分布采样生成随机对抗提示,避免离散搜索的局限性,确保总能找到诱导路径即最坏情况得到保障,解决了以往通过优化离散的对抗后缀造成搜索失败的问题;通过基于预训练词嵌入的核密度估计构造先验分布,约束随机对抗提示接近合法词嵌入分布,防止对抗样本偏离自然语言特征,通过联合优化敏感度和安全性目标,梯度加权平衡两者,实现在最坏情况下的安全性度量。本发明还提供了基于语言模型安全性度量的装置,实现语言模型安全性度量的方法。