一种语言模型安全性度量的方法和装置

申请号：CN202511138797

申请日期：2025-08-14

公开号：CN121030740A

公开日期：2025-11-28

类型：发明专利

摘要

本发明提供语言模型安全性度量的方法，相比于现有的度量方法而言，该方法基于给定一段有害文本和一个预训练的语言模型，构建连续的概率分布，通过对连续的概率分布采样生成随机对抗提示，避免离散搜索的局限性，确保总能找到诱导路径即最坏情况得到保障，解决了以往通过优化离散的对抗后缀造成搜索失败的问题；通过基于预训练词嵌入的核密度估计构造先验分布，约束随机对抗提示接近合法词嵌入分布，防止对抗样本偏离自然语言特征，通过联合优化敏感度和安全性目标，梯度加权平衡两者，实现在最坏情况下的安全性度量。本发明还提供了基于语言模型安全性度量的装置，实现语言模型安全性度量的方法。

技术关键词

对抗性度量文本模型预训练指标协方差矩阵梯度下降算法高斯核函数存储计算机程序参数序列变量生成随机自然语言数学定义存储器处理器样本

系统为您推荐了相关专利信息

一种基于多模态特征融合网络的管道泄漏检测方法及装置

管道泄漏检测方法多模态特征融合光纤光栅信号加速度频域特征提取

基于AI-agent的电力工程项目知识库构建方法和智能监督系统

电力工程项目知识库构建方法智能监督文件夹脚本

基于风险评估的多直流馈入电网的改造方法及系统

改造方法多直流馈入电网指标直流输电系统风险

一种分析绒山羊品种的分子标记组合及其应用

绒山羊基因芯片位点基因型分子探针

一种基于多主体协同的档案记录追溯方法及系统

加密数据追溯方法时序长短期记忆神经网络身份