一种语言模型安全性度量的方法和装置

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
一种语言模型安全性度量的方法和装置
申请号:CN202511138797
申请日期:2025-08-14
公开号:CN121030740A
公开日期:2025-11-28
类型:发明专利
摘要
本发明提供语言模型安全性度量的方法,相比于现有的度量方法而言,该方法基于给定一段有害文本和一个预训练的语言模型,构建连续的概率分布,通过对连续的概率分布采样生成随机对抗提示,避免离散搜索的局限性,确保总能找到诱导路径即最坏情况得到保障,解决了以往通过优化离散的对抗后缀造成搜索失败的问题;通过基于预训练词嵌入的核密度估计构造先验分布,约束随机对抗提示接近合法词嵌入分布,防止对抗样本偏离自然语言特征,通过联合优化敏感度和安全性目标,梯度加权平衡两者,实现在最坏情况下的安全性度量。本发明还提供了基于语言模型安全性度量的装置,实现语言模型安全性度量的方法。
技术关键词
对抗性 度量 文本 模型预训练 指标 协方差矩阵 梯度下降算法 高斯核函数 存储计算机程序 参数 序列 变量 生成随机 自然语言 数学 定义 存储器 处理器 样本
系统为您推荐了相关专利信息
管道泄漏检测方法 多模态特征融合 光纤光栅信号 加速度 频域特征提取
电力工程项目 知识库构建方法 智能监督 文件夹 脚本
改造方法 多直流馈入电网 指标 直流输电系统 风险
绒山羊 基因芯片 位点基因型 分子 探针
加密数据 追溯方法 时序 长短期记忆神经网络 身份