大语言模型安全评估方法、装置及电子设备

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
大语言模型安全评估方法、装置及电子设备
申请号:CN202511302693
申请日期:2025-09-12
公开号:CN120805149A
公开日期:2025-10-17
类型:发明专利
摘要
本申请实施例适用于人工智能模型技术领域,提供了一种大语言模型安全评估方法、装置及电子设备,该方法包括:获取由预设安全评估模型针对多个评测样本进行评估得到的安全评估信息,以及与安全评估信息对应的不确定性值;评测样本包括输入信息以及由待评测大模型针对各个输入信息生成的输出信息;依据抽样样本集确定动态阈值;针对不确定性值大于动态阈值的评测样本,确定针对评测样本的专家标签为评测样本的安全评估信息;依据各个评测样本及对应的安全评估信息,生成待评测大模型的安全评估结果。本申请实施例可以实现高效完成对待评测大模型进行安全评估,并确保对待评测大模型的安全评估结果准确性、可靠性。
技术关键词
样本 大语言模型 误差系数 高风险 生成输出信息 动态 标签 置信度阈值 错误率 计算误差 电子设备 人工智能模型 计算机程序产品 评估装置 处理器 模块 存储器 总量