一种大语言模型安全优化方法、装置、设备及介质

申请号：CN202411029274

申请日期：2024-07-30

公开号：CN118965366A

公开日期：2024-11-15

类型：发明专利

摘要

本申请涉及人工智能安全技术领域，公开了一种大语言模型安全优化方法、装置、设备及介质，包括：获取攻击任务数据集；其中，所述攻击任务数据集包括至少一种攻击任务类型和所述攻击任务类型下的多个恶意指令数据；根据所述恶意指令数据生成所述攻击任务类型对应的通用词级对抗后缀，并根据所述通用词级对抗后缀生成所述恶意指令数据对应的目标词级对抗后缀；基于所述目标词级对抗后缀对所述大语言模型进行第一次微调，得到第一微调模型；基于获取到的目标语义级对抗提示对所述第一微调模型进行第二次微调，得到第二微调模型。本申请能够提升大语言模型对各种已知和未知形式的越狱攻击的抵御能力。

技术关键词

大语言模型指令语义贪婪算法可读存储介质数据获取模块优化装置存储器处理器计算机设备聚类阶梯序列参数