摘要
本申请涉及人工智能安全技术领域,公开了一种大语言模型安全优化方法、装置、设备及介质,包括:获取攻击任务数据集;其中,所述攻击任务数据集包括至少一种攻击任务类型和所述攻击任务类型下的多个恶意指令数据;根据所述恶意指令数据生成所述攻击任务类型对应的通用词级对抗后缀,并根据所述通用词级对抗后缀生成所述恶意指令数据对应的目标词级对抗后缀;基于所述目标词级对抗后缀对所述大语言模型进行第一次微调,得到第一微调模型;基于获取到的目标语义级对抗提示对所述第一微调模型进行第二次微调,得到第二微调模型。本申请能够提升大语言模型对各种已知和未知形式的越狱攻击的抵御能力。