摘要
本发明涉及大语言模型安全防护与对抗攻击领域领域,提出一种面向大语言模型抽取攻击的防御反击方法及系统,通过用户行为分析划分用户群体,以精准匹配应对策略,避免影响正常用户的使用体验,再通过针对性的内容处理策略,确保授信用户获得完整、准确的模型响应,保障其使用体验不受影响的同时,有效抑制可疑用户的攻击行为,并对恶意用户进行准确有效的防御和反击,又通过动态调节进行用户群体的更新,避免出现误判,增强了抗干扰能力和自修正能力,最后通过对完整周期的检测防护,持续进行防御反击,进一步的提高了保护的可靠性,本发明提高了面向大语言模型抽取攻击的防御反击的有效性和准确性。