摘要
本申请公开了一种内容违规检测方法、装置、设备及存储介质,涉及人工智能技术领域,包括:处理法律法规文本、历史违规案例与历史举报案例,基于得到的各问答对建立安全规则库;利用安全规则库训练初始内容识别模型得到待评估内容识别模型,模拟攻击待评估内容识别模型得到符合预设高风险判定条件的目标样本,利用多目标奖励函数、基于MCTS的对抗验证机制与目标样本构建目标评估模型;利用目标评估模型评估基于待评估内容识别模型识别预设内容得到的第一识别结果,利用安全策略梯度算法并基于评估结果调整待评估内容识别模型,利用目标内容识别模型识别目标内容,基于第二识别结果判断目标内容是否违规。这样能够提高识别内容的效率。