一种内容违规检测方法、装置、设备及存储介质

申请号：CN202510825463

申请日期：2025-06-19

公开号：CN120670598A

公开日期：2025-09-19

类型：发明专利

摘要

本申请公开了一种内容违规检测方法、装置、设备及存储介质，涉及人工智能技术领域，包括：处理法律法规文本、历史违规案例与历史举报案例，基于得到的各问答对建立安全规则库；利用安全规则库训练初始内容识别模型得到待评估内容识别模型，模拟攻击待评估内容识别模型得到符合预设高风险判定条件的目标样本，利用多目标奖励函数、基于MCTS的对抗验证机制与目标样本构建目标评估模型；利用目标评估模型评估基于待评估内容识别模型识别预设内容得到的第一识别结果，利用安全策略梯度算法并基于评估结果调整待评估内容识别模型，利用目标内容识别模型识别目标内容，基于第二识别结果判断目标内容是否违规。这样能够提高识别内容的效率。

技术关键词

违规检测方法验证机制梯度算法文本高风险样本解析工具行业知识图谱特征描述信息意图类别离线历史数据场景类别自然语言解析强化学习技术强化学习框架语义特征实体合规性语义场景