摘要
本发明公开了一种基于文本重建及词序语义特征的隐写文本检测技术,属于信息隐藏技术领域。本发明方法包括:选取包含社交平台发言、新闻文稿和影评三种领域的开源英文隐写文本数据集;对于数据集内非隐写文本句子中的单词进行随机打乱,送入大语言模型进行重构训练,重构的训练目标为原文本;再将数据集文本随机打乱,输入训练后的模型生成重构文本。最终,将原文本、打乱文本和重构文本输入隐写检测模型,计算余弦相似度矩阵,经CNN提取语义差异特征图后展平,拼接原文本语义向量,输入分类器输出二元检测结果。通过不断训练,使得模型的分类器输出结果与真实标注结果误差不断缩小,进而优化特征提取器和分类器的参数,提高模型隐写检测准确率。本发明利用了语义信息和词序特征进行分类,具备高准确性、低成本和良好的可解释性,能够有效检测隐写文本,提高信息安全性。