摘要
本发明公开了一种基于聚类预处理的大模型文本审核优化方法,涉及自然语言处理技术领域,包括以下步骤:S1、对输入的原始文本数据进行预处理,所述预处理包括:文本清洗、分词、去除停用词和标点符号,生成标准化文本向量,预处理时采用TF‑IDF算法计算文本特征权重,生成高维特征向量矩阵。本发明提出大模型文本审核优化方法通过聚类预处理,将文本划分为具有相似语义或主题内容的簇,并针对每个簇构建专门的审核模型,这使得模型能够更精准地理解文本内容,从而提高了审核的准确率,同时,由于聚类减少了需要处理的数据量,模型的计算效率也得到了显著提升,不断调整聚类中心向量及簇划分规则,实现了模型的闭环优化。