一种基于聚类预处理的大模型文本审核优化方法

申请号：CN202510286755

申请日期：2025-03-12

公开号：CN119807427A

公开日期：2025-04-11

类型：发明专利

摘要

本发明公开了一种基于聚类预处理的大模型文本审核优化方法，涉及自然语言处理技术领域，包括以下步骤：S1、对输入的原始文本数据进行预处理，所述预处理包括：文本清洗、分词、去除停用词和标点符号，生成标准化文本向量，预处理时采用TF‑IDF算法计算文本特征权重，生成高维特征向量矩阵。本发明提出大模型文本审核优化方法通过聚类预处理，将文本划分为具有相似语义或主题内容的簇，并针对每个簇构建专门的审核模型，这使得模型能够更精准地理解文本内容，从而提高了审核的准确率，同时，由于聚类减少了需要处理的数据量，模型的计算效率也得到了显著提升，不断调整聚类中心向量及簇划分规则，实现了模型的闭环优化。

技术关键词

轮廓系数文本聚类样本审核模型动态反馈机制知识蒸馏技术高维特征向量数据自动更新综合评估模型预训练语言模型滑动窗口机制模拟退火算法方差贡献率学生矩阵分词教师噪声强度

系统为您推荐了相关专利信息

胸腔积液标志物在制备预测肿瘤免疫疗效产品中的应用

免疫荧光染色法肿瘤免疫检查点抑制剂恶性胸腔积液医学检测技术

基于深度强化学习的机器人控制优化方法

机器人控制系统样本缓冲池生成动作更新网络参数

奶牛口鼻碳排放量的预测模型与应用

排放量温室气体排放监测荷斯坦奶牛牛奶成分分析

一种用于分类任务的视觉理解模型的通道剪枝方法及应用

通道剪枝方法视觉模型压缩方法分类方法可读存储介质

多模态样本修正方法、系统、机器可读存储介质和处理器

样本文本修正方法图像融合特征