大模型数据智能标注方法及系统

申请号：CN202411949511

申请日期：2024-12-27

公开号：CN119378564B

公开日期：2025-04-25

类型：发明专利

摘要

本申请涉及数据标注技术领域，其具体地公开了一种大模型数据智能标注方法及系统，其采用基于深度学习的自然语言处理技术对未标注文本数据集中的各个未标注文本数据进行置信度评估，选择最小置信度对应的文本数据作为代表样本数据，并对所述代表样本数据进行语料扩充，进而，通过对所述代表样本数据和语料扩充后的代表样本数据进行语义特征提取和补偿式交互融合，以充分利用两者之间的共有信息和独特信息，从而实现对所述代表样本数据的全面语义理解和智能标注。通过这种方式，可以显著提高数据标注的效率和准确性，同时大幅度减少人工干预的需求，降低标注成本。

技术关键词

样本代表智能标注方法文本补偿式编码向量特征提取网络扩充模块 Sigmoid函数数据标注技术语义特征提取标注系统大语言模型分类器特征值自然语言