结合语言模型与生成模型的两阶段结构化数据生成方法

申请号：CN202510300766

申请日期：2025-03-14

公开号：CN120145117A

公开日期：2025-06-13

类型：发明专利

摘要

本发明提供一种结合语言模型与生成模型的两阶段结构化数据生成方法，引入信息熵的概念对原始数据的所有特征进行分类，然后，在第一阶段通过生成模型来生成低熵合成数据，在第二阶段用原始数据对语言模型进行微调，并将第一阶段生成的低熵合成数据作为上文输入微调后的语言模型，从而让语言模型更好地生成高熵合成数据。也即，该方法结合了语言模型与生成模型的优点，并利用语言模型天然地可以学习并使用上下文信息的特点，提升了结构化数据生成的效果。该方法适用于任何特征条件的结构化数据集，生成的数据集可以替代原始数据集作为训练数据，应用于其他下游任务，避免了由于数据安全与隐私保护问题、样本数量过少的问题导致的下游模型训练困难。

技术关键词

编码后数据信息熵高斯混合模型阶段模式数据解码特征值统计特征令牌数据安全文本序列表格概念格式样本