一种提高向量检索性能的文本数据增强方法

申请号：CN202510139067

申请日期：2025-02-08

公开号：CN119961436B

公开日期：2025-08-26

类型：发明专利

摘要

本发明提供了一种提高向量检索性能的文本数据增强方法，属于计算机数据分析领域。该方法首先使用大语言模型的提示模板对长文本数据进行压缩处理，将其分解为若干条短文本；在训练过程中，这些短文本将替换原来的长文本被用作训练数据，从而节约单条信息占用的显存大小；为应对文本长度缩短可能导致的表示能力下降问题，本发明通过组合来源于同一长文本的多条短文本构建出指引向量，并将指引向量作为辅助信息指导单个短文本的编码过程。通过这种方式，本发明能够有效地减少文本缩短对模型表示能力的不利影响，从而在使用更短的单条信息的前提下，提升模型的训练效果和泛化能力。

技术关键词

文本大语言模型数据预训练模型格式训练集长度缩短语义指标关系标签检查点超参数模板编码器聚类计算机标记指令