一种提高向量检索性能的文本数据增强方法

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
一种提高向量检索性能的文本数据增强方法
申请号:CN202510139067
申请日期:2025-02-08
公开号:CN119961436B
公开日期:2025-08-26
类型:发明专利
摘要
本发明提供了一种提高向量检索性能的文本数据增强方法,属于计算机数据分析领域。该方法首先使用大语言模型的提示模板对长文本数据进行压缩处理,将其分解为若干条短文本;在训练过程中,这些短文本将替换原来的长文本被用作训练数据,从而节约单条信息占用的显存大小;为应对文本长度缩短可能导致的表示能力下降问题,本发明通过组合来源于同一长文本的多条短文本构建出指引向量,并将指引向量作为辅助信息指导单个短文本的编码过程。通过这种方式,本发明能够有效地减少文本缩短对模型表示能力的不利影响,从而在使用更短的单条信息的前提下,提升模型的训练效果和泛化能力。
技术关键词
文本 大语言模型 数据 预训练模型 格式 训练集 长度缩短 语义 指标 关系 标签 检查点 超参数 模板 编码器 聚类 计算机 标记 指令