摘要
本发明提供的基于NL2SQL的大语言模型构建方法以及装置,包括:获取原始数据集,对原始数据集进行预处理,以得到预处理后的原始数据集,确定预处理后的原始数据集中段落之间的逻辑关系,将逻辑关系相同的段落进行合并,以得到合并之后的数据集,提取合并之后的数据集中的关键信息,基于关键信息,构建训练数据集,其中,训练数据集包括多个问题以及每个问题对应的SQL语句,基于训练数据集,对大语言模型进行训练,以得到训练后的大语言模型。通过分析原始数据集中段落之间的逻辑关系,精简段落并提高提取短路中关键信息的效率。基于关键信息构建训练数据集,有效提升NL2SQL的准确性,降低数据集构建的难度,增强系统的实用性。