一种基于大语言模型的自动化NL2SQL数据集构建方法及系统
申请号:CN202510677331
申请日期:2025-05-26
公开号:CN120631915A
公开日期:2025-09-12
类型:发明专利
摘要
本发明公开了一种基于大语言模型的自动化NL2SQL数据集构建方法及系统,包括业务导向的SQL查询数据采集;通过渠道采集业务相关的SQL查询语句,采用数据预处理技术,对所获取的SQL样本进行清洗规范;基于大语言模型的NL2SQL数据生成;使用大语言模型生成自然语言与SQL之间的映射对,通过具体的业务问题和表连接方式,反向推导生成对应的自然语言描述,实现SQL到自然语言的转换过程;NL2SQL数据集质量优化;面向私有化部署的数据集动态更新。本发明通过引入自动化的SQL样本生成机制与多维质量控制流程,显著降低人工干预,提升数据集的多样性和准确性。
技术关键词
数据集构建方法
大语言模型
数据预处理技术
SQL语法
生成自然语言
样本
语句
动态更新
数据库结构
自然语言解析技术
数据库审计
数据库执行计划
校验模块
查询意图
深层语义分析
敏感信息脱敏