一种基于大语言模型的自动化NL2SQL数据集构建方法及系统

申请号：CN202510677331

申请日期：2025-05-26

公开号：CN120631915A

公开日期：2025-09-12

类型：发明专利

摘要

本发明公开了一种基于大语言模型的自动化NL2SQL数据集构建方法及系统，包括业务导向的SQL查询数据采集；通过渠道采集业务相关的SQL查询语句，采用数据预处理技术，对所获取的SQL样本进行清洗规范；基于大语言模型的NL2SQL数据生成；使用大语言模型生成自然语言与SQL之间的映射对，通过具体的业务问题和表连接方式，反向推导生成对应的自然语言描述，实现SQL到自然语言的转换过程；NL2SQL数据集质量优化；面向私有化部署的数据集动态更新。本发明通过引入自动化的SQL样本生成机制与多维质量控制流程，显著降低人工干预，提升数据集的多样性和准确性。

技术关键词

数据集构建方法大语言模型数据预处理技术 SQL语法生成自然语言样本语句动态更新数据库结构自然语言解析技术数据库审计数据库执行计划校验模块查询意图深层语义分析敏感信息脱敏