一种基于大语言模型的自动化NL2SQL数据集构建方法及系统

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
一种基于大语言模型的自动化NL2SQL数据集构建方法及系统
申请号:CN202510677331
申请日期:2025-05-26
公开号:CN120631915A
公开日期:2025-09-12
类型:发明专利
摘要
本发明公开了一种基于大语言模型的自动化NL2SQL数据集构建方法及系统,包括业务导向的SQL查询数据采集;通过渠道采集业务相关的SQL查询语句,采用数据预处理技术,对所获取的SQL样本进行清洗规范;基于大语言模型的NL2SQL数据生成;使用大语言模型生成自然语言与SQL之间的映射对,通过具体的业务问题和表连接方式,反向推导生成对应的自然语言描述,实现SQL到自然语言的转换过程;NL2SQL数据集质量优化;面向私有化部署的数据集动态更新。本发明通过引入自动化的SQL样本生成机制与多维质量控制流程,显著降低人工干预,提升数据集的多样性和准确性。
技术关键词
数据集构建方法 大语言模型 数据预处理技术 SQL语法 生成自然语言 样本 语句 动态更新 数据库结构 自然语言解析技术 数据库审计 数据库执行计划 校验模块 查询意图 深层语义分析 敏感信息脱敏