基于大语言模型的训练语料生成方法、装置、介质及设备
申请号:CN202510990670
申请日期:2025-07-17
公开号:CN120509494B
公开日期:2025-10-24
类型:发明专利
摘要
一种基于大语言模型的训练语料生成方法、装置、介质及设备,涉及大模型、智能体及人工智能领域,方法包括:将获取的第一错误样本、执行环境和自然语言问题样例输入第二大语言模型,得到用于数据查询的第一自然语言问题及对应的第一结构化查询语句,并基于第一自然语言问题和第一结构化查询语句,得到用于训练第一大语言模型的训练语料。由此可以实现训练语料的自动生成,一方面可以增加训练语料的数量,降低训练语料枯竭的风险,从而在模型训练需求增加的情况下更好的满足模型训练需求;另一方面,可以减少人为参与,提高训练语料的生成效率和质量稳定性。
技术关键词
结构化查询语句
大语言模型
自然语言
语料生成方法
样本
查询关键词
语料生成装置
数据字
查询数据表
存储装置
标签
计算机程序产品
定义
介质
电子设备
模块
字段
处理器