语音数据集的生成方法及装置

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
语音数据集的生成方法及装置
申请号:CN202511340288
申请日期:2025-09-18
公开号:CN120877702B
公开日期:2025-12-23
类型:发明专利
摘要
本申请公开了一种语音数据集的生成方法及装置。其中,该方法包括:获取标准通用语言的语音数据集,并采用大语言模型将标准通用语言的语音数据集转化为目标语种文本;采用检索增强生成的方式生成目标语种语句文本;根据目标语种文本和目标语种语句文本生成目标语种语音,并根据目标语种语音构建目标语音数据集,其中,目标语种语音的语音特征与和标准通用语言语音数据集的语音特征一致。本申请解决了相关技术中由于目标语种语音数据库的语音数据量较少,导致翻译模型翻译目标语种的准确性较低。
技术关键词
语音特征 文本 语音生成模型 大语言模型 生成方法 语句主题 数据 错误率 存储程序指令 翻译模型 计算机程序产品 存储器 生成装置 处理器 计算机设备 字符 音频