语音转换方法以及装置

申请号：CN202511242460

申请日期：2025-09-01

公开号：CN120954387A

公开日期：2025-11-14

类型：发明专利

摘要

本申请公开了一种语音转换方法以及装置，方法包括：将帧级声学特征序列与音素级文本特征序列对齐，以生成关注内容信息的音素级声学特征序列；基于音素级文本特征序列、音素级声学特征序列、目标对象标识，生成同时携带内容和声学信息的音素级隐变量序列；将音素级隐变量序列输入训练好的时长预测网络，得到与音素级隐变量序列对应的预测时长序列；基于预测时长序列对音素级隐变量序列中各个音素级隐变量进行时长拓展，得到帧级隐变量序列；基于帧级隐变量序列生成与目标对象标识对应的目标音频；本申请既能保留源音频的情感，不泄露音色，又能生成更接近目标说话人韵律和音色的音频。

技术关键词

声学特征序列变量文本语音转换方法音频标识对象文字特征语音转换装置网络存储计算机程序指令计算机程序产品处理器模块数据语义特征可读存储介质存储器