摘要
本申请公开了一种语音转换方法以及装置,方法包括:将帧级声学特征序列与音素级文本特征序列对齐,以生成关注内容信息的音素级声学特征序列;基于音素级文本特征序列、音素级声学特征序列、目标对象标识,生成同时携带内容和声学信息的音素级隐变量序列;将音素级隐变量序列输入训练好的时长预测网络,得到与音素级隐变量序列对应的预测时长序列;基于预测时长序列对音素级隐变量序列中各个音素级隐变量进行时长拓展,得到帧级隐变量序列;基于帧级隐变量序列生成与目标对象标识对应的目标音频;本申请既能保留源音频的情感,不泄露音色,又能生成更接近目标说话人韵律和音色的音频。