摘要
本申请提供了一种语音转换方法、装置、电子设备及存储介质,包括:对源音频进行内容特征以及基频特征的提取,对目标音频进行说话人特征的提取;将所述内容特征、所述基频特征以及所述说话人特征输入至语音转换模型之中进行联合建模处理、线性映射处理以及波形重建处理,生成语音波形;基于所述语音转换模型中的声码器对所述语音波形进行一维深度分离卷积处理以及多感受野融合处理,生成转换后的语音音频;其中,所述转换后的语音音频表现为将所述源音频的说话风格替换为所述目标音频的说话人风格。利用语音转换模型进行语音转换提高了跨语种语音转换的音色一致性与语义保留能力,提升了重建语音的自然度与清晰度。