摘要
本发明适用于音频处理领域,公开了一种实时语音的变音方法、终端设备和存储介质。实时语音的变音方法包括:根据实时对话音频,生成原始语音数据,并根据原始语音数据,确定条件特征、多样性特征、填充数据掩码;根据条件特征、多样性特征、填充数据掩码,确定第一张量信息,并根据原始语音数据,确定说话人嵌入向量;根据第一张量信息、说话人嵌入向量、填充数据掩码,确定第二张量信息;根据第二张量信息、说话人嵌入向量和原始语音数据的音高频率,生成目标音色音频。本发明显著提升了变声过程对原始音色特征的重构精度,使生成语音在音色相似度、语调自然度等感知维度达到类真人水平,提高了实时语音的变音真实性。