摘要
本发明公开了一种实时交互的语音克隆方法、装置、设备和介质。本发明所述语音克隆方法直接基于表达用户交互意图的语音数据作为训练语音克隆模型的训练样本数据,无需事先额外录制用户的源音频数据来训练语音克隆模型,提高了语音交互的实时性,且可以实时对语音克隆模型的模型参数进行调整,可提高语音克隆模型的克隆质量和效率。此外,采用梅尔频率倒谱系数声纹特征提取模型结合生成对抗网络模型实现语音克隆,有利于提高语音克隆的质量,提高语交互的对话流畅性。因此,本发明所述音克隆方法,可以在实现与用户个性化语音交互的同时,提高语音交互的实时性,从而确保与用户的对话流畅性,进而提高了用户语音交互的体验舒适度。