摘要
本发明提供一种语音合成方法、装置、电子设备和存储介质,涉及语音技术领域,其中方法包括:将获取的待合成文本和情感属性输入语音合成模型中,得到语音合成模型输出的目标语音;其中,语音合成模型为基于第一样本语音对应的第一样本文本和第一样本语音对应的第一样本情感特征训练得到的,第一样本情感特征为将第一样本语音输入情感编码模型后得到的,情感编码模型为基于目标编码和第二样本情感特征的最小互信息损失训练得到的。本发明能够基于最小互信息损失训练得到情感编码模型,以使情感编码模型输出的情感特征中不包括音色和文本内容等不相关信息,使得语音合成模型能够实现对细粒度情感的控制,提高了语音合成的控制力。