摘要
本说明书实施例提供多模态特征融合的高品质智能声线编辑方法及装置,其中所述方法包括:根据针对原始音频的音色转换请求,确定所述原始音频对应的原始音色频谱,以及所述音色转换请求对应的目标音色频谱;基于所述音色转换请求确定所述原始音频对应的待调整频段,基于所述待调整频段利用所述目标音色频谱对所述原始音色频谱进行替换,获得音色控制频谱;在所述原始音频对应的初始音频特征中融合所述音色控制频谱,获得目标音频特征,并基于所述目标音频特征生成所述目标音色频谱对应的目标音频。使生成的目标音频能够在提高音频情感表现力效果的前提下,实现更高效、更准确以及更自然的音色转换。