摘要
本发明涉及人工智能技术领域和金融科技领域,公开了一种基于韵律预测的情感语音转换方法,通过提取输入的文本数据和源音频数据中的音素序列、声学特征和情感维度表示,利用文本编码器提取语言信息,基于语言信息和情感维度表示生成帧级韵律变化和文本韵律表示。结合说话人特征和情感维度表示生成声学韵律表示,通过对齐文本韵律表示和声学韵律表示计算对齐损失,联合训练韵律预测模块和声学建模模块,生成综合韵律表示,最终生成转换后的语音波形并通过判别器评估,基于综合损失优化各模块参数,生成目标情感语音。本发明通过隐式建模实现了对韵律细粒度的精准控制,避免了训练与运行时不匹配的问题,从而大幅提高了语音的自然度和情感丰富度。