基于韵律预测的情感语音转换方法、装置、设备及介质

申请号：CN202411387283

申请日期：2024-09-30

公开号：CN119207371A

公开日期：2024-12-27

类型：发明专利

摘要

本发明涉及人工智能技术领域和金融科技领域，公开了一种基于韵律预测的情感语音转换方法，通过提取输入的文本数据和源音频数据中的音素序列、声学特征和情感维度表示，利用文本编码器提取语言信息，基于语言信息和情感维度表示生成帧级韵律变化和文本韵律表示。结合说话人特征和情感维度表示生成声学韵律表示，通过对齐文本韵律表示和声学韵律表示计算对齐损失，联合训练韵律预测模块和声学建模模块，生成综合韵律表示，最终生成转换后的语音波形并通过判别器评估，基于综合损失优化各模块参数，生成目标情感语音。本发明通过隐式建模实现了对韵律细粒度的精准控制，避免了训练与运行时不匹配的问题，从而大幅提高了语音的自然度和情感丰富度。

技术关键词

韵律预测情感语音转换方法声学特征文本编码器语音转换装置波形节奏特征音频特征提取模块情感识别模型数据短时傅里叶变换融合特征序列高层次计算机设备

系统为您推荐了相关专利信息

一种用户情绪感知的方法、装置、设备、介质和产品

时间序列特征多层感知机语音信号处理技术声学特征语义特征

一种基于大模型的痤疮分级模型迁移方法

模型迁移方法痤疮特征提取器文本编码器分类准确率

基于多模态大语言模型的消化内镜报告生成方法及装置

消化内镜上消化道内窥镜检查报告生成方法大语言模型图像

基于机械智能的呼吸机管路动态稳定系统

呼吸机管路动态稳定系统波动特征效能数据特征量化参数

一种基于多模态条件扩散模型的SAR图像到光学图像转换方法

多模态转换方法风格结构先验信息光学图像数据