基于韵律预测的情感语音转换方法、装置、设备及介质

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
基于韵律预测的情感语音转换方法、装置、设备及介质
申请号:CN202411387283
申请日期:2024-09-30
公开号:CN119207371A
公开日期:2024-12-27
类型:发明专利
摘要
本发明涉及人工智能技术领域和金融科技领域,公开了一种基于韵律预测的情感语音转换方法,通过提取输入的文本数据和源音频数据中的音素序列、声学特征和情感维度表示,利用文本编码器提取语言信息,基于语言信息和情感维度表示生成帧级韵律变化和文本韵律表示。结合说话人特征和情感维度表示生成声学韵律表示,通过对齐文本韵律表示和声学韵律表示计算对齐损失,联合训练韵律预测模块和声学建模模块,生成综合韵律表示,最终生成转换后的语音波形并通过判别器评估,基于综合损失优化各模块参数,生成目标情感语音。本发明通过隐式建模实现了对韵律细粒度的精准控制,避免了训练与运行时不匹配的问题,从而大幅提高了语音的自然度和情感丰富度。
技术关键词
韵律预测 情感语音转换方法 声学特征 文本编码器 语音转换装置 波形 节奏特征 音频 特征提取模块 情感识别模型 数据 短时傅里叶变换 融合特征 序列 高层次 计算机设备
系统为您推荐了相关专利信息
时间序列特征 多层感知机 语音信号处理技术 声学特征 语义特征
模型迁移方法 痤疮 特征提取器 文本编码器 分类准确率
消化内镜 上消化道内窥镜检查 报告生成方法 大语言模型 图像
呼吸机管路 动态稳定系统 波动特征 效能数据 特征量化参数
多模态 转换方法 风格 结构先验信息 光学图像数据