歌声转换系统的训练方法、生成音频的方法及相关装置

申请号：CN202510235997

申请日期：2025-02-28

公开号：CN119993117B

公开日期：2025-11-14

类型：发明专利

摘要

本发明实施例提供了一种歌声转换系统的训练方法、基于歌声转换系统生成音频的方法及相关装置，用于提升合成后歌声的音色与待转换歌声音色之间的相似度。本发明实施例方法包括：获取第一目标音色的多条参考音频，将多条参考音频输入至音色编码器，得到音色编码向量；将待转换歌声的音素后验概率和基频输入至文本编码器，得到待转换歌声内容的先验分布参数；根据先验分布参数进行采样，得到待转换歌声内容的文本采样值向量；将文本采样值向量和音色编码向量输入至音色感知注意力机制模块，以确定新音色编码向量；将新音色编码向量作为歌声转换系统中所增加的新输入，计算歌声转换系统的重构损失，根据重构损失对歌声转换系统进行训练。

技术关键词

编码向量文本编码器音素后验概率多头注意力机制音频解码器传播算法重构线性上采样语音编码器模块参数计算机装置计算机程序产品处理器

系统为您推荐了相关专利信息

一种新型的基于对比学习和模态互助的讽刺检测方法及系统

文本编码器信息数据处理终端多模态特征样本注意力

对话数据生成方法和装置、电子设备及存储介质

文本段落数据生成方法对话生成模型摘要注意力

一种语音合成方法、装置、电子设备及存储介质

语义特征解码模型语音文本注意力

一种基于随机场与深度学习的多源数据地层分层预测方法

分层多头注意力机制多任务深度学习模型力学蒙特卡洛

一种基于多模态特征融合的抑郁检测方法及装置

音频特征多模态特征融合视频抑郁热力图