歌声转换系统的训练方法、生成音频的方法及相关装置

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
歌声转换系统的训练方法、生成音频的方法及相关装置
申请号:CN202510235997
申请日期:2025-02-28
公开号:CN119993117B
公开日期:2025-11-14
类型:发明专利
摘要
本发明实施例提供了一种歌声转换系统的训练方法、基于歌声转换系统生成音频的方法及相关装置,用于提升合成后歌声的音色与待转换歌声音色之间的相似度。本发明实施例方法包括:获取第一目标音色的多条参考音频,将多条参考音频输入至音色编码器,得到音色编码向量;将待转换歌声的音素后验概率和基频输入至文本编码器,得到待转换歌声内容的先验分布参数;根据先验分布参数进行采样,得到待转换歌声内容的文本采样值向量;将文本采样值向量和音色编码向量输入至音色感知注意力机制模块,以确定新音色编码向量;将新音色编码向量作为歌声转换系统中所增加的新输入,计算歌声转换系统的重构损失,根据重构损失对歌声转换系统进行训练。
技术关键词
编码向量 文本编码器 音素后验概率 多头注意力机制 音频 解码器 传播算法 重构 线性 上采样 语音 编码器模块 参数 计算机装置 计算机程序产品 处理器
系统为您推荐了相关专利信息
文本编码器 信息数据处理终端 多模态特征 样本 注意力
文本段落 数据生成方法 对话生成模型 摘要 注意力
语义特征 解码模型 语音 文本 注意力
分层 多头注意力机制 多任务深度学习模型 力学 蒙特卡洛
音频特征 多模态特征融合 视频 抑郁 热力图