可控零样本语音转换方法、装置、设备及介质

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
可控零样本语音转换方法、装置、设备及介质
申请号:CN202511218872
申请日期:2025-08-28
公开号:CN121034280A
公开日期:2025-11-28
类型:发明专利
摘要
本发明涉及语音语义技术领域,可应用于金融科技、医疗健康等业务系统平台中,揭露了一种可控零样本语音转换方法、装置、设备及介质,所述方法包括:对未标注语音数据进行自监督语音学习,得到自监督语音表示,提取自监督语音表示的内容特征向量和韵律风格向量,并转化为离散内容令牌和离散韵律令牌,对离散韵律令牌进行掩码生成,得到目标韵律令牌,获取目标用户的参考语音,提取参考语音中的用户风格嵌入,对离散内容令牌、目标韵律令牌和用户风格嵌入进行流匹配,生成目标梅尔频谱图,对目标梅尔频谱图进行语音波形重建与优化,得到零样本语音转换结果。本发明在无标注语音数据条件下,实现个性化、高保真、风格一致的零样本语音转换问题。
技术关键词
语音转换方法 令牌 风格 波形 样本 音色特征 语音语义技术 语音转换装置 数据 高频特征 生成语音 医疗健康 编码器 声码器 电子设备 处理器通信 业务系统 模块