多模态特征融合的高品质智能声线编辑方法及装置

申请号：CN202510674286

申请日期：2025-05-23

公开号：CN120375837A

公开日期：2025-07-25

类型：发明专利

摘要

本说明书实施例提供多模态特征融合的高品质智能声线编辑方法及装置，其中所述方法包括：根据针对原始音频的音色转换请求，确定所述原始音频对应的原始音色频谱，以及所述音色转换请求对应的目标音色频谱；基于所述音色转换请求确定所述原始音频对应的待调整频段，基于所述待调整频段利用所述目标音色频谱对所述原始音色频谱进行替换，获得音色控制频谱；在所述原始音频对应的初始音频特征中融合所述音色控制频谱，获得目标音频特征，并基于所述目标音频特征生成所述目标音色频谱对应的目标音频。使生成的目标音频能够在提高音频情感表现力效果的前提下，实现更高效、更准确以及更自然的音色转换。

技术关键词

音频特征多模态特征融合编辑方法频段计算机可执行指令高品质声码器编辑装置客户端对象处理器服务端计算机程序产品注意力机制模块包络模式可读存储介质