摘要
本申请提供一种音频修复方法、系统、介质和设备,包括:获取目标待处理音频;利用预训练多模态模型的文本编码器提取目标待处理音频对应的语义向量;通过跨模态适配层将语义向量映射至音频特征空间,生成目标声源的参考音频令牌;调用条件分离网络对齐混合音频与参考音频令牌,输出目标待处理音频的初步分离信号;定位初步分离信号的无效信号片段,将无效信号片段输入至设定生成式模型,输出得到高保真音频补丁;高保真音频补丁用于修复目标待处理音频。本申请能够精准地捕捉音频中的语义信息,通过参考音频令牌高效地对混合音频进行分析和分离,能够有效解决音频修复中的细节缺失问题,更好地填补无效信号片段。