一种基于音频处理模型的音频生成方法和装置

申请号：CN202511374655

申请日期：2025-09-25

公开号：CN120877703B

公开日期：2025-12-05

类型：发明专利

摘要

本发明公开了一种基于音频处理模型的音频生成方法和装置，该方法包括：确定历史音频序列或历史音频序列和当前音频帧文本向量，对历史音频序列进行自回归处理，得到上下文向量序列；其中，历史音频序列由至少两个历史音频帧组成；音频处理模型基于上下文向量序列或上下文向量序列和当前音频帧文本向量，对待处理的随机带噪音频向量进行去噪处理，得到当前音频帧；将当前音频帧加入到历史音频序列末尾，并重复执行确定历史音频序列或历史音频序列和当前音频帧文本向量的步骤，直至完成对全部音频帧的处理。本发明可以基于音频处理模型对流式输入进行处理，实现流式音频生成，提高了音频生成的实时性，同时保证了音频的听感良好。

技术关键词

序列音频生成方法文本编码器音乐人工智能模型样本语音注意力机制噪声生成装置模块通道参数