音频生成方法、深度学习模型的训练方法和装置

申请号：CN202511341071

申请日期：2025-09-18

公开号：CN120977339A

公开日期：2025-11-18

类型：发明专利

摘要

本公开提供了一种音频生成方法、深度学习模型的训练方法和装置，涉及人工智能技术领域，尤其涉及深度学习、对比学习和计算机视觉技术领域。具体实现方案为：响应于针对视频中的目标对象的交互式选择操作，提取目标对象在视频的各个视频帧中的视觉特征；根据视觉特征，生成与目标对象的动作相匹配的初始音频；以及根据目标对象在视频的各个视频帧中的画面占比，调整初始音频的音量，得到目标音频。

技术关键词

深度学习模型视觉特征对象音频生成方法样本音频特征音视频画面计算机视觉技术人工智能技术计算机程序产品模块训练装置电子设备处理器通信生成装置