Meta AI推出FoleyGen，用视频生成音频

8361点击 2023-09-21 09:42

最近的音乐生成技术的进步受到大型深度学习模型和大量数据集的发展的刺激。

然而,视频到音频(V2A)生成的任务仍然是一项挑战,主要是因为高维度视觉和听觉数据之间的复杂关系,以及与时间同步的挑战。

Meta AI 近日发表一篇论文，推出了一个名为 FoleyGen 的音频生成系统，则解决了这个问题。

FoleyGen利用现有的神经网络音频编码器,双向转换波形数据和离散元。一个Transformer模型可以帮助生成音频元,该模型基于从视觉编码器提取的视觉特征进行条件训练。

V2A生成的普遍问题是如何将生成的音频与视频中的可见行动对齐。

为了解决这个问题,我们探索了三种新的视觉注意力机制。我们还对多个视觉编码器进行了详尽的评估,每个都预先训练了单一modal或多modal任务。

在VGG声音数据集上的实验结果表明,我们提出的FoleyGen在所有客观指标和人类评估方面都胜过了以前的系统。

Meta AI推出FoleyGen，用视频生成音频

该项目在github上有详细的视频介绍，感兴趣的朋友可以去看下。