一个模型，搞定所有音频生成任务！多项基准SOTA

一个模型，搞定所有音频生成任务！多项基准SOTA | ICLR'26

7494点击 2026-03-09 14:29

港科大团队提出音频生成统一模型AudioX，只需一个模型，就能从文本、视频、图像等任意模态生成高质量音效和音乐，在多项基准上超越专家模型。团队同时开源了700万样本的细粒度标注数据集IF-caps与可控T2A评测基准T2A-bench，并在该基准上大幅领先现有方法。论文已被ICLR 2026接收。

当前音频生成领域面临的一大挑战是模型碎片化：文本生成音效、视频配音、音乐生成分别依赖不同的专用模型，任务间的知识无法共享，泛化能力受限。

香港科技大学郭毅可院士团队最新提出的AudioX则将这些能力统一到一个模型中。

具体来说，AudioX基于Diffusion Transformer（DiT）架构，并提出了轻量级的多模态自适应融合（MAF）模块，支持文本、视频、图像、音频等多种模态的灵活组合输入，可以完成包括文本生成音效（T2A）、文本生成音乐（T2M）、视频配音（V2A）、视频配乐（V2M）、音频修复（Audio Inpainting）、音乐续写（Music Completion）在内的多种任务。

在AudioCaps、MusicCaps、V2M-bench等多个权威基准上，AudioX在多个任务上达到了SOTA。

一个模型，搞定所有音频生成任务！多项基准SOTA | ICLR'26

论文链接：https://arxiv.org/pdf/2503.10522

项目主页：https://zeyuet.github.io/AudioX/

开源链接：https://huggingface.co/collections/HKUSTAudio/audiox

更值得关注的是AudioX在细粒度可控生成上的表现。在团队自建的T2A-bench以及AudioTime两个指令跟随基准上，AudioX在所有评测维度上全面领先现有方法，展现出卓越的可控生成能力。

一个模型，搞定所有音频生成任务！多项基准SOTA | ICLR'26

AudioX框架图

目前AudioX项目已开源，包括代码、模型权重和数据集。项目在GitHub上已获得超过1.2k Star，并一度登顶Hugging Face音频生成模型排行榜。

一个模型，搞定所有音频生成任务！多项基准SOTA | ICLR'26

T2A效果展示

文字 → 音效（T2A）：输入一段文字描述，AudioX即可生成对应的音效，并支持对声音事件的类别、数量、时序和时间戳的精准控制。

一个模型，搞定所有音频生成任务！多项基准SOTA | ICLR'26

Thunder and rain during a sad piano solo

一个模型，搞定所有音频生成任务！多项基准SOTA | ICLR'26

Footsteps followed by rapid gunshots and people speaking.

一个模型，搞定所有音频生成任务！多项基准SOTA | ICLR'26

A toilet flush occurs from 1.616 to 4.458 seconds, followed by a rumble between 6.044 and 10 seconds.

一个模型，搞定所有音频生成任务！多项基准SOTA | ICLR'26

A machine gun fires twice, followed by a period of silence, then the sound of waves and surf.

T2M效果展示

文字 → 音乐（T2M）：给出音乐风格、乐器等文字描述，生成对应风格的音乐。

一个模型，搞定所有音频生成任务！多项基准SOTA | ICLR'26

Instrumental jazz piece with piano, guitar, drums, and bass.

一个模型，搞定所有音频生成任务！多项基准SOTA | ICLR'26

An orchestral music piece for a fantasy world

一个模型，搞定所有音频生成任务！多项基准SOTA | ICLR'26

Playful 8-bit chiptune music for a retro platformer game

一个模型，搞定所有音频生成任务！多项基准SOTA | ICLR'26

Punk rock track with electric guitar, bass, drums, aggressive and melodic.

V2A效果展示

视频 → 音效（V2A）：输入一段视频，自动生成与画面内容匹配的音效。

一个模型，搞定所有音频生成任务！多项基准SOTA | ICLR'26

V2M效果展示

以下视频来源于AI人工智能影像

一个模型，搞定所有音频生成任务！多项基准SOTA | ICLR'26

700万样本细粒度数据集

高质量数据构建流水线

训练统一模型的另一个关键瓶颈在于数据：现有的音频数据集要么规模有限，要么只提供粗粒度标注（如简短描述或类别标签），缺乏对事件类别、数量、时间戳、时序关系等多维度的结构化标注。

为此，团队设计了一套两阶段数据标注流水线，构建了大规模高质量数据集IF-caps（Instruction-Following Captions）。

一个模型，搞定所有音频生成任务！多项基准SOTA | ICLR'26

数据处理流水线图

第一阶段：使用Gemini 2.5 Pro对每段10秒视频-音频片段的音频轨道进行精细化分析，生成一套全面的结构化标注。对于音效数据，标注包括全局描述、声音事件分类与计数、事件时间戳（SED）、事件时序关系等；对于音乐数据，则包括曲风、情绪、乐器、节奏等属性。

第二阶段：考虑到标注成本和数据多样性，团队利用开源的Qwen2-Audio模型，基于第一阶段的结构化标注进行大规模数据增强。通过改写原始描述、基于类别与计数生成新描述、基于时间戳生成新描述、基于时序关系生成新描述等多种角度，为同一段音频生成语义一致但风格多样的文本描述，大幅提升了训练数据的多样性和模型对不同用户输入的鲁棒性。

最终，IF-caps包含约130万条音效数据和570万条音乐数据，总计超过700万样本。

一个模型，搞定所有音频生成任务！多项基准SOTA | ICLR'26