指令遵循媲美Seedance 2.0！复旦腾讯联合提出Baton，多说话人场景M-WER暴降76%

9711点击 2026-06-11 15:01

视频生成，早已不止于视觉。

随着生成式AI发展，联合视频—音频生成正成为重要研究方向。与视频优先、音频后期合成的传统流水线相比，原生同步生成的视听内容跨模态一致性更强，用户体验更沉浸。

但问题在于，现有开源模型面对复杂语义时力不从心。

遇到多阶段动作的组合式指令、涉及人与物体交互的复杂任务时，模型往往无法准确建模场景中的时序逻辑和因果关系——不仅要求长程语义推理能力，还必须在推理中维持视频与音频的时空一致性。

核心矛盾在于：现有方法依赖粗粒度全局文本嵌入指导扩散过程，无法将多阶段动作与多说话人对话分解为具有时间对齐的指导信息，视频和音频去噪轨迹因此各自演化，最终跨模态失配。

为解决这一问题，复旦&腾讯Hunyuan团队提出了Baton——首个基于显式语义蓝图引导的联合视频—音频生成框架：

指令遵循媲美Seedance 2.0！复旦腾讯联合提出Baton，多说话人场景M-WER暴降76%

核心思路，是将语义推理与内容生成显式解耦：先用可学习MLLM完成跨模态语义规划，生成视频和音频各自对应的Planned Tokens作为语义蓝图，再注入扩散模型指导联合生成。两条生成轨迹从一开始便共享同一份预先对齐的语义路线图，从根本上避免跨模态偏移。

在复杂场景基准Sem100上，Baton比LTX-2在提示词遵循准确率（P-Acc）上提升32%，多说话人词错误率（M-WER）提升76%，DeSync提升30%。在复杂指令遵循上，Baton甚至能媲美Seedance 2.0和Wan 2.7。

指令遵循媲美Seedance 2.0！复旦腾讯联合提出Baton，多说话人场景M-WER暴降76%

论文已挂arXiv，代码和项目主页同步开放。

方法简介

如下图所示，Baton通过显式解耦语义推理与内容生成两个阶段，构建了具备模态感知能力的语义蓝图（Blueprint）机制，统一协调视频与音频的扩散去噪过程。

用户输入的文本提示首先送入多模态大语言模型（MLLM）进行语义推理，预测出分别对应视频和音频模态的planned tokens。这些planned tokens充当跨模态共享的语义蓝图，为后续生成提供明确的内容规划和时序指导。

Planned tokens进一步通过cross-attention注入扩散Transformer（DiT）中。这里的DiT延续了Ovi的双分支架构，分别负责视频与音频的生成与去噪。

值得注意的是，planned tokens与扩散模型中的latents分布在不同的时空网格上，天然存在位置对应不一致的问题。为此，Baton提出了Relative Semantic RoPE（RS-RoPE）机制，通过统一的相对位置编码空间，实现planned tokens与diffusion latents之间的精确语义对齐。

指令遵循媲美Seedance 2.0！复旦腾讯联合提出Baton，多说话人场景M-WER暴降76%

VA-Planner：跨模态语义推理核心

当前联合视频—音频生成模型仅依赖冻结LLM提取的全局文本嵌入来指导生成过程：整个提示词被编码为一个模糊的全局向量，不会分解为模态特定的时序语义，也不会建模视觉事件与听觉线索应如何在每个阶段协同对应。

视频与音频两个去噪分支只能各自独立地解释这一模糊信号，在复杂场景下不可避免地出现语义偏离。

VA-Planner的解法：用一个可训练的MLLM进行语义推理，预测模态特定但相互对齐的planned tokens。每个token编码一个局部语义上下文，描述发生了什么、发生在哪里以及发生在何时。

视频与音频的planned tokens在同一次自回归推理过程中联合生成，保证每个时间点上的跨模态一致性。在进入扩散去噪过程之前，两条生成轨迹都被锚定到同一份共享的语义路线图上，避免两种模态演化为彼此冲突的动态过程。

指令遵循媲美Seedance 2.0！复旦腾讯联合提出Baton，多说话人场景M-WER暴降76%

双语义对齐塔

Planned tokens的目标是编码具体的感知结构，而不是停留在MLLM以自然语言描述为中心的表示空间中。为此，Baton设计了双语义对齐塔（Dual Semantic Alignment Towers），将planned tokens映射到预训练感知编码器的连续特征空间——视频采用SigLip2，音频采用WavTokenizer。

指令遵循媲美Seedance 2.0！复旦腾讯联合提出Baton，多说话人场景M-WER暴降76%

值得注意的是，Baton在不同阶段采用两种不同的RoPE设计：

1、时间戳RoPE（Timestamp-based RoPE）。用于双语义对齐塔中的CMAttn，负责规划阶段的跨模态token对齐。

2、相对语义RoPE（Relative Semantic RoPE，RS-RoPE）。用于DiT中的VCAttn和ACAttn，负责在扩散去噪阶段对齐planned tokens与扩散潜变量。具体实现细节和详细公式推导请阅读原论文。

三阶段训练策略

指令遵循媲美Seedance 2.0！复旦腾讯联合提出Baton，多说话人场景M-WER暴降76%

实验结果

Baton与开源模型在Verse-Bench和Sem100两个测试集上进行对比。

Verse-Bench为开源的音画一致生成测试集；Sem100为内部收集的100条测试样例，text prompt包含人物与周围环境的多次连续性交互动作、多人复杂交互、多个连续指定性质的复杂组合动作描述，语义复杂度远高于现有开源测试集。

评估维度包括：视频质量（AQ、IQ、DD、ID），音频质量及音视频同步性（PQ、CU、M-WER、Sync-C、Sync-D、DeSync），以及提示词遵循准确率（P-Acc）。

指令遵循媲美Seedance 2.0！复旦腾讯联合提出Baton，多说话人场景M-WER暴降76%

与领先方法LTX-2相比，Baton在Verse-Bench上取得相当结果（该集合提示主要描述简单单事件场景，不需要深层语义推理）。在Sem100上优势则更加明显：

P-Acc：比LTX-2提升32%
M-WER：比LTX-2提升76%
DeSync：比LTX-2提升30%

M-WER差距尤为显著。多说话人场景要求模型明确推理哪个角色在何时说了什么内容，这正是planned tokens所提供的局部、时间对齐语义能力——而传统全局文本嵌入无法有效拆解。

P-Acc和M-WER的显著差距进一步验证：在复杂提示场景中，显式语义规划是必要的。

指令遵循媲美Seedance 2.0！复旦腾讯联合提出Baton，多说话人场景M-WER暴降76%

与闭源商业模型的对比同样有力：尽管Baton在视觉质量和音频美感方面仍落后于商业模型，但在提示词遵循能力方面表现出相当的性能。在Sem100复杂指令遵循上，Baton的性能超越了Kling 3.0，并能媲美Seedance 2.0和Wan 2.7。

生成结果展示

指令遵循媲美Seedance 2.0！复旦腾讯联合提出Baton，多说话人场景M-WER暴降76%

Video Prompt: On a vast barren beach under a pale overcast sky with haze obscuring the flat horizon, a young man with dark messy hair lies face down on the sand…

Audio Prompt: On a windswept open beach, continuous artillery explosions rumble and crash, growing progressively louder and closer…

指令遵循媲美Seedance 2.0！复旦腾讯联合提出Baton，多说话人场景M-WER暴降76%

Video Prompt: In a indoor martial arts gym with yellow padded bars along the wall, two bald men of Middle Eastern descent stand facing each other…

Audio Prompt: In a gym with faint ambient echo, a mature man [Speaker A] speaks in a steady, instructional tone: “Think about the idea of short distance power…”

指令遵循媲美Seedance 2.0！复旦腾讯联合提出Baton，多说话人场景M-WER暴降76%

Video Prompt: At dusk in a desolate clearing beside a rustic log cabin, a bearded white man squats before a small crackling campfire…

Audio Prompt: A quiet outdoor dusk atmosphere with faint wind rustling dry grass. A small campfire crackles and pops…

指令遵循媲美Seedance 2.0！复旦腾讯联合提出Baton，多说话人场景M-WER暴降76%

Video Prompt: In a dimly lit interior, a close-up shows hands using a knife and fork to slice through a medium-rare steak on a white square plate…

Audio Prompt: A knife sawing through steak with a soft, wet slicing sound against the plate. A fork scrapes briefly. Quiet, slow chewing follows…

指令遵循媲美Seedance 2.0！复旦腾讯联合提出Baton，多说话人场景M-WER暴降76%

Video Prompt: Inside an old car, a girl wearing a grey-white t-shirt first looks down, then smiles slightly while steering along a rural road…

Audio Prompt: A dramatic orchestral score with sweeping strings. The music is layered with the sounds of a vehicle engine starting and revving…

指令遵循媲美Seedance 2.0！复旦腾讯联合提出Baton，多说话人场景M-WER暴降76%

Video Prompt: On a sunny suburban backyard, a woman in a ribbed sweater and black skirt rallies a shuttlecock with a boy across a badminton net…

Audio Prompt: A fast-paced electronic dance music track plays throughout. A boy [Speaker A] shouts: “Oh no! Ten points! I’m scared!” A girl [Speaker B]: “We’re the winners!”

指令遵循媲美Seedance 2.0！复旦腾讯联合提出Baton，多说话人场景M-WER暴降76%

Video Prompt: On a residential street corner, a young Asian boy in bright blue shorts stands holding a brown Spalding basketball in one hand and a yellow-orange ball in the other…

Audio Prompt: A young boy [Speaker A] speaks: “This is two ball basketball drill.” Immediately after, the rhythmic sound of a basketball being dribbled begins…

指令遵循媲美Seedance 2.0！复旦腾讯联合提出Baton，多说话人场景M-WER暴降76%

Video Prompt: A young Caucasian man stands at an outdoor shooting range, holding a scoped AR-15 rifle, he fires several shots at a nearby pine tree, then reloads.

Audio Prompt: In a quiet, open outdoor environment, a sharp gunshot rings out, followed by a male voice [Speaker A] saying “Ah”. After a brief pause, a mechanical click is heard, as if a weapon is being reloaded.

指令遵循媲美Seedance 2.0！复旦腾讯联合提出Baton，多说话人场景M-WER暴降76%

Video Prompt: On a sunlit outdoor asphalt basketball court, a young man dribbles the ball between his legs, takes a jump shot; the ball arcs over the rim and drops through the net.

Audio Prompt: A young man [Speaker A] speaks: “Easy peasy, baby.” The sound of a ball being dribbled on a hard surface is heard, followed by a sharp impact as it hits a backboard.

论文地址：https://arxiv.org/pdf/2605.25195

项目主页：https://francis-rings.github.io/Baton/

文章来自于"量子位"，作者 "Baton团队"。

AI新闻模型训练 Baton AI视频

AITNT资源拓展

根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考

RAG

【开源免费】graphrag是微软推出的RAG项目，与传统的通过 RAG 方法使用向量相似性作为搜索技术不同，GraphRAG是使用知识图谱在推理复杂信息时大幅提高问答性能。
项目地址：https://github.com/microsoft/graphrag

【开源免费】Dify是最早一批实现RAG，Agent，模型管理等一站式AI开发的工具平台，并且项目方一直持续维护。其中在任务编排方面相对领先对手，可以帮助研发实现像字节扣子那样的功能。
项目地址：https://github.com/langgenius/dify

【开源免费】RAGFlow是和Dify类似的开源项目，该项目在大文件解析方面做的更出色，拓展编排方面相对弱一些。
项目地址：https://github.com/infiniflow/ragflow/tree/main

【开源免费】phidata是一个可以实现将数据转化成向量存储，并通过AI实现RAG功能的项目
项目地址：https://github.com/phidatahq/phidata

【开源免费】TaskingAI 是一个提供RAG，Agent，大模型管理等AI项目开发的工具平台，比LangChain更强大的中间件AI平台工具。
项目地址：https://github.com/TaskingAI/TaskingAI

prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法，编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词，进而高质量的帮助用户通过AI解决问题。
项目地址：https://github.com/langgptai/LangGPT/blob/main/README_zh.md
在线使用：https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0