SGLang Diffusion震撼发布：图像视频生成速度猛提57%！

7892点击 2025-11-22 11:33

就在一周前，全宇宙最火爆的推理框架 SGLang 官宣支持了 Diffusion 模型，好评如潮。团队成员将原本在大语言模型推理中表现突出的高性能调度与内核优化，扩展到图像与视频扩散模型上，相较于先前的视频和图像生成框架，速度提升最高可达 57%：

模型支持：覆盖主流开源视频和图像生成模型，包括 Wan 系列、Hunyuan、Qwen-Image、Qwen-Image-Edit、Flux 等。

性能加速：在多种工作负载上实现最高 57% 的推理加速。

多种接口：提供 OpenAI 兼容 API、CLI 和 Python 接口，降低使用门槛。

完整生态：与 FastVideo 团队合作，打造从模型训练到生产部署的端到端解决方案。

Roadmap：https://github.com/sgl-project/sglang/issues/12799
Slack 频道：
https://sgl-fru7574.slack.com/archives/C09P0HTKE6A
官方博客：https://lmsys.org/blog/2025-11-07-sglang-diffusion/
GitHub：https://github.com/sgl-project/sglang/tree/main/python/sglang/multimodal_gen

过去两年，SGLang 借助高效调度与自研内核，在大模型推理场景建立了「高性能推理引擎」的口碑。

而在图像与视频生成领域，扩散模型（Diffusion Models）逐渐成为领域基石——无论是视频模型 Wan / FastWan / 混元（Hunyuan），还是图像模型 Qwen-Image / Flux，都被广泛应用。

社区中一直有强烈诉求：「能否用同一套高性能基础设施，同时跑 LLM 和扩散模型？」/「我们已经在用 SGLang 推理 LLM，可不可以用同一套引擎，把图像和视频也一起加速？」

SGLang 团队给出了肯定的回答：SGLang Diffusion。

更深层的原因在于，未来的生成式 AI，很可能不再是「单一架构」的世界，而是 自回归（AR）+ 扩散（Diffusion） 的混合架构：

要支撑这种「多架构融合」的新时代，需要一个统一的高性能推理底座，能同时处理语言任务与扩散任务。SGLang Diffusion 的目标，是成为面向未来的高性能多模态底座。

具体实现上，SGLang Diffusion 采用了独立优化架构与底层生态共享的策略：

设计专用的生成调度器：实现了独立的调度器（Scheduler），专门针对图像/视频生成的「多步迭代去噪」特性进行任务编排管理，以替代 LLM 的 Token 级调度逻辑。

为了适配扩散模型复杂多变的结构，SGLang 团队提出了ComposedPipelineBase。可以理解为把扩散推理过程拆成一个个可复用的 Stage，再用 ComposedPipelineBase 把它们按需「拼起来」。

典型 Stage 包括：

这套顶层设计给开发者和有魔改的用户都带来几个明显好处：

为了追求极致性能，SGLang Diffusion 还在扩散推理中引入了先进的并行技术：

USP（Unified Sequence Parallelism）：这是 Ulysses-SP 与 Ring-Attention 的结合，专门加速核心 Transformer Block；
CFG-Parallel（Classifier-Free Guidance Parallel）：同时计算条件 / 无条件分支，减少冗余；
Tensor Parallel（TP）等常规并行：加速其他模型组件。

注意到，SGLang Diffusion 底层仍由 sgl-kernel 承载，这也为未来引入了量化等高性能内核提供了天然扩展位。

为了提供无缝的使用体验，SGLang Diffusion 提供了多种熟悉的接口形式，包括：

对于已有基于 OpenAI API 的应用而言，引入 SGLang Diffusion 几乎是「零改动」级别，开发者可以以最小改动将扩散生成能力集成到现有工作流中。