刚刚！Stable Diffusion 3.5最强模型全家桶来了，三个型号

4331点击 2024-10-23 10:38

就在刚刚，Stability AI发布了自家最强的模型Stable Diffusion 3.5，而且是一个全家桶，包含三个版本。

链接：https://huggingface.co/stabilityai

Stable Diffusion 3.5 可以满足科研人员、业务爱好者、初创公司和企业的多样化需求，其中包括：

Stable Diffusion 3.5 Large：该基础模型拥有 80 亿参数，性能优于竞品模型并且响应迅速，是 Stable Diffusion 系列中最强大的模型。该模型非常适合 1 百万像素分辨率的专业用例。

Stable Diffusion 3.5 Large Turbo：该模型是 Stable Diffusion 3.5 Large 的蒸馏版本，只需四步即可生成高质量图像，速度远快于Stable Diffusion 3.5 Large。

Stable Diffusion 3.5 Medium：该模型拥有 25亿参数，采用改进的MMDiT-X架构和训练方法，可在消费级硬件上「开箱即用」，在质量和定制易用性之间实现了平衡。该模型能够生成分辨率在0.25到2百万像素之间的图像。

可以看到，以上模型均有较大幅度的升级。Stability AI 表示，在今年 6 月发布Stable Diffusion 3 Medium后发现模型没有满足社区的期望。因此在听到反馈意见后没有采取快速修复措施，而是「花时间进一步开发了一个新版本，以推进改造视觉媒体的使命。」

模型开发技巧

在开发模型时，Stability AI优先考虑可定制性，以提供灵活的构建基础。为了实现这一点，他们将Query-Key Normalization集成到transformer块中，稳定了模型训练过程并简化了进一步的微调和开发。

为了支持下游灵活性，Stability AI还必须做出一些权衡。使用不同种子的同一提示可能会产生很大的输出差异，这是有意为之，因为它有助于在基础模型中保留更广泛的知识库和多样化的风格。不过，缺乏特异性的提示可能会导致输出不确定性增加，并且美学水平可能会有所不同。

尤其是针对Medium版本，Stability AI 对架构和训练协议进行了一些调整，以提高质量、连贯性和多分辨率生成能力。

模型的优势

据介绍，Stable Diffusion 3.5各版本模型在以下多个方面表现出色：

可定制性：轻松微调模型以满足特定创作需求，或根据定制的工作流程构建应用程序。

高效性能：经过优化，均可在标准消费级硬件上运行，尤其是 Stable Diffusion 3.5 Medium 和 Stable Diffusion 3.5 Large Turbo 型号。

多样化输出：无需大量提示，即可创建代表全世界的图像，而不仅仅是一种肤色和特征的人。

刚刚！Stable Diffusion 3.5最强模型全家桶来了，三个型号

风格多样：能够生成各种风格和美感的图片，如 3D、摄影、绘画、线条艺术以及几乎任何可以想象到的视觉风格。

刚刚！Stable Diffusion 3.5最强模型全家桶来了，三个型号

可见，在这一代的模型中，Stability AI已经提前考虑好了手机等设备的运行。

此外，Stability AI表示，Stable Diffusion 3.5 Large在prompt adherence方面处于领先地位，并且在图像质量方面可与更大的型号相媲美。

Stable Diffusion 3.5 Large Turbo在同类模型中，推理速度最快，同时在图像质量和及时性方面保持了高度竞争力，即使与类似尺寸的非蒸馏模型相比也是如此。

Stable Diffusion 3.5 Medium 的表现优于其他中型型号，在prompt adherence和图像质量之间实现了平衡，使其成为高效、高质量性能的首选。

刚刚！Stable Diffusion 3.5最强模型全家桶来了，三个型号

有人第一时间对比了Stable Diffusion 3.5 Large与FLUX 1.1 pro的生图效果。

刚刚！Stable Diffusion 3.5最强模型全家桶来了，三个型号

图源：https://x.com/markopolojarvi/status/1848733375634272448

除了Hugging Face上托管的模型以外，还有更多访问新模型的方式：

Stability AI API：https://platform.stability.ai/docs/api-reference#tag/Generate/paths/~1v2beta~1stable-image~1generate~1sd3/post
Replicate：https://replicate.com/stability-ai/stable-diffusion-3.5-large
ComfyUI：https://blog.comfy.org/sd3-5-comfyui/
以及DeepInfra

此外，在新版本模型中，Stability AI 从开发的早期阶段就引入了安全、负责任的 AI 实践。

最后，Stability AI 表示，Stable Diffusion 3.5 Medium 将在 10 月 29 日公开发布。不久之后，ControlNets 也将推出，为各种专业用例提供高级控制功能。

参考内容：

https://stability.ai/news/introducing-stable-diffusion-3-5

https://x.com/StabilityAI/status/1848729212250951911

文章来自于微信公众号“机器之心”

刚刚！Stable Diffusion 3.5最强模型全家桶来了，三个型号

关键词: SD , Stability AI , Stable Diffusion , AI作图 , 文生图

AITNT资源拓展

根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考

AI工作流

【开源免费】字节工作流产品扣子两大核心业务：Coze Studio（扣子开发平台）和 Coze Loop（扣子罗盘）全面开源，而且采用的是 Apache 2.0 许可证，支持商用！
项目地址：https://github.com/coze-dev/coze-studio

【开源免费】n8n是一个可以自定义工作流的AI项目，它提供了200个工作节点来帮助用户实现工作流的编排。
项目地址：https://github.com/n8n-io/n8n
在线使用：https://n8n.io/（付费）

【开源免费】DB-GPT是一个AI原生数据应用开发框架，它提供开发多模型管理（SMMF）、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL（智能体工作流编排）等多种技术能力，让围绕数据库构建大模型应用更简单、更方便。
项目地址：https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file


【开源免费】VectorVein是一个不需要任何编程基础，任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤，并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。
项目地址：https://github.com/AndersonBY/vector-vein?tab=readme-ov-file
在线使用：https://vectorvein.ai/（付费）

知识库

【开源免费】FASTGPT是基于LLM的知识库开源项目，提供开箱即用的数据处理、模型调用等能力。整体功能和“Dify”“RAGFlow”项目类似。很多接入微信，飞书的AI项目都基于该项目二次开发。
项目地址：https://github.com/labring/FastGPT

微调

【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台，可以对大语言模型（LLM）和多模态图文模型（VLM）进行预训练和轻量级微调。XTuner 支持多种微调算法，如 QLoRA、LoRA 和全量参数微调。
项目地址：https://github.com/InternLM/xtuner

prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法，编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词，进而高质量的帮助用户通过AI解决问题。
项目地址：https://github.com/langgptai/LangGPT/blob/main/README_zh.md
在线使用：https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0