Stable Diffusion 3开源秒翻车，画人好掉san

8448点击 2024-06-13 21:16

没想到……Stable Diffusion 3开源即出现翻车案例。

生成一个躺在草地上的女孩，结果长这样？

而且不是个例，只要是和人（整体）相关的内容，生成结果都有点掉san。

（前方高能）

Stable Diffusion 3开源秒翻车，画人好掉san

但如果是局部，比如只生成人脸，确实很nice。

Stable Diffusion 3开源秒翻车，画人好掉san

清晰度、写字、写实性等方面都有明显提升。

Stable Diffusion 3开源秒翻车，画人好掉san

对于复杂长提示词的理解也很到位，有网友发现提示越长它画的越好。

Stable Diffusion 3开源秒翻车，画人好掉san

那么问题来了，为啥偏偏画不好人类？

问题可能在于数据集

先来看看SD3开源的具体情况。

本次开源的版本是Stable Diffusion 3 Medium（中杯）。

它的规模为20亿参数，在笔记本上就能跑了。

官方强调的属性有5方面，逐一来看：

整体质量和写实性

可生成出色的细节，包括色彩、光线、强写实等，带来灵活风格的高质量输出。

通过16通道VAE，成功解决了其他模型的常见缺陷，比如手部和面部的写实问题。

提示词理解

可以理解复杂长提示，包含空间推理、元素组合、动作、风格等。3个文本编码器可以全部或者组合使用，方便用户平衡性能和显存。

有效利用资源

对VRAM占用很低，非常适合在消费级GPU上运行，且性能不降低。

微调

能够利用小数据集微调，方便定制化。

目前在Hugging Face上已经可以下载模型权重。非商业用途可免费下载使用，商业用途需要先拿授权。

Stable Diffusion 3开源秒翻车，画人好掉san

那么为啥升级后还是会翻车？

有人发现，如果细看“躺在草坪上的女孩”这张图像，会发现它在局部细节上确实还可以，甚至很棒。

Stable Diffusion 3开源秒翻车，画人好掉san

草地上的影子、衣物上反射的光线、头发的质地……都遵循了物理规律。

Stable Diffusion 3开源秒翻车，画人好掉san

但人物整体就不敢恭维了。

不少网友都认为，这就是问题的关键。

我认为他们的NSFW过滤器，把所有人类图像都判定为了NSFW。

Stable Diffusion 3开源秒翻车，画人好掉san

这个过滤器全称是filtering out adult content，作用在于过滤掉不合规的成人内容。

SD2发布时就出现过类似的问题，研究人员发现审查这部分内容可能影响了模型对人体结构的理解。

后面的SD2.1和SDXL版本有所缓解。

这次SD3的翻车，暴露了一个问题：过于严格的数据审核，可能误删了一些无害的成人图像，所以现在模型没法理解人体结构。

有网友就阴阳说，没多久之前SD还能和Midjourney竞争，现在一比，就像个笑话。

至少我们的数据集是安全和合乎道德的。

Stable Diffusion 3开源秒翻车，画人好掉san

Reddit上“SD3-2B发布是个笑话吗”的帖子，热度已经冲到了800+。

Stable Diffusion 3开源秒翻车，画人好掉san

当然，除了技术以外的原因，还不少人觉得SD3的性能不佳更进一步暴露了Stability AI的内部混乱。

我猜他们现在可以安全合规地破产了。

Stable Diffusion 3开源秒翻车，画人好掉san

欠债1亿、疑似求卖身

Stability AI的动荡，从SD3开源的一再延期就能窥见端倪。

2月发布模型后，一开始，官方说的是搞完RLHF就开源，结果大家伙等了3个多月，官方放出的还是只有API。直到现在，才开源了一个中杯版本。

Stable Diffusion 3开源秒翻车，画人好掉san

与此同时，公司CEO Emad辞职+退出董事会。核心团队也被曝集体离职。

今年5月，据The Information消息，这家初创公司已经面临严重现金短缺：第一季度收入不到500万美元，而亏损超过了3000万美元。同时欠了云厂商和其他企业近1亿美元，“求卖身”的消息不断传出。

值得一提的是，消息称SD3还将开源更多版本，包括4B和8B。

不知道更大版本效果会如何呢？

官网传送门：https://stability.ai/news/stable-diffusion-3-medium

参考链接：

[1]https://www.reddit.com/r/StableDiffusion/comments/1de85nc/why_is_sd3_so_bad_at_generating_girls_lying_on/

[2]https://x.com/benjedwards/status/1800974616611184884

[3]https://www.reddit.com/r/StableDiffusion/comments/1de7lbg/comment/l8a1me0/?utm_source=share&utm_medium=web3x&utm_name=web3xcss&utm_term=1&utm_content=share_button

文章来源于：微信公众号量子位，作者：明敏

Stable Diffusion 3开源秒翻车，画人好掉san

关键词: Stable Diffusion 3 , SD , AI , 扩散模型 , AI绘图

AITNT资源拓展

根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考

微调

【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台，可以对大语言模型（LLM）和多模态图文模型（VLM）进行预训练和轻量级微调。XTuner 支持多种微调算法，如 QLoRA、LoRA 和全量参数微调。
项目地址：https://github.com/InternLM/xtuner

prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法，编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词，进而高质量的帮助用户通过AI解决问题。
项目地址：https://github.com/langgptai/LangGPT/blob/main/README_zh.md
在线使用：https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0