ChatGPT 人工智能 GPT4 伦理 生成式 医疗 监管 安全 机器学习 深度学习 神经网络 计算机视觉 强化学习 模型 算法 应用 开发 研究 工具 平台 框架 数据集 训练 部署 安全 合规 培训 投资 LLM,llm AI,ai,Ai 大模型 大语言模型 制图 生图 绘图 文生图 文生视频 生成式AI AGI 世界模型 sora chatGPT,chatgpt,ChatGpt claude openai Llama deepseek midjourney 红熊猫模型 Red panda,panda Stable Diffusion,StableDiffusion,stable DALL- E 3 DALL E DALL Flux,flux 扩散模型 混元大模型 文心一言 通义千问 可灵 Pika PixelDance 豆包 月之暗面 零一万物 阶跃星辰 搜索增强 MiniMax Talkie Agent prompt fastai LangChain TTS 微调 提示词 知识库 智能体
# 热门搜索 #
搜索
Stable Diffusion 3开源秒翻车,画人好掉san
5960点击    2024-06-13 21:16

没想到……Stable Diffusion 3开源即出现翻车案例。


生成一个躺在草地上的女孩,结果长这样?



而且不是个例,只要是和人(整体)相关的内容,生成结果都有点掉san。


(前方高能)



但如果是局部,比如只生成人脸,确实很nice。



清晰度、写字、写实性等方面都有明显提升。



对于复杂长提示词的理解也很到位,有网友发现提示越长它画的越好。




那么问题来了,为啥偏偏画不好人类?


问题可能在于数据集


先来看看SD3开源的具体情况。


本次开源的版本是Stable Diffusion 3 Medium(中杯)。


它的规模为20亿参数,在笔记本上就能跑了。


官方强调的属性有5方面,逐一来看:


  • 整体质量和写实性


可生成出色的细节,包括色彩、光线、强写实等,带来灵活风格的高质量输出。


通过16通道VAE,成功解决了其他模型的常见缺陷,比如手部和面部的写实问题。


  • 提示词理解


可以理解复杂长提示,包含空间推理、元素组合、动作、风格等。3个文本编码器可以全部或者组合使用,方便用户平衡性能和显存。


  • 有效利用资源


对VRAM占用很低,非常适合在消费级GPU上运行,且性能不降低。


  • 微调


能够利用小数据集微调,方便定制化。


目前在Hugging Face上已经可以下载模型权重。非商业用途可免费下载使用,商业用途需要先拿授权。



那么为啥升级后还是会翻车?


有人发现,如果细看“躺在草坪上的女孩”这张图像,会发现它在局部细节上确实还可以,甚至很棒。



草地上的影子、衣物上反射的光线、头发的质地……都遵循了物理规律。


但人物整体就不敢恭维了。


不少网友都认为,这就是问题的关键。


我认为他们的NSFW过滤器,把所有人类图像都判定为了NSFW。


这个过滤器全称是filtering out adult content,作用在于过滤掉不合规的成人内容。


SD2发布时就出现过类似的问题,研究人员发现审查这部分内容可能影响了模型对人体结构的理解。


后面的SD2.1和SDXL版本有所缓解。


这次SD3的翻车,暴露了一个问题:过于严格的数据审核,可能误删了一些无害的成人图像,所以现在模型没法理解人体结构。


有网友就阴阳说,没多久之前SD还能和Midjourney竞争,现在一比,就像个笑话。


至少我们的数据集是安全和合乎道德的。



Reddit上“SD3-2B发布是个笑话吗”的帖子,热度已经冲到了800+。



当然,除了技术以外的原因,还不少人觉得SD3的性能不佳更进一步暴露了Stability AI的内部混乱。


我猜他们现在可以安全合规地破产了。



欠债1亿、疑似求卖身


Stability AI的动荡,从SD3开源的一再延期就能窥见端倪。


2月发布模型后,一开始,官方说的是搞完RLHF就开源,结果大家伙等了3个多月,官方放出的还是只有API。直到现在,才开源了一个中杯版本。



与此同时,公司CEO Emad辞职+退出董事会。核心团队也被曝集体离职。


今年5月,据The Information消息,这家初创公司已经面临严重现金短缺:第一季度收入不到500万美元,而亏损超过了3000万美元。同时欠了云厂商和其他企业近1亿美元,“求卖身”的消息不断传出。


值得一提的是,消息称SD3还将开源更多版本,包括4B和8B。


不知道更大版本效果会如何呢?


官网传送门:https://stability.ai/news/stable-diffusion-3-medium

参考链接:

[1]https://www.reddit.com/r/StableDiffusion/comments/1de85nc/why_is_sd3_so_bad_at_generating_girls_lying_on/

[2]https://x.com/benjedwards/status/1800974616611184884

[3]https://www.reddit.com/r/StableDiffusion/comments/1de7lbg/comment/l8a1me0/?utm_source=share&utm_medium=web3x&utm_name=web3xcss&utm_term=1&utm_content=share_button


文章来源于:微信公众号量子位,作者:明敏


AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
微调

【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台,可以对大语言模型(LLM)和多模态图文模型(VLM)进行预训练和轻量级微调。XTuner 支持多种微调算法,如 QLoRA、LoRA 和全量参数微调。

项目地址:https://github.com/InternLM/xtuner

2
prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。

项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md

在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0