# 热门搜索 #
搜索
让Stable Diffusion一秒出图!清华硕士加速神器爆火,已有公司接入
3520点击    2023-11-17 21:54

AI图像生成,已经进入了秒速级别,只要4步推理就能完成绘制,最快更是能在1秒之内完成。


现在,清华大学联合HuggingFace的研究人员,推出了全新的绘图模型加速模块。


作者给出的体验版当中,点击生成按钮后,模型只用了几秒钟就绘制出了4张清晰的图像。



这个加速模块叫做LCM-LoRA,发布后不久就斩获了2k+次GitHub星标。



它不仅加速能力强、泛化性能好,适配的模型也很广泛,SD系和LoRA模型都能用它来加速。


团队基于LCM-LoRA自行优化的文生图模型已在HuggingFace上开放体验,图生图模型也推出了CoLab等版本。



AI绘图工具迅速接入


LCM-LoRA开源后不久,就有AI绘图工具厂商Scenario宣布将基于它推出“实时绘图”功能。


Scenario的CEO还在????上亲自展示了即将上线的实时绘图功能DEMO。



只见一边在绘制草图,另一边AI就把相应的画作绘制好了,时间上几乎同步。



调整提示词和有关参数,模型响应得也是干脆利落。



这些DEMO发布后,引发了众人的一致赞叹。



那么,LCM-LoRA这个加速模块到底有多强,又是怎样实现的呢?


“跳步”降低内存开销


LCM-LoRA将LoRA引入潜在一致性模型(LCM)的蒸馏过程,显著减少了训练内存开销,从而提高性能。


而LCM是从潜扩散模型(LDM)中蒸馏出来的,“蒸馏”的过程也可以看做是对扩散模型的微调。


它的核心思想是在图像的隐变量空间中学习一致性映射函数,该函数可以直接将扩散过程中的任意点映射到终点,即微分方程的解。



通过这种一致性映射,LCM可以跳过迭代采样过程,直接进行少步甚至一步采样,从而极大地加速了图像的生成。


而隐变量空间操作相比基于像素空间的方法,计算复杂度和内存需求也更低。


结合LoRA后,只需要训练低秩分解矩阵,可训练参数量和内存开销进一步减少,应用范围也从单纯的文生图扩展到了图生图和视频生成。


最直观体现的就是我们看到的秒速出图,而训练时间上,LCM-LoRA优化后的模型在A100上训练只需32个GPU时。


训练时间缩短的背后,也于训练参数量大幅减少密切相关:

  • SD-V1.5全量参数为9.8亿,使用LoRA后可训练参数减少到6750万,约减少了93.1%。
  • SSD-1B参数从13亿减少到1.05亿,约减少了91.9%。
  • SDXL参数从35亿减少到1.97亿,约减少了94.3%。



不仅是训练消耗的降低,推理过程中的步数也大幅减少,一般只需要4步推理就能绘制出质量不错的图像。



有时甚至只要一步就能完成,用时还不到1秒,FID分数(越低越好)在50以下。



不仅加速性能优异,LCM-LoRA的适配性也十分广泛。


LCM-LoRA训练得到的LoRA参数又称为加速向量,可以数据集上微调得到的LoRA参数直接线性组合,不需要额外训练。



这种组合方式使得LCM-LoRA成为一个可直接插接到各种微调模型中的通用图像生成加速模块。


作者简介


LCM和LCM-LoRA论文的两位主要作者是来自清华大学交叉信息研究院的研究生骆思勉(Simian Luo)和谭亦钦(Yiqin Tan)。


清华叉院的黄隆波副教授、李建副教授和赵行助理教授也参与了这两项研究。


在LCM-LoRA的工作中,来自HuggingFace的研究人员亦有贡献。



论文地址:

[1]https://arxiv.org/abs/2310.04378

[2]https://arxiv.org/abs/2311.05556



文章来自微信公众号 “ 量子位 ” ,作者 克雷西





关键词: Stable Diffusion , SD , AI绘图
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
RAG

【开源免费】graphrag是微软推出的RAG项目,与传统的通过 RAG 方法使用向量相似性作为搜索技术不同,GraphRAG是使用知识图谱在推理复杂信息时大幅提高问答性能。

项目地址:https://github.com/microsoft/graphrag

【开源免费】Dify是最早一批实现RAG,Agent,模型管理等一站式AI开发的工具平台,并且项目方一直持续维护。其中在任务编排方面相对领先对手,可以帮助研发实现像字节扣子那样的功能。

项目地址:https://github.com/langgenius/dify


【开源免费】RAGFlow是和Dify类似的开源项目,该项目在大文件解析方面做的更出色,拓展编排方面相对弱一些。

项目地址:https://github.com/infiniflow/ragflow/tree/main


【开源免费】phidata是一个可以实现将数据转化成向量存储,并通过AI实现RAG功能的项目

项目地址:https://github.com/phidatahq/phidata


【开源免费】TaskingAI 是一个提供RAG,Agent,大模型管理等AI项目开发的工具平台,比LangChain更强大的中间件AI平台工具。

项目地址:https://github.com/TaskingAI/TaskingAI

2
微调

【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台,可以对大语言模型(LLM)和多模态图文模型(VLM)进行预训练和轻量级微调。XTuner 支持多种微调算法,如 QLoRA、LoRA 和全量参数微调。

项目地址:https://github.com/InternLM/xtuner

3
prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。

项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md

在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0