ChatGPT 人工智能 GPT4 伦理 生成式 医疗 监管 安全 机器学习 深度学习 神经网络 计算机视觉 强化学习 模型 算法 应用 开发 研究 工具 平台 框架 数据集 训练 部署 安全 合规 培训 投资 LLM,llm AI,ai,Ai 大模型 大语言模型 制图 生图 绘图 文生图 文生视频 生成式AI AGI 世界模型 sora chatGPT,chatgpt,ChatGpt claude openai Llama deepseek midjourney 红熊猫模型 Red panda,panda Stable Diffusion,StableDiffusion,stable DALL- E 3 DALL E DALL Flux,flux 扩散模型 混元大模型 文心一言 通义千问 可灵 Pika PixelDance 豆包 月之暗面 零一万物 阶跃星辰 搜索增强 MiniMax Talkie Agent prompt fastai LangChain TTS 微调 提示词 知识库 智能体
# 热门搜索 #
搜索
FLUX“官方版ControlNet”来了!景深轮廓更精准控制,共四款官方工具一齐上线
7130点击    2024-11-22 17:36

“最强绘图模型”FLUX深夜更新,一口气连发四款工具!



用官方的话说,这次的更新给FLUX“带来了更多的控制方式和可操作性”。


别看官方说得简单,实际效果可是要震撼得多。


只用一个相同的轮廓,FLUX就能变幻出各式各样不同风格的画作:



或者传一张图,不用提示词就能让人物做出各种不同的动作,同时保持角色一致:



此外,还可以对现有的图像进行扩展,不断延伸画面:



具体来说,此次FLUX一共发布了这四款创意工具:


  • 编辑工具fill,可以修改画面细节或扩展画面;


  • 轮廓控制工具Canny,类似ControlNet;


  • 景深控制工具Depth,类似ControlNet;


  • 变换工具Redux,可改变人物动作、画面视角/风格。


这些工具分为dev和pro两个版本,dev版的代码和模型权重均已开放下载,pro版也通过API提供。


而且支持创作者常用的ComfyUI,能够简单整合进绘画工作流。


有网友评论说,这是一件大事,因为BFL(FLUX开发团队)终于有了自己的ControlNet。



还有人表示,这些工具解锁了(AI绘图的)可操纵性,是创意绘图的game changer。



四款工具一齐上线


首先来看fill,它可以对画面中包括文字在内的任意细节进行编辑或修复,比如图像中人物的衣着,或者加入新的元素。



此外还支持outpainting,可以将图像扩展到原始画面之外。



测评结果上,FLUX的官方工具,和第三方FLUX工具Alimama Creative体现出了优势。


同时也战胜了之前来踢馆的Ideogram,对比SD 1.5的类似功能则更是优势明显。



以文字修改任务为例,测试中对下图“Beers”部分进行了圈选,并要求修改为“Spaghetti”。



可以看出,官方Fill工具效果最为自然,Ideogram也还不错,但仔细对比会发现FLUX的文字粗细更加接近画面中的其他文字。


第三方插件则并未匹配原始字体,至于SD 1.5那更是惨不忍睹。



再来看看非文字的效果,这项任务需要在图像指定的位置(左侧)加上模糊(blurry)的小猫照片。



下图中的顺序和前面一样,可以看到除了左上角的FLUX fill工具之外,都没有满足“模糊”这个要求。


单看的话画面,第三方插件和Ideogram也都还可以,不过第三方插件“画蛇添足”地给原图的第一个木块加上了两个点。


而SD 1.5,似乎在保持着一种稳定的抽象。



第二个工具Canny,相当于一个轮廓ControlNet,通过边缘检测来精准地控制图像转换过程中的结构。



这次对比的对象包括第三方工具InstantX,以及SD 1.5和SDXL,结果FLUX.1 Canny的成绩优势明显。



当然这轮测试是直接把提取好的轮廓给模型,难度相对于让模型自己提取有一点降低。


利用这样的一个轮廓,每个模型或工具需要生成6张不同的图片(每个prompt两张)



下图中,第一行为Flux.1 Canny(Pro)的作品,第二行为InstantX,第三第四行分别是SD 1.5和SDXL。


从左到右六张图片的prompt依次是:


1&2:a robot made of gold(一个金子做的机器人)

3&4:a robot made of brown and white clay(一个用棕色和白色黏土做的机器人)

5&6:a white robot in front of a gray background(一个白色的机器人在灰色的背景前方)


对于“金子”的部分,FLUX.1 Canny第一次画出来的效果是质感最好的,而且FLUX.1 Canny质量稳定性保持得是比较好的。


单就这个任务而言,SD 1.5的作品再次成为了最显眼包的一组。



接下来是Depth,它和Canny一样都是类似ControlNet的存在,顾名思义控制的内容是景深。



这次没有再把SD拉过来,参与对比的是两款第三方插件,还有MidJourney。



在一项测试任务中,提取之后的景深关系是这样的:



下图中,第一行对应FLUX.1 Depth(Pro),第二、三行对应Jasper和Shakker两款第三方工具,最后一行对应MidJourney。


从左到右,提示词依次是:


1&2:mountain cabin, anime style(山间小屋,动漫风格)

3&4:1950’s aesthetics(上世纪50年代的美学)


这里就不一一点评细节了,但FLUX.1 Depth的作品是最忠实于控制条件中景深关系的一组,而且也不像MidJourney那样出现了画面割裂的情况。



最后是Redux,给定输入图像,可以让FLUX在其基础之上进行“重新设计”,变换出各种不同的图片。


图像的背景、角度、画风都可以调整,同时在变换过程中保持角色一致。


如果实在没灵感,也可以只把图丢给模型,不用输入提示词,让模型自行发挥帮你转换。



相比于SD 1.5和SDXL,领先优势十分明显。



比如这张图中有只小猫正抱着一条鱼奔跑,测试过程当中没有输入提示词。



每个模型各自生成了三张图,由上到下分别是FLUX.1 Redux(Pro)、SD 1.5和SDXL。


在FLUX作品中鱼和猫的长相都和原图保持了一致,在细节动作时做出了变化,而SD 1.5生成的图像里猫和鱼都已经完全变了样子。


到了SDXL这里,好家伙,不要说风格了,猫和鱼直接陷入了“量子纠缠”,在三张图中都没有同时出现。



总之对比一圈之后发现,FLUX这次上线的四款官方工具,不管是相对第三方工具还是相对于其他模型,都十分扛打。


四款工具都是支持pro和dev两个版本(其中Canny和Depth还分完整版和LoRA版),dev版本代码和模型权重都是开放下载,pro版则要通过BFL API来使用。


另外,这四个工具还会通过五家FLUX合作的模型平台提供,这五家分别是fal(L的小写).ai、Replicate、 Together.ai、Freepik和krea.ai。


公告地址(含代码/权重/测试集下载):

https://blackforestlabs.ai/flux-1-tools/

参考链接:

[1]https://www.marktechpost.com/2024/11/21/black-forest-labs-release-flux-1-tools-a-suite-of-ai-models-designed-to-add-control-and-steerability-to-the-base-text-to-image-model-flux-1/

[2]https://x.com/fofrAI/status/1859621532550480342

[3]https://x.com/fofrAI/status/1859618518863323591


文章来自于“量子位”,作者“克雷西”。


关键词: AI , FLUX , AI绘图 , 人工智能
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
AI工作流

【开源免费】n8n是一个可以自定义工作流的AI项目,它提供了200个工作节点来帮助用户实现工作流的编排。

项目地址:https://github.com/n8n-io/n8n

在线使用:https://n8n.io/(付费)


【开源免费】DB-GPT是一个AI原生数据应用开发框架,它提供开发多模型管理(SMMF)、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL(智能体工作流编排)等多种技术能力,让围绕数据库构建大模型应用更简单、更方便。

项目地址:https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file



【开源免费】VectorVein是一个不需要任何编程基础,任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤,并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。

项目地址:https://github.com/AndersonBY/vector-vein?tab=readme-ov-file

在线使用:https://vectorvein.ai/(付费)

2
Flux

【部分开源免费】FLUX是由Black Forest Labs开发的一个文生图和图生图的AI绘图项目,该团队为前SD成员构成。该项目是目前效果最好的文生图开源项目,效果堪比midjourney。

项目地址:https://github.com/black-forest-labs/flux

在线使用:https://fluximg.com/zh

3
prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。

项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md

在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0