新加坡国立大学刚刚推出的OminiControl框架无疑是AI P图的神器,轻松一键生成物体一致性的图像,例如产品效果图和试衣图。
之前用AI做产品图和衣服模特图,最好的办法还是训练每个产品的Lora,IP-Adapter等保持人像和物品一致性的模型都还不能达到满意的效果。而OminiControl一出将变成电商神器,分分钟生成各种产品图以及衣服试穿图。
OminiControl以统一的方式处理各种图像调节任务,包括:
- 主题驱动生成
- 空间对齐条件(如边缘、深度等)
特别值得一提的是,这些功能是通过对DiT自身生成的图像进行训练来实现的,这对主题驱动生成特别有利。
物品场景变化
Prompt: A close up view of this item. It is placed on a wooden table. The background is a dark room, the TV is on, and the screen is showing a cooking show. With text on the screen that reads 'Omini Control!.'
衣服试穿
Prompt: "On the beach, a lady sits under a beach umbrella with 'Omini' written on it. She's wearing this shirt and has a big smile on her face, with her surfboard hehind her. The sun is setting in the background. The sky is a beautiful shade of orange and purple."
图像修复(左:原始图像;中:蒙版图像;右:填充图像)
Prompt: The Mona Lisa is wearing a white VR headset with 'Omini' written on it.
Prompt: A yellow book with the word 'OMINI' in large font on the cover. The text 'for FLUX' appears at the bottom.
其他空间对齐任务 (Canny边缘到图像、深度到图像、着色、去模糊)
着色: A white side table sits next to the sofa, topped with a white adjustable desk lamp and some books.
去模糊: Dark hardwood flooring contrasts with the pale walls and furniture.
广泛的评估表明,OminiControl在主题驱动生成和空间对齐条件生成方面均优于现有的基于UNet和DiT的模型:
具体来说,与IP-Adapter相比:
- 修改精度:OminiControl达到75.8%,而FLUX为57.7%
- 身份保存:OminiControl达到50.6%,而SD1.5为29.4%
在最佳种子情况下,OminiControl更是展现了惊人的性能:
- 修改精度达到90.7%
- 身份保存达到82.3%
这些数据分别超过了最强基线15.8和18.0个百分点,充分证明了OminiControl的可靠性和优越性。
OminiControl——扩散变压器的最小化通用控制框架,其核心创新在于其独特的参数重用机制。这使得DiT模型(例如Flux)能够:
1. 利用自身作为强大的主干网络,对图像条件进行编码。
2. 使用其灵活的多模态注意力处理器来处理这些条件。
这种方法与现有的严重依赖复杂架构附加编码器模块的方法形成鲜明对比。OminiControl仅需约0.1%的额外参数就能有效且高效地整合注入的图像条件,这意味着资源要求不高,生成速度还快。
作为OminiControl项目的一部分,研究团队还发布了Subjects200K数据集。这是一个包含超过200,000个身份一致图像的多样化集合。每对图像都保持了主题的一致性,同时呈现了场景背景的变化。这个数据集的发布,连同高效的数据合成管道,将极大地推进主题一致生成的研究。
由于训练中缺乏人类数据,该模型目前主要针对物体而不是人类主体进行处理。
官方开放了网页版免费试用。输入参考图像建议为512x512 分辨率,否则会自动裁剪并调整为 512x512 分辨率。
写提示词时,使用this item, the object, 或者 it之类的短语来指代参考主题。
例如:
1,A close up view of this item. It is placed on a wooden table.
2,A young lady is wearing this shirt.
本地部署Comfyui中使用应该很快就可以了,已经有大神在github上占了坑(Comfyui插件页代码为空),应该正在加紧敲代码。
项目页:
github.com/Yuanshi9815/OminiControl
论文页:
arxiv.org/abs/2411.15098
网页试用:
huggingface.co/spaces/Yuanshi/OminiControl
Comfyui插件:
github.com/pzc163/ComfyUI_OminiControl
文章来自微信公众号“火星AIGC”,作者“开山怪”
【部分开源免费】FLUX是由Black Forest Labs开发的一个文生图和图生图的AI绘图项目,该团队为前SD成员构成。该项目是目前效果最好的文生图开源项目,效果堪比midjourney。
项目地址:https://github.com/black-forest-labs/flux
在线使用:https://fluximg.com/zh
【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。
项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md
在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0