iPad可用AI绘画交互编辑神器火了,网友:颤抖吧PS

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
AITNT-国内领先的一站式人工智能新闻资讯网站 搜索
iPad可用AI绘画交互编辑神器火了,网友:颤抖吧PS
5845点击    2024-11-20 13:51


比PS更懂你的AI图片编辑工具——MagicQuill(魔法羽毛)来了!


1分钟出图:不用打字、简单勾画几笔就能编辑图片。


还支持直接在iPad上在线编辑!


研究团队来自香港科技大学、蚂蚁集团、浙江大学和香港大学等机构。


我们先一起看个例子感受一下——


有了MagicQuill,现在当你想要给人物更换衣服时,就可以直接画出领子,它会自动帮你补全。



iPad可用AI绘画交互编辑神器火了,网友:颤抖吧PS


加条项链、去除路人,几秒钟就搞定:


iPad可用AI绘画交互编辑神器火了,网友:颤抖吧PS


iPad可用AI绘画交互编辑神器火了,网友:颤抖吧PS


你还可以更换发色、让人物戴上花环,甚至更改花朵的颜色:


iPad可用AI绘画交互编辑神器火了,网友:颤抖吧PS


iPad可用AI绘画交互编辑神器火了,网友:颤抖吧PS


只需要1分钟多的时间,就可以实现上面这么多编辑效果,尤其是对于想要快速修改照片的用户来说,简直太方便了!


iPad可用AI绘画交互编辑神器火了,网友:颤抖吧PS


还有更多有趣的例子,机器人、汽车、蛋糕等,都可以快速修改!


iPad可用AI绘画交互编辑神器火了,网友:颤抖吧PS


iPad可用AI绘画交互编辑神器火了,网友:颤抖吧PS


有多位网友评论说,AI图像编辑真的进步飞快,“能读懂用户心思”是非常具有未来感的用户体验。


iPad可用AI绘画交互编辑神器火了,网友:颤抖吧PS


甚至还有网友说,颤抖吧,PS!


iPad可用AI绘画交互编辑神器火了,网友:颤抖吧PS


MagicQuill目标是理解精细修改意图


虽然目前AI图像编辑工具是百花齐放,但想要实现精细编辑,很多工具的效果还是比较令人捉急。


MagicQuill团队的目标是实现一个高效且精确的图像编辑系统,能够在用户进行细微修改时提供更好的使用体验。


这不仅包括实现细粒度的图像编辑控制、还要提供直观的用户界面、并实时预测用户意图。


最终团队选择基于扩散模型、文本和掩码的图像编辑方法、以及多模态大型语言模型(MLLMs) 进行实现,并设计了简约实用的用户界面。


iPad可用AI绘画交互编辑神器火了,网友:颤抖吧PS




MagicQuill的具体构成


一起来看看MagicQuill系统的具体构成是什么样的。主要分为3个部分:


1.编辑处理器


编辑处理器采用双分支架构,包括内容感知修复分支结构引导分支


内容感知修复分支利用UNet架构,结合掩码图像特征和预训练的扩散网络进行像素级修复。


结构引导分支则通过ControINet插入条件控制,确保编辑操作的精确性。


iPad可用AI绘画交互编辑神器火了,网友:颤抖吧PS


2.绘画助手


绘画助手通过多模态大型语言模型(MLLM)实时预测用户意图。


具体的任务称为“Draw&Guess”,也就是通过图像上下文解释用户笔画并自动生成相关提示。


团队采用的数据集通过生成边缘图和模拟用户笔画进行构建,并使用LLaMA模型进行微调。


iPad可用AI绘画交互编辑神器火了,网友:颤抖吧PS


3.创意收集器


创意收集器为用户提供了一个简约直观的界面,它兼容多个平台,团队也提供了在线demo,你可以在电脑或iPad上直接使用!


界面主要包括提示区、工具栏、图层管理、主画布、生成图像预览区、执行按钮和参数调整区。


iPad可用AI绘画交互编辑神器火了,网友:颤抖吧PS


按钮设计非常简洁,有上传图片、“增加”画笔、“减少”画笔、改颜色画笔、橡皮等等。


iPad可用AI绘画交互编辑神器火了,网友:颤抖吧PS


下方的参数调整区域更适合有丰富的生图经验的专业人士:


iPad可用AI绘画交互编辑神器火了,网友:颤抖吧PS


比如在Base Model Name里,你可以选择不同的基础模型,有适合生成真实风格的


SD1.5/realisticVisionV60B1_v51VAE.safetensors、适合生成幻想风格的


SD1.5/DreamShaper.safetensors等。


你还可以调整Negative Prompt避免生成部分内容、还有Fine Edge精细边缘调整、Grow Size调整笔触大小等等。完整工作流程如下图所示。


iPad可用AI绘画交互编辑神器火了,网友:颤抖吧PS


实际效果怎样呢?


为了更准确地测试MagicQuill的具体效果,团队还设计了3个验证实验:


1.可控生成评估


将MagicQuill与四个基线方法(SmartEdit、SketchEdit、BrushNet及其组合)进行比较,评估编辑处理器的可控生成能力,尤其关注边缘对齐和颜色保真度。


结果显示,MagicQuill的编辑处理器在所有指标上均优于基线方法,具有更高的边缘对齐度和颜色保真度。

iPad可用AI绘画交互编辑神器火了,网友:颤抖吧PS


2.预测准确性评估


为了评估MagicQuill在模拟手绘输入下的语义预测准确性,团队将它的绘画助手与三种最先进的MLLMs (LLaVA-1.5、LLaVA-Next、GPT-4o)进行了比较。


结果显示,绘画助手在所有测试的MLLMS中表现最佳,可以更准确地捕捉和预测用户绘图的语义含义。


iPad可用AI绘画交互编辑神器火了,网友:颤抖吧PS


3.创意收集器有效性评估


团队还通过用户研究评估了创意收集器的效率和可用性,并比较了它与基线系统的差异。


用户研究结果显示,MagicQuill在所有评估维度上都显著优于基线系统,包括复杂性和效率、一致性和集成、易用性以及总体满意度4个方面。


看来体验过的用户反馈都不错呢!


iPad可用AI绘画交互编辑神器火了,网友:颤抖吧PS


未来工作


团队还表示,这将是一个长期的工作,未来他们的目标是扩展系统功能,纳入更多的编辑类型,如基于参考的编辑,这将允许用户使用外部图像指导修改。


他们还计划实现分层图像生成,可以让编辑更加灵活、支持更多复杂合成。


系统也会支持排版,能够处理更多图像中的文本元素。


目前MagicQuill的代码、论文和Demo都已上线,感兴趣的小伙伴可以马上试用起来了!链接就在下方。


参考链接:https://magicquill.art/demo/


文章来自于“量子位”,作者“奇月”


iPad可用AI绘画交互编辑神器火了,网友:颤抖吧PS

AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
AI工作流

【开源免费】n8n是一个可以自定义工作流的AI项目,它提供了200个工作节点来帮助用户实现工作流的编排。

项目地址:https://github.com/n8n-io/n8n

在线使用:https://n8n.io/(付费)


【开源免费】DB-GPT是一个AI原生数据应用开发框架,它提供开发多模型管理(SMMF)、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL(智能体工作流编排)等多种技术能力,让围绕数据库构建大模型应用更简单、更方便。

项目地址:https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file



【开源免费】VectorVein是一个不需要任何编程基础,任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤,并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。

项目地址:https://github.com/AndersonBY/vector-vein?tab=readme-ov-file

在线使用:https://vectorvein.ai/(付费)

2
免费使用GPT-4o

【免费】ffa.chat是一个完全免费的GPT-4o镜像站点,无需魔法付费,即可无限制使用GPT-4o等多个海外模型产品。

在线使用:https://ffa.chat/

3
微调

【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台,可以对大语言模型(LLM)和多模态图文模型(VLM)进行预训练和轻量级微调。XTuner 支持多种微调算法,如 QLoRA、LoRA 和全量参数微调。

项目地址:https://github.com/InternLM/xtuner

4
prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。

项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md

在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0