ChatGPT 人工智能 GPT4 伦理 生成式 医疗 监管 安全 机器学习 深度学习 神经网络 计算机视觉 强化学习 模型 算法 应用 开发 研究 工具 平台 框架 数据集 训练 部署 安全 合规 培训 投资 LLM,llm AI,ai,Ai 大模型 大语言模型 制图 生图 绘图 文生图 文生视频 生成式AI AGI 世界模型 sora chatGPT,chatgpt,ChatGpt claude openai Llama deepseek midjourney 红熊猫模型 Red panda,panda Stable Diffusion,StableDiffusion,stable DALL- E 3 DALL E DALL Flux,flux 扩散模型 混元大模型 文心一言 通义千问 可灵 Pika PixelDance 豆包 月之暗面 零一万物 阶跃星辰 搜索增强 MiniMax Talkie Agent prompt fastai LangChain TTS 微调 提示词 知识库 智能体
# 热门搜索 #
搜索
iPad可用AI绘画交互编辑神器火了,网友:颤抖吧PS
5285点击    2024-11-20 13:51


比PS更懂你的AI图片编辑工具——MagicQuill(魔法羽毛)来了!


1分钟出图:不用打字、简单勾画几笔就能编辑图片。


还支持直接在iPad上在线编辑!


研究团队来自香港科技大学、蚂蚁集团、浙江大学和香港大学等机构。


我们先一起看个例子感受一下——


有了MagicQuill,现在当你想要给人物更换衣服时,就可以直接画出领子,它会自动帮你补全。




加条项链、去除路人,几秒钟就搞定:




你还可以更换发色、让人物戴上花环,甚至更改花朵的颜色:




只需要1分钟多的时间,就可以实现上面这么多编辑效果,尤其是对于想要快速修改照片的用户来说,简直太方便了!



还有更多有趣的例子,机器人、汽车、蛋糕等,都可以快速修改!




有多位网友评论说,AI图像编辑真的进步飞快,“能读懂用户心思”是非常具有未来感的用户体验。



甚至还有网友说,颤抖吧,PS!



MagicQuill目标是理解精细修改意图


虽然目前AI图像编辑工具是百花齐放,但想要实现精细编辑,很多工具的效果还是比较令人捉急。


MagicQuill团队的目标是实现一个高效且精确的图像编辑系统,能够在用户进行细微修改时提供更好的使用体验。


这不仅包括实现细粒度的图像编辑控制、还要提供直观的用户界面、并实时预测用户意图。


最终团队选择基于扩散模型、文本和掩码的图像编辑方法、以及多模态大型语言模型(MLLMs) 进行实现,并设计了简约实用的用户界面。





MagicQuill的具体构成


一起来看看MagicQuill系统的具体构成是什么样的。主要分为3个部分:


1.编辑处理器


编辑处理器采用双分支架构,包括内容感知修复分支结构引导分支


内容感知修复分支利用UNet架构,结合掩码图像特征和预训练的扩散网络进行像素级修复。


结构引导分支则通过ControINet插入条件控制,确保编辑操作的精确性。



2.绘画助手


绘画助手通过多模态大型语言模型(MLLM)实时预测用户意图。


具体的任务称为“Draw&Guess”,也就是通过图像上下文解释用户笔画并自动生成相关提示。


团队采用的数据集通过生成边缘图和模拟用户笔画进行构建,并使用LLaMA模型进行微调。



3.创意收集器


创意收集器为用户提供了一个简约直观的界面,它兼容多个平台,团队也提供了在线demo,你可以在电脑或iPad上直接使用!


界面主要包括提示区、工具栏、图层管理、主画布、生成图像预览区、执行按钮和参数调整区。



按钮设计非常简洁,有上传图片、“增加”画笔、“减少”画笔、改颜色画笔、橡皮等等。



下方的参数调整区域更适合有丰富的生图经验的专业人士:



比如在Base Model Name里,你可以选择不同的基础模型,有适合生成真实风格的


SD1.5/realisticVisionV60B1_v51VAE.safetensors、适合生成幻想风格的


SD1.5/DreamShaper.safetensors等。


你还可以调整Negative Prompt避免生成部分内容、还有Fine Edge精细边缘调整、Grow Size调整笔触大小等等。完整工作流程如下图所示。



实际效果怎样呢?


为了更准确地测试MagicQuill的具体效果,团队还设计了3个验证实验:


1.可控生成评估


将MagicQuill与四个基线方法(SmartEdit、SketchEdit、BrushNet及其组合)进行比较,评估编辑处理器的可控生成能力,尤其关注边缘对齐和颜色保真度。


结果显示,MagicQuill的编辑处理器在所有指标上均优于基线方法,具有更高的边缘对齐度和颜色保真度。


2.预测准确性评估


为了评估MagicQuill在模拟手绘输入下的语义预测准确性,团队将它的绘画助手与三种最先进的MLLMs (LLaVA-1.5、LLaVA-Next、GPT-4o)进行了比较。


结果显示,绘画助手在所有测试的MLLMS中表现最佳,可以更准确地捕捉和预测用户绘图的语义含义。



3.创意收集器有效性评估


团队还通过用户研究评估了创意收集器的效率和可用性,并比较了它与基线系统的差异。


用户研究结果显示,MagicQuill在所有评估维度上都显著优于基线系统,包括复杂性和效率、一致性和集成、易用性以及总体满意度4个方面。


看来体验过的用户反馈都不错呢!



未来工作


团队还表示,这将是一个长期的工作,未来他们的目标是扩展系统功能,纳入更多的编辑类型,如基于参考的编辑,这将允许用户使用外部图像指导修改。


他们还计划实现分层图像生成,可以让编辑更加灵活、支持更多复杂合成。


系统也会支持排版,能够处理更多图像中的文本元素。


目前MagicQuill的代码、论文和Demo都已上线,感兴趣的小伙伴可以马上试用起来了!链接就在下方。


参考链接:https://magicquill.art/demo/


文章来自于“量子位”,作者“奇月”


AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
AI工作流

【开源免费】n8n是一个可以自定义工作流的AI项目,它提供了200个工作节点来帮助用户实现工作流的编排。

项目地址:https://github.com/n8n-io/n8n

在线使用:https://n8n.io/(付费)


【开源免费】DB-GPT是一个AI原生数据应用开发框架,它提供开发多模型管理(SMMF)、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL(智能体工作流编排)等多种技术能力,让围绕数据库构建大模型应用更简单、更方便。

项目地址:https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file



【开源免费】VectorVein是一个不需要任何编程基础,任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤,并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。

项目地址:https://github.com/AndersonBY/vector-vein?tab=readme-ov-file

在线使用:https://vectorvein.ai/(付费)

2
免费使用GPT-4o

【免费】ffa.chat是一个完全免费的GPT-4o镜像站点,无需魔法付费,即可无限制使用GPT-4o等多个海外模型产品。

在线使用:https://ffa.chat/

3
微调

【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台,可以对大语言模型(LLM)和多模态图文模型(VLM)进行预训练和轻量级微调。XTuner 支持多种微调算法,如 QLoRA、LoRA 和全量参数微调。

项目地址:https://github.com/InternLM/xtuner

4
prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。

项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md

在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0