ChatGPT 人工智能 GPT4 伦理 生成式 医疗 监管 安全 机器学习 深度学习 神经网络 计算机视觉 强化学习 模型 算法 应用 开发 研究 工具 平台 框架 数据集 训练 部署 安全 合规 培训 投资 LLM,llm AI,ai,Ai 大模型 大语言模型 制图 生图 绘图 文生图 文生视频 生成式AI AGI 世界模型 sora chatGPT,chatgpt,ChatGpt claude openai Llama deepseek midjourney 红熊猫模型 Red panda,panda Stable Diffusion,StableDiffusion,stable DALL- E 3 DALL E DALL Flux,flux 扩散模型 混元大模型 文心一言 通义千问 可灵 Pika PixelDance 豆包 月之暗面 零一万物 阶跃星辰 搜索增强 MiniMax Talkie Agent prompt fastai LangChain TTS 微调 提示词 知识库 智能体
# 热门搜索 #
搜索
AI逆向绘画火了!一键重绘梵高《星空》,来自华盛顿大学
6827点击    2024-10-08 17:43

梵高名作也能被AI逆向破解了?!


直接喂一张原图,AI就能化身梵高·本高一点点重绘整张图画(原图可任意)



仔细对照两边,AI几乎实现了1:1复刻,还为我们这些绘画小白清晰展示了整幅图的构建过程。



这项魔法来自华盛顿大学,项目名为Inverse Painting,相关论文已入选SIGGRAPH Asia 2024,其中两位作者还是东北大学(Bowei Chen )和上海科技大学(Yifan Wang)的校友。



项目一经发布后即在Reddit引起热议,最高赞更是为艺术家群体操起了心(doge)。


艺术家可能会对此感到愤怒



不过也有人表示,这对于人们学习如何绘画非常有帮助。



甚至可以用来“破解”一些大师遗作,提取隐藏或失传的技术。



基于扩散模型


从原图→绘画过程延时视频,Inverse Painting采用基于扩散的逆绘画方法。


通过学习真实艺术家的绘画视频,结合文本和区域理解来定义绘画 “指令”,并使用基于扩散的渲染器更新画布,从而生成类似于人类艺术家绘画过程的视频。



进一步拆解,这一过程主要包括以下步骤:


  • 学习艺术家的绘画过程。收集了294个丙烯酸风景画绘画过程视频(平均时长9分钟),并进行视频帧分割、裁剪和筛选等预处理操作,让模型学习绘画过程;
  • 定义绘画指令。基于对画作不同元素(比如天空、树木、人物等)以及元素相互关系的理解,模型会生成一组“绘画指令”,告诉模型应该先画什么,后画什么;
  • 使用扩散模型。用扩散模型生成逼真图像,并逐步在画布上添加细节,就像艺术家绘画时一样;
  • 文本和区域理解。模型还会生成文本指令和区域掩码,前者告诉模型要绘制的内容,后者用来指定内容的确切位置;
  • 逐步渲染。从一个空白画布开始,逐步生成完整绘画过程;
  • 时间控制。为了模拟真实世界中艺术家的绘画速度,模型还会考虑每步之间的时间间隔;


这些步骤整体可归为两阶段训练+测试,如下所示:



第一阶段:指令生成(Instruction Generation)


这个阶段主要生成两个关键指令集,文本指令生成器(Text Instruction Generator)和区域掩码生成器(Mask Instruction Generator)


前者通过比较目标画作和当前画布的状态,生成一个简短的文本指令,比如“画天空”或“加花朵”,以此决定下一步应该添加哪些元素。


后者是一个二进制图像,指明了画布上应该更新哪些部分。


两者一结合,确保模型只在画布上合适的区域进行绘制。



第二阶段:画布渲染(Canvas Rendering)


接下来使用第一阶段生成的指令来更新画布。


利用文本指令和区域掩码,以及当前画布的图像和目标画作,一个基于扩散的渲染器被用来更新画布。


这个渲染器采用了一种叫做“去噪扩散概率模型”的技术,它逐步从噪声图像中去除噪音,以生成连续的图像帧。


总之,渲染器在更新画布时会考虑多种条件信号,包括文本指令、区域掩码、时间间隔,以及目标画作和当前画作的特征。


这些条件信号帮助渲染器更准确地模拟人类艺术家的绘画风格和过程。



测试(Test-Time Generation)


在测试阶段,模型使用训练好的管道从头开始生成一幅画作。


这里主要有两个关键:


  • 自回归过程。每一步都依赖于前一步生成的结果,以此生成一个连贯的绘画过程;


  • 固定时间间隔。在每一步之间采用固定时间来更新画布,模拟真实绘画过程中的时间流逝;


最终,与三个基线方法(Timecraft、Paint Transformer、Stable Video Diffusion)相比,其生成结果明显更优。



同时,相关变体也取得了SOTA结果。



其中两位作者为华人


简单介绍下项目作者,一共5位,其中两位是华人。



Bowei Chen (陈柏维),本科就读于国内东北大学软件工程专业(2016年入学),后分别在卡内基梅隆大学机器人研究所和华盛顿大学攻读硕博。


研究兴趣为计算机视觉和图形学的交叉点,重点是图像和视频生成。



Yifan Wang,本科就读于上海科技大学计算机专业,今年刚获得华盛顿大学CS博士学位。


个人主页显示了多段工作经历(含字节、谷歌、Adobe等),目前是Meta Reality Labs Research的一名研究科学家。



实际上,这个团队进行的AI逆向绘画之前也有,网友们还提到了Paints Undo这个项目。


当时主要应用于动漫领域,短短3个月已在GitHub揽星3.3K。



对于这事儿,人们一直褒贬不一,最大争议在于人们担心有人会利用AI谎称作者。


毕竟通过讲解艺术思路是作者证明作品原创性的手段之一。



甚至对于它能教人们学绘画这事儿,也有网友以自身经历出来反驳:


目前不太符合真实绘画过程



所以,有了解绘画的童鞋来说说看吗?


文章来自于“量子位”,作者“一水”。