设计界的「GPT时刻」 | 像人一样利用“分层设计思维”颠覆传统设计生成,无需重训练!

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
AITNT-国内领先的一站式人工智能新闻资讯网站 搜索
设计界的「GPT时刻」 | 像人一样利用“分层设计思维”颠覆传统设计生成,无需重训练!
4666点击    2024-12-31 13:02

  平面设计是一门艺术学科,它们致力于创造一些吸引注意力和有效传达信息的视觉内容。为了减轻人类设计师的负担,各种各样的海报生成模型相继被提出。它们只关注某些子任务,远未实现设计构图任务;它们在生成过程中不考虑图形设计的层次信息。为了解决这些问题,作者将分层设计原理引入多模态模型(LMM),并提出LaDeCo算法。LaDeCo能够将艰巨的任务分解为更小的子任务,使生成过程变得更加流畅和清晰。LaDeCo在平面设计中的一些有趣应用,如分辨率调整、元素填充、设计变化等。它甚至在某些设计子任务中表现优于专用模型,而无需任何特定任务的训练。


项目主页-https://elements2design.github.io/

代码链接-https://elements2design.github.io/

论文链接-https://arxiv.org/pdf/2412.19712


01-LaDeCo背景简介


设计界的「GPT时刻」 | 像人一样利用“分层设计思维”颠覆传统设计生成,无需重训练!


平面设计是一门艺术学科,它们致力于创造一些吸引注意力和有效传达信息的视觉内容。如今,创造具有视觉吸引力的设计依赖于具有艺术创造力和技术专长的人类设计师,他们能够巧妙地整合图像、标题和装饰性装饰等多模态图形元素。这是一个复杂而耗时的过程,需要仔细考虑许多方面。如图a所示,重要的是要确保主要对象(即披萨)不会被其它元素所遮挡。为了可读性,文本和参考底图之间应该具有足够的对比度。此外,设计师还需要调整元素大小,使设计平衡。在这项工作中,作者将一组元素组合成整体设计的挑战性过程称为组合设计。


为了减轻人类设计师的负担,最近,人们对开发生成模型来简化这一过程越来越感兴趣。现有的工作大多集中在设计构图的某些典型子任务上。之前的一些方法研究了内容感知布局生成,其目的是在给定画布上自动排列图形元素,同时确保主对象保持畅通无阻。尽管这些方法能够创建高质量的布局,但它们通常只考虑背景图像内容,而忽略其他元素的内容。此外,它们在布局生成过程中无法预测与文本相关的属性,这限制了它们生成完全集成设计的能力。


另一个代表性的子任务称为排版生成。它的目标是为文本元素生成字体、颜色、大小和其他属性,增强美观性和可读性。然而,它忽略了平面设计中的视觉元素。总而言之,所有这些研究都没有达到整体设计创作的水平。因此,用户必须手动集成不同功能的模型来实现设计组合,这带来了高昂的成本和不必要的障碍。


02-LaDeCo算法简介


设计界的「GPT时刻」 | 像人一样利用“分层设计思维”颠覆传统设计生成,无需重训练!


尽管最近的研究为平面设计开发了各种生成模型,但它们通常存在以下的局限性:它们只关注某些子任务,远未实现设计构图任务;它们在生成过程中不考虑图形设计的层次信息。


为了解决这些问题,作者将分层设计原理引入多模态模型(LMM),并提出LaDeCo算法。具体来说,LaDeCo首先对给定的元素集进行层规划,根据其内容将输入元素划分为不同的语义层。基于规划结果,它随后预测以逐层方式控制设计构图的元素属性,并将先前生成的层的渲染图像包含在上下文中。


凭借这一富有洞察力的设计,LaDeCo能够将艰巨的任务分解为更小的子任务,使生成过程变得更加流畅和清晰。大量实验结果证明了LaDeCo在设计成分方面的有效性。


此外,作者还展示了LaDeCo在平面设计中的一些有趣应用,如分辨率调整、元素填充、设计变化等。它甚至在某些设计子任务中表现优于专用模型,而无需任何特定任务的训练。


03-LaDeCo算法应用场景


03.01-设计不同组合的海报


设计界的「GPT时刻」 | 像人一样利用“分层设计思维”颠覆传统设计生成,无需重训练!


上图展示可该算法可以根据不同的输入内容组合成不同风格与形式的海报,这在真实场景中又很好的应用价值。


03.02-自适应调整不同分辨率


设计界的「GPT时刻」 | 像人一样利用“分层设计思维”颠覆传统设计生成,无需重训练!


上图展示了LaDeCo算法强大的自适应能力,它能够生成具有不同纵横比的图形设计,满足不同用户在不同场景下的需求。


03.03-填充新元素


设计界的「GPT时刻」 | 像人一样利用“分层设计思维”颠覆传统设计生成,无需重训练!


上图展示了该算法的目标填充效果,适合对输入的海报进行编辑,例如:增加一些新的元素或者内容等场景。


04-LaDeCo算法整体流程


设计界的「GPT时刻」 | 像人一样利用“分层设计思维”颠覆传统设计生成,无需重训练!


上图展示了LaDeCo算法的整体实现流程,作者从分层设计原则中汲取灵感,将整体平面设计分解为不同的层,并逐步创建这些层以达到完整的设计,使设计构图过程更加流畅清晰。在这里,层是具有相同语义标签的图形元素的集合。详细的步骤如下所述:


  • 首先,它利用GPT-4o来获取输入元素的语义标签,而层结构信息是从预测中获得的。
  • 然后,LaDeCo对LMM进行微调,从而实现分层设计组合。
  • 最后,生成每一层之后,中间设计将被渲染为图像并反馈到LMM中,从而指导后续层的生成。


05-LaDeCo算法实现细节


05.01-不同层的渲染结果


设计界的「GPT时刻」 | 像人一样利用“分层设计思维”颠覆传统设计生成,无需重训练!


通过检查大量已完成的设计作品并咨询经验丰富的设计师,作者按照放置顺序考虑了5个设计层,即背景、底图、徽标/图像、文本和装饰层。通过在空画布G0上面顺序渲染这些层,从而得到G1到G5结果,其中G1仅表示背景层,G2包括背景层和底层,以此类推,G5表示完整的最终设计。值得注意的是,层结构并不局限于作者所提出的结构。只要合理,用户可以进行灵活地添加或删除。


05.02-分辨率自适应细节


设计界的「GPT时刻」 | 像人一样利用“分层设计思维”颠覆传统设计生成,无需重训练!


上图展示了LaDeCo将相同的输入元素组合到不同画布尺寸的设计中的效果。LaDeCo可以在不同画布尺寸的条件下实现设计构图(称为分辨率调整)。预测的属性将根据画布大小进行调整,使最终设计在各种画布大小中都具有吸引力。


05.03-模型架构细节


设计界的「GPT时刻」 | 像人一样利用“分层设计思维”颠覆传统设计生成,无需重训练!


该模型由三个组件组成:视觉编码器、投影仪和LMM骨干。视觉编码器负责对元素图像和中间设计进行编码,生成图像嵌入。然后,投影仪投影这些嵌入,用来匹配骨干所需的隐藏状态维度。最后,使用骨干来模拟跨层的关节分布,确保分层设计过程中的凝聚力。为了降低计算复杂度,将2D平均池操作应用于视觉编码器的输出,从而有效地压缩图像标记。


06-LaDeCo算法性能评估


06.01-主观效果性能评估


设计界的「GPT时刻」 | 像人一样利用“分层设计思维”颠覆传统设计生成,无需重训练!


上图展示了该算法与多个SOTA方法(GPT-4o、FlexDM)在相同输入下的生成效果。通过观察与分析,我们可以发现:该算法生成的结果与GT最接近。尽管还有较大的差距,但是已经算是迈出了重要的一步。


设计界的「GPT时刻」 | 像人一样利用“分层设计思维”颠覆传统设计生成,无需重训练!


上图展示了该算法与多个SOTA方法(FlexDM、OpenCOLE)的生成效果。该算法生成的结果与GT最接近。通过观察与分析,我们可以发现:尽管还有较大的差距,但是已经算是迈出了重要的一步。


06.02-客观效果性能评估


设计界的「GPT时刻」 | 像人一样利用“分层设计思维”颠覆传统设计生成,无需重训练!


上表展示了该方法与多个SOTA方法(FlexDM、GPT-4o)的多项客观指标评估结果。通过观察与分析,我们可以发现:与其它基线方法相比,该算法在多项评估指标上面都获得了不错的得分效果,进一步拉近了与GT之间的差距!


07-LaDeCo算法效果展示


设计界的「GPT时刻」 | 像人一样利用“分层设计思维”颠覆传统设计生成,无需重训练!


设计界的「GPT时刻」 | 像人一样利用“分层设计思维”颠覆传统设计生成,无需重训练!


图7.1-LaDeCo算法生成效果展示1


设计界的「GPT时刻」 | 像人一样利用“分层设计思维”颠覆传统设计生成,无需重训练!

设计界的「GPT时刻」 | 像人一样利用“分层设计思维”颠覆传统设计生成,无需重训练!


图7.2-LaDeCo算法生成效果展示2


设计界的「GPT时刻」 | 像人一样利用“分层设计思维”颠覆传统设计生成,无需重训练!

图7.3-LaDeCo算法生成效果展示3


文章来自于“AI产品汇”,作者“AI产品汇”。


设计界的「GPT时刻」 | 像人一样利用“分层设计思维”颠覆传统设计生成,无需重训练!

关键词: AI , AI设计 , LaDeCo , 人工智能
AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
免费使用GPT-4o

【免费】ffa.chat是一个完全免费的GPT-4o镜像站点,无需魔法付费,即可无限制使用GPT-4o等多个海外模型产品。

在线使用:https://ffa.chat/

2
微调

【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台,可以对大语言模型(LLM)和多模态图文模型(VLM)进行预训练和轻量级微调。XTuner 支持多种微调算法,如 QLoRA、LoRA 和全量参数微调。

项目地址:https://github.com/InternLM/xtuner