ChatGPT 人工智能 GPT4 伦理 生成式 医疗 监管 安全 机器学习 深度学习 神经网络 计算机视觉 强化学习 模型 算法 应用 开发 研究 工具 平台 框架 数据集 训练 部署 安全 合规 培训 投资 LLM,llm AI,ai,Ai 大模型 大语言模型 制图 生图 绘图 文生图 文生视频 生成式AI AGI 世界模型 sora chatGPT,chatgpt,ChatGpt claude openai Llama deepseek midjourney 红熊猫模型 Red panda,panda Stable Diffusion,StableDiffusion,stable DALL- E 3 DALL E DALL Flux,flux 扩散模型 混元大模型 文心一言 通义千问 可灵 Pika PixelDance 豆包 月之暗面 零一万物 阶跃星辰 搜索增强 MiniMax Talkie Agent prompt fastai LangChain TTS 微调 提示词 知识库 智能体
# 热门搜索 #
搜索
CVPR'24:文生图提示词自动优化,还发现三个小窍门,人大度小满等机构出品
4973点击    2024-07-02 18:03

文生图也有自己的prompt优化工具了。


我们都知道,大模型输出的质量,很大程度上依赖于输入的prompt。尤其在文生图领域,对于prompt格外敏感。


来自中国人大、度小满等团队提出了一种全新的自动文本提示优化方法——动态提示自动编辑(Prompt Auto-Editing,PAE)。



它考虑了文本提示中的每个词在扩散生成过程的权重和注入时间步。


最终在多个公开数据集上进行了实验验证,包括Lexica.art、DiffusionDB和COCO。PAE方法不仅提高了图像的美学质量,还确保了图像与文本描述的语义一致性。


与传统方法相比,PAE在控制图像生成过程中的精确性和灵活性方面表现更优。



关键在动态prompt


当前,尽管用户可以通过手动修改提示来尝试生成更优质的图像,但这一过程不仅效率低下,而且难以精确控制。


为了提高效率并优化生成结果,团队研发了PAE方法,这一方法的关键在于采用了动态提示(Dynamic Prompts)。


首先是为用户输入的简短提示词扩充出更多修饰词,其次是通过动态调整新添加的修饰词的权重和注入时间步,自动细化优化文本提示,从而更精准地控制图像生成过程。



1、Dynamic Prompt的定义


具体来说,团队定义了一种新的提示格式,用以丰富初始提示的信息,命名为动态精细控制提示(DF-Prompt)


文本prompt中的每个token会被拓展成一个三元组,在原有基础上新添加了用来添加权重的浮点数,以及文本生效的时间步范围。


DF-Prompt是原本的提示词和修饰词的结合。DF-Prompt 的本质在于促进更精确和控制的生成。为了便于演示和代码实现,我们还定义了一个纯文本格式:[token:range:weight]


以portrait of a beautiful forest goddess, beauty, very aesthetic, masterpiece为例,其中beauty拓展成三元组可以表示为[beauty:0.5→0:0.75],其权重为0.75,生效的时间步范围为后50%的降噪步骤。


2、训练数据收集


DiffusionDB数据集收集了用户生成图像时使用的prompt,其中包含大量的修饰词、风格描述等,可以帮助我们训练提示词拓展与精细优化的自动化模型。


在DiffusionDB等数据集中,一般逗号之前的文本包含主要信息,描述图像的主题,而逗号之后的文本被视为次要文本,提供补充后缀作为修饰语。


比如“a red horse on the yellow grass, anime style”,主要信息为“a red horse on the yellow grass”,次要文本为“anime style”。


我们把逗号之前的文本作为短提示,剩余的文本(次要文本)形成了修饰词集合,以此来构建训练数据中的输入提示词和目标提示词。


最后,我们定义一个置信分数,利用美学指标和CLIP分数来筛选训练数据,确保用于训练的提示词能够引导生成高美学评分、高图文对齐度的图像。


3、训练阶段


如图所示,使用收集好的训练数据进行两阶段训练。



阶段一:监督式微调阶段。


在收集好的数据集上对语言模型进行微调,以生成优化后的文本提示。每条训练数据都包含了短提示词文本和修饰词集合,这里的优化目标就是让语言模型根据短提示词扩展出更多修饰词。在这种方式中,训练好的模型能够处理简短的提示,并预测适当的修饰词,从而提升生成图像的美学质量。


阶段二:强化学习阶段。


使用强化学习优化文本提示,通过多维度奖励系统来指导这一过程,考虑到美学评分、语义一致性和用户偏好。这一阶段的主要目的是为每一个修饰词添加权重和作用时间步,实现精细化的控制。我们使用 PPO 算法,在训练集上最大化期望累积奖励。奖励函数是在生成的图像上计算的,考虑了包括CLIP分数、PickScore、美学评分等指标。


通过观察自动学习到的权重分布、时间步范围统计信息,我们还有了一些有趣的发现:



  • 使用艺术家名称和纹理修饰词:通过引入艺术家的名字和纹理修饰词,可以显著提高生成图像的艺术质量,并保持语义的准确性。

  • 在扩散过程的后半阶段引入风格元素:在图像生成的扩散过程后半段引入风格化元素,可以更好地融合这些元素,从而提高整体的视觉和艺术效果。

  • 降低复杂术语的权重:对于复杂的术语,适当降低其权重可以确保图像生成既平衡又具吸引力,避免过分强调某些元素,从而影响图像的整体美观。

arxiv链接: https://arxiv.org/abs/2404.04095


代码链接: https://github.com/Mowenyii/PAE


文章来自于微信公众号“量子位”,作者 “PAE团队”


关键词: 文生图 , 提示词 , AI , AI图片 , 大模型
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
微调

【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台,可以对大语言模型(LLM)和多模态图文模型(VLM)进行预训练和轻量级微调。XTuner 支持多种微调算法,如 QLoRA、LoRA 和全量参数微调。

项目地址:https://github.com/InternLM/xtuner

2
prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。

项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md

在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0