【图片来源:@海辛 和 @阿文(已获得授权,感谢感谢🙏)】
复刻这个百万播放的“巨物”片段需要多少步?
放在之前,我大概率过先一遍 DALLE3,再尝试用 Flux 还原,折腾个把小时,然后把一个1000字的提示语搬上来。
而现在,我会告诉你把提示语忘了吧,这只需要两张图片。
也就是说卡比兽还能出现在更多的地方:
疑似卡比兽推到比萨斜塔证据流出
卡比兽撑比萨斜塔
卡比兽出现在圣诞街头
还可以是别的动画角色:
阿童木在伦敦大街收圣诞礼物
甚至可以不止一种材质:
卡比兽胸针
这就是最近几天我使用频率最高的生图工具:
操作界面相当简单
Whisk,一款 Google 用来秀肌肉的创意工具。原理相当朴素,但非常有用。
背后的逻辑是 Gemini 根据用户上传图片来生成图片的详细描述,然后自动使用这个描述通过 Imagen3 生成一张“能抓重点”的图。
使用地址🔗:https://labs.google/fx/zh/tools/whisk
听着简单,但在这之前想要实现指定主体的一致性,还真美那么容易。
之前,想要将动漫角色“拖进”真实世界的话,一是靠蒙,用不同的词去测模型是不是知道这个角色:
这种依靠提示词生成的角色,像,但又没那么像,总是觉得哪里怪怪的。
二是训练 LoRA,也就是用特定角色的图片素材,对基础模型进行微调。进而让模型掌握这个角色的样貌、体态等特征。这样你就不需要拿着词语碰运气,相当于自己造了一个模型能懂的词。
机会难得,今天我就要用 Whisk 和可灵1.6,跟童年里的动漫角色来个大合照。
为什么会有这个idea呢?
因为我发现虽然 Whisk 限制场景和风格只能有一张参考图片,但主体图片的格子可以“无限”叠加。
先来一张宝可梦合照
这次它们变成大型瓷娃娃了,而且左下角还多出了两个我没有输入的角色。
如果我一口气加入14个角色,Whisk还 hold 得住吗?
这里要额外提一下 Whisk 的好处,素材都是可以复用的,省去了多次上传。
答案揭晓!
可以看到大部分的角色还是很稳定的,但是角色一多起来,偶尔会有角色颜色融合等等问题。但好就好在,它即使融合了,风格也还是稳定,甚至能达到以假乱真的程度。
三二一,茄子!说实话,14个角色已经能覆盖一步动画里我喜欢的主要角色了。
图ready了之后,想进一步转成视频就更见简单了,
上可灵!之前我还用可灵做了一个一张图片百人同时挥手的挑战,没想到那么快就用上了
随着角色的增加,也会有那么几次没有抓住特点,这时候可以通过修改提示语来进行“二次修改”。
前面有提到,Whisk 是通过 Gemini 理解图片生成提示语,然后让 Imagen3 生成。
这个过程里生成出来的超长提示词,也没藏着捏着。
而是水灵灵地放在了图片下方,
连巴士是55号都单独记住了
而且,我注意到一点:同一张图片当做“主题、场景、风格”的输入时,输出的提示语都不一样。我们再来看一个标准一点的提示语。
PS:角色越多,提示语的格式反而没那么标准,估计是做了压缩
如果把动漫角色作为主题图片,Whisk 会详细地描述他的外貌特征,
石雕卡比兽推到比萨斜塔
(部分摘要)一个巨大、毛绒绒的 Snorlax 神奇宝贝玩具,以浅米色为主,配以蓝色点缀,推动着比萨斜塔。Snorlax的脸很安详,闭着眼睛,微笑着。
而将把角色图作为风格参考,Whisk 将会描述这张图的色彩、光线、线条。
那在这样的情况下,我用卡比兽作为主要角色图,然后用可达鸭作为风格图的话,会发生什么呢?
那就是……
卡比兽变色啦!
(部分摘要)以饱和的黄色为主色调,用细微的阴影来暗示其纹理。以产品为中心,色调有限,突出了 “橘子 ”饱和的黄色。
对比上面生成的卡比兽,这次的卡比兽变得更黄了一点,这抹黄就是可达鸭带来的!
看到这个效果,是不是能够理解一点这其中的生成逻辑了呢?
小遗憾的是,
也因为 Whisk 是先通过 Gemini 理解,再由 Imagen3 生成,这不可避免的带来一定的信息损失,
如果用真人当作主体输入的话,
你会发现人脸跟原图不太一致,都变成了别的脸
马斯克和奥特曼的脸都变了
而上述这一系列生成图片的操作,我们几乎没有用过对主体的描述性提示词。
也就是说,在whisk中,我们不再需要告诉它我要的这个人物长相如何,穿着如何,年龄如何,也不需要在赘述在一个什么季节,什么地点什么氛围的环境中。只要我们有参考图,这一切的一切都可以被省略。
我的双手又一次的被解放了。
AI绘图这个领域,到目前为止,相对比其他AI创作领域,是发展时间较长的一类了。
但似乎,有很长的一段时间,
都很少看到有更新鲜有趣的新功能出现。
直到,whisk的出现。
我们都知道,做同类型功能的迭代其实并不容易,功能需要越来越强,效果需要越来越好。
但在所有人都做同样的东西时,
创意就显得尤为重要。
那将激起摇摇欲坠的创作希望,
将引领一众鲜活的、热血的作品出现,
那是,一切的基石,
就像,AI刚刚开始那样。
文章来自于“卡尔的AI沃茨”,作者“卡尔 & 阿汤”。
【部分开源免费】FLUX是由Black Forest Labs开发的一个文生图和图生图的AI绘图项目,该团队为前SD成员构成。该项目是目前效果最好的文生图开源项目,效果堪比midjourney。
项目地址:https://github.com/black-forest-labs/flux
在线使用:https://fluximg.com/zh
【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台,可以对大语言模型(LLM)和多模态图文模型(VLM)进行预训练和轻量级微调。XTuner 支持多种微调算法,如 QLoRA、LoRA 和全量参数微调。
项目地址:https://github.com/InternLM/xtuner
【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。
项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md
在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0