嗨哈嗨大家好!我是阿真!
很惊喜,真没想到 Nano Banana 刚体验几天,咱们即梦4.0火速跟上了。不是赶鸭子上架那种,是真的很强的猛猛大货上新。
先说小结论:总体效果还是很不错的,进步很大也很方便。有的地方有些小的不足,后续在图片和文字中我会有提到。
另外,现在使用的提示词,难度说简单也简单说难也难,因为它更聪明了会帮我们补全,但是有时候补多了可能不是我们想要的,所以还是要多尝试去摸索自己最合适的那个度。
叠甲:本文文字内容均为手写,图片均为AI,如有涉及品牌,与品牌无关。上传的用于参考的原图都在图一或者前几张图。
话不多说,现在直接上案例喽~!一起和阿真速览即梦4.0 新玩法~
1.图像编辑
2.绘本系列
3.设计系列
4.小结
从趣味的开始,比如我有4张图,我想让它们组合起来,那么我就选择图片生成,将事先准备好的图一股脑全部传给即梦 4.0, 输出细节稍有不同,但整体比较和谐,辨识度也有保持:
提示词:让图一的角色,换上图二的发型,换上图三的造型,拿着图四的武器,黑色背景。
比如,可以让它参考图片生成新的动作。
提示词:
参考图片生成新的4个动作使用提示词。
基于一张图生成多张系列图也可以,材质和风格一致性保持很好(图一为原图):
提示词:
参考图片为我制作6张其他元素同样风格的物品。
保持同一背景但更换主体:
提示词:
基于图片制作8个其他动物的效果,风格不变。
轻松P图:
提示词:背后变成高速镜头动态模糊的效果;整体更明亮,在人物周边加上童趣涂鸦和英文手绘,手绘装饰,整体呈现乐观积极快乐的氛围。
乌萨奇加入三角洲行动:
提示词:
角色在背景中,中景。
有点大只了啊啊哈哈哈。
基于图片生成系列场景:
切换角度,但完全保持场景一致性:
提示词:基于照片设计8张同一场景完全不同拍摄角度的照片。
叠甲:没成功不要怪我,这个地方我目前也经常失败。
男人与狗狗:
提示词:让图一男人换上图二的衣服,将滑板换成图三的小狗。
即梦:感觉裤腿短了点,已经给你补上了。
基于原图替换产品,同时保持人物一致性/注意看下方美甲的补全和姿势的切换,我认为这样的细微变化是非常合理的:
提示词:图一的产品替换为图二,维持色彩饱和度与环境光线的协调统一,营造自然的视觉层次。
替换部分场景,同时切换光影。大家应该也看过很多类似的窗外风吹雨打,室内一片静谧的画面了:
提示词:窗外场景替换,4个方案,保持室内布局不变,注意构图角度,根据窗外场景调整光影效果。
有一点点小问题,那就是视角视平线的问题,简单来说,我们会觉得平面不平,这个是AI绘图目前依然普遍存在的问题。
摇起来:
来一个能体现它知识能力的案例,比如我没有在提示词中写明文字,但是让它备注建筑师名字+风格,它会像这样输出。整体可能不太准,目前主要是对于建筑设计大师部分作品的要素提炼:
提示词:基于水彩建筑手绘图基础造型和角度不变,生成8张单独的不同风格的建筑效果图,左上角标注建筑师名字+风格。安藤忠雄、隈研吾、扎哈·哈迪德、路易斯·康、彼得·卒姆托、密斯·凡·德·罗、勒·柯布西耶、贝聿铭。
基于即梦强大的中文生成能力和一致性,可以做的内容就更多了。
比如制作图文结合带有自己IP的青椒炒蛋教程(小短腿站在灶上了🤣):
提示词:生成一组关于如何做青椒炒蛋的说明书彩色漫画,每一张图1-个分镜,图片的小人展示具体步骤的操作方法,整体采用真实食材+插画小人+文字描述步骤的方式。注意小人动作有变化且合理。
比如基于角色输出绘本:
提示词:基于老奶奶角色使用6张图输出一个趣味童话故事,包含多个角色、对话气泡和声音音效等。
换个风格做双皮奶也可以(阿真圆润版):
通过4张图详细描述双皮奶制作步骤教程图,步骤说明要中文,风格采用卡通彩铅风格,步骤清晰,如果出现人物,比例要合理。
偶尔也会出现一点抽象翻车,比如这样:
猪猪冒险故事也可以:
多分镜,细节包括眼下的小痣都有好好保留:
提示词(有时候不灵):参考所给图片的角色与风格,生成 8 组分镜(起承转合),保持角色关键识别点一致;体现不同的场景,每格使用不同镜头语言与构图(大全景、近景、特写、俯拍、仰拍、运动镜头等),呈现丰富表情与动作。
基于单图制作多张海报:
提示词:
基于元海报,设计6个不同比例排版
换配色也可以:
基于单图制作系列周边:
因为文字能力提升了,所以更多可能可以尝试了。
文字细节好了很多,有空我再写个即梦4.0 的海报专场。
下面是测试多文字海报效果的部分效果展示,可以点击大图看看文字细节:
提示词:制作一个番茄工作法教程信息图,采用现代简约风格设计,使用番茄红、清新绿、纯白色的活力配色,垂直布局,A4比例。
主标题:"番茄工作法 - 高效时间管理"
包含以下4个核心模块,每个模块使用圆角卡片设计:
1. 基本原理
插图:大号番茄计时器图标
核心概念:"25分钟专注 + 5分钟休息"
循环模式:"工作→休息→工作→休息"
2. 执行步骤
插图:步骤流程图标
步骤1:"选择任务,启动25分钟计时器"
步骤2:"专注工作,拒绝一切干扰"
步骤3:"计时结束,休息5分钟"
步骤4:"4个番茄后,长休息15-30分钟"
3. 适用场景
插图:各种工作场景图标
学习:"阅读、写作、记忆"
工作:"编程、设计、分析"
创作:"绘画、音乐、写作"
4. 实用技巧
插图:灯泡和齿轮图标
技巧:"手机静音,清理桌面"
记录:"完成的番茄数量"
奖励:"达成目标后给自己小奖励"
底部配番茄和时钟图标:"专注当下,高效生活"
设计要求:番茄元素贯穿全图、计时器和时钟图标装饰、红绿配色活力十足、清晰的步骤指引
提示词:制作一个马尔代夫旅游必备物品清单,包含插图、防晒用品列表、水上活动装备、轻便衣物推荐、电子设备保护、药品准备和当地注意事项。
制作一个马尔代夫旅游必备物品清单信息图,采用温暖度假风格,使用米白、珊瑚粉、薄荷绿的柔和色调,包含防晒用品列表、水上活动装备、轻便衣物推荐、电子设备保护、药品准备和当地注意事项。使用圆角卡片、渐变背景、手绘风图标、友好字体、流动布局。
提示词:制作一个高效记忆法的信息图教程,包含5种记忆技巧的详细说明、每种方法的使用步骤、适用学科分析、练习时间建议和效果测试方法。
制作一个高效记忆法的信息图教程,使用多彩色柔和色彩色块配色,包含5种记忆技巧的详细说明、每种方法的使用步骤、练习时间建议和效果测试方法,注意要有边缘留白。
最后补一组大家可能比较关心的三视图效果。
三视图最好是以标准站立的姿势,双手自然往下的正视图作为参考图。
目前基于我的尝试单个输出效果不是太稳定,建议可以选择21:9比例直接输出一张长的再截图。提示词输入【输出三视图】即可(下面这里背面视图手指反了,连续尝试几次都是这个情况,期待改进)。
基于测试小结即梦4.0目前主要优点与不足:
优点:
指令编辑精准:指令简单,大白话就能完成增删改查,理解度高。能够覆盖多种场景,非常好玩。
特征保持较好:在插画/3D/摄影不同风格中都能维持角色特征(小众的风格比较难)。在使用参考等功能时,复刻风格和保持特征效果不错。
深度意图理解增强:知识理解更强,复杂指令都能准确识别,并且输出文字细节再次提升。可进行推理预测,在图中得到答案或者未来结果。
多图输入输出:可同时上传多张图进行组合、迁移、替换等复杂编辑;可以一次性生成多张相关联的图像,非常适合分镜草稿创作或灵感脑暴。
缺点:
提示词限制:部分场景对提示词限制较多,导致无法输出图片,可以进行提示词微调后多次尝试。比如改变视图这个,我经常要尝试很多次,单个出几乎没有成功过。
批量输出一致性:在批量输出的时候有可能会出现主体不够一致的情况。
多主体一致性:多主体场景控制能力稍有局限。
积分消耗:消耗积分比之前增加了。
对比Nano Banana:
个人认为即梦生图4.0 大部分场景可以替代 Nano Banana 。
即梦生图 4.0 在海报生成、中国文化理解、中文方向有显著优势,但是在更需要推理、更细节的逻辑理解、物理效果表现等方面对比 Nano Banana 还有优化空间。
一点私货:
别人的很好,我们的也很棒!4.0 真的是进步很大的一次更新,再次为即梦产品和豆包大模型打call,由衷希望产品越来越好!
好啦今天的分享就到这里,也许会有下期,也许会后续直接写豆包,谢谢大家看到这里,希望可以给大家带来更多灵感!如果觉得不错,新朋友欢迎关注,老朋友欢迎猛猛三连鼓励阿真~!
下期见~
阿真 | 视觉设计师 & AI创意工具探索者
专注 AI 相关,和大家分享成长路上的收获与好用工具。
阿真的知识库基建中:
https://a80cyp5nki.feishu.cn/wiki/YWtPwsN8CiIKLPkArgucPBQBnMX?from=from_copylink
文章来自于微信公众号“阿真Irene”,作者是“阿真”。
【开源免费】ai-comic-factory是一个利用AI生成漫画的创作工具。该项目通过大语言模型和扩散模型的组合使用,可以让没有任何绘画基础的用户完成属于自己的漫画创作。
项目地址:https://github.com/jbilcke-hf/ai-comic-factory?tab=readme-ov-file
在线使用:https://aicomicfactory.app/
【开源免费】FASTGPT是基于LLM的知识库开源项目,提供开箱即用的数据处理、模型调用等能力。整体功能和“Dify”“RAGFlow”项目类似。很多接入微信,飞书的AI项目都基于该项目二次开发。
项目地址:https://github.com/labring/FastGPT
【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台,可以对大语言模型(LLM)和多模态图文模型(VLM)进行预训练和轻量级微调。XTuner 支持多种微调算法,如 QLoRA、LoRA 和全量参数微调。
项目地址:https://github.com/InternLM/xtuner
【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。
项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md
在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0