打开多模态自由创作的大门。
谷歌 Nano Banana 掀起的全球创作狂欢尚未消退之际,字节又玩了把大的。
近日,字节跳动开始内测最新的豆包・图像创作模型 Seedream 4.0。与此前版本相比,Seedream 4.0 首次支持多模态生图,同一模型可以实现文生图、图像编辑、组图生成,并在核心能力上迎来了显著提升:
提示词:将平视视角改为俯视视角,将近景改为中景,并把画面比例改为 16:9。
提示词:根据参考图中两个男生的形象,生成一组动作片分镜,原比例。
从更长远的技术发展视角来看,多模态自由创作正成为大势所趋。无论是文本驱动、图像驱动,还是多图融合,用户都期待能以更自然、更随心的方式与 AI 协作。
Seedream 4.0 内测一出,网友们就把它玩出了花。
比如基于多图融合能力,上传两张角色照片,再加上火柴人自拍动作,即可实现同框合影。
提示词:将图1男子和图2女子合进一张画面,参考图3姿势。
或者动动嘴就能给模特一键换时尚穿搭:
提示词:给图 1 模特穿上图 2 的穿搭。
我们也在第一时间拿到了内测资格。据机器之心了解,字节 Seedream 4.0 模型将很快在豆包、即梦全量上线,并通过火山引擎开放给企业客户。
接下来还是老规矩,我们亲自上手体验一番,看看字节 Seedream 4.0 成色几何。
如今,图像生成已经不再是从文本到画面的单向创作。用户需要的也不仅仅是高质量的图像输出,更是一个能够在多模态输入间灵活切换、在生成与编辑之间无缝衔接的完整创作工具。
无论是单图参考、多图组合,还是基于文本与图像的自由融合,Seedream 4.0 都能在同一模型下完成从生成到编辑的一站式创作,让用户在效率与可控性上同时获得新的自由度。
多图输入、输出
先来试试它的多图融合能力。
我们上传了马斯克、奥特曼这对劲敌的半身照,以及一张手绘自拍动作参考图,并在提示词中指定将两位人物合并到同一画面,完成一张「世纪大和解」的自拍照。
模型不仅准确捕捉了参考姿势,还能在保证两位主体身份特征的同时,实现自然的构图与表情协调。不同来源的图像在风格与细节上被平滑统一,没有出现常见的「换脸违和感」或「姿势错乱」问题。
提示词:将图 1 男子和图 2 男子合进一张画面,参考图 3 姿势
除了多图输入,Seedream 4.0 还支持多图输出。比如上传一张情侣正面照,让它生成一组爱情片分镜。
Seedream 4.0 能够在严格遵循人物外观一致性的基础上,设计出超市购物、雨中撑伞等浪漫场景。这种输出方式避免了传统生成模型常见的形象漂移问题,让用户得到一整套故事化的图像。
提示词:根据参考图男生和女生的形象,生成一组爱情片分镜,原比例,不要改变男生和女生的相貌,不要改变他们的发型、衣服。
深度意图理解
在深度意图理解方面,Seedream 4.0 也展现出强大的场景重建能力。
我们上传了一张室内设计的线稿图,并要求将其改造成真实场景。模型实现了细节上的高度还原,从沙发、桌子、台灯等主要家具,到画框、绿植等小型装饰,都能做到几乎 1:1 的精准复刻。
这意味着,Seedream 4.0 并非只是填色或补全,而是真正理解了用户的意图,并在此基础上进行合理、完整的空间构建,生成结果真实,细节丰富,整体观感接近专业设计渲染效果。
提示词:把这个线稿改成真实的场景
Seedream 4.0 还能理解抽象符号与图像元素之间的关系。比如在一张瘦弱小猫的图片旁画上外扩箭头,它就能推理出我们的意图是让小猫变胖,最终生成画面中小猫体型明显更加圆润。
相比于只能依赖文字描述的模型,这种图文结合的意图解析使创作过程更加直观高效。
提示词:根据箭头方向改变小猫体型。
此外,上传一张人物摄影照片,它还能严格遵循文本要求进行逆向工程,描绘其创作过程。
提示词:展示布景搭建的场景,模特坐着滑手机,身后有一位女性正在帮她整理头发,背景里有一名男子站在梯子上挂幕布,幕布后露出摄影棚的环境。
高度特征保持
以往,图像编辑模型在细节还原和物体特性表现上,常常出现失真或不自然的现象,而此次 Seedream 4.0 提供了更高的稳定性与精准度。
比如将参考图转化为手办测试中,Seedream 4.0 不仅遵循了提示词的多重约束,还能让角色形象与参考图保持高度一致,盒子、电脑屏幕、底座等元素布局合理,模型生成的 PVC 透明度与光泽感也更接近实物效果。
提示词:把参考图片转化为一个角色手办,在手办背后放置一个印有该角色形象的盒子,并在旁边的电脑屏幕上显示 Blender 建模过程,盒子前方放一个圆形塑料底座,角色手办立在上面,让 PVC 材质看起来清晰透亮,场景尽量设置在室内。
Seedream 4.0 这一功能在商业化场景中大有作为。
我们上传了两只小狗飞奔的图片和一张白色帆布包的产品照,并输入提示词「图 2 帆布包上印着图 1 形象」。
模型在处理跨图像的组合任务时,能精准捕捉主体特征、图像比例,并将其协调融入目标物体之中,避免了贴图感。
提示词:图 2 帆布包上印着图 1 形象
我们还可以制作表情包,Seedream 4.0 忠实还原了仕女的服饰与造型特色,并充分发挥想象力,生成扮鬼脸、打哈欠、比耶、愤怒等多款生动表情,角色形象和画风均没有走样。
提示词:参考图片形象生成一组搞怪表情包
精准指令编辑
对于增删改替常规玩法,Seedream 4.0 也有了较大进步。
比如让男生戴上耳机和墨镜,并手捧一束花,模型自然完成了三项元素的添加。耳机、墨镜与花束都与人物形象高度契合,整体效果真实自然。
提示词:让男生戴上头戴式耳机,戴着墨镜,手捧一束花
或者删除背景中杂乱的路人,模型不仅把这些无关元素删除得干净利落,还能自然填充背景,画面衔接流畅,完全看不出 P 图痕迹。
提示词:删除背景中的路人
即使是更为复杂的任务,如更换人物发型,Seedream 4.0 也能在保证面部特征和气质一致性的基础上,流畅转换发型,发丝细节丰富,还避免了因局部修改导致的整体失真。
提示词:将参考图中的女生发型分别改为大波浪卷、高马尾、丸子头
为了让大家能玩明白,官方还总结出了一套提示词指南。
为了更直观地展现字节 Seedream 4.0 和谷歌 Nano Banana 这两款模型的差异与优势,我们将其进行了多项对比测试。
Round1:生成 OOTD
图 1 为原图;图 2 为 Seedream 4.0;图 3 为 Nano Banana. 提示词:请根据上传的参考照片,生成一张俯拍平铺的 OOTD 穿搭图,服装、配饰、鞋子需与上传的参考照片 1:1 复刻。
从结果来看,Seedream 4.0 与 Nano Banana 的整体表现都接近预期,能够较好地还原出参考造型的整体搭配与构图。
不过在材质精准性与细节控制上仍有优化空间,Seedream 4.0 生成的毛线马甲材质对不上号,Nano Banana 则是纹理不对,同时在生成的包袋上额外出现了一条肩带。
Round2: 一键换衣
我们又上传了一张模特照和一张 OOTD 俯拍平铺图,并输入提示词:Change the outfit with the uploaded one.
图 1、图 2 为原图;图 3 为 Seedream 4.0 生成效果;图 4 为 Nano Banana 生成效果。提示词:Change the outfit with the uploaded one.
这两款模型都能够严格遵循提示词要求,将参考穿搭准确替换到模特身上,整体效果自然,服装细节和轮廓基本与参考图一致。
Round3: 漫画分镜
漫画分镜的生成是对模型理解力与画面统筹能力的综合考验。
我们以一张吉卜力风格的女孩形象为参考,要求模型延展出两组治愈系场景。
图 1 为原图;图 2、图 3 为 Seedream 4.0 生成效果;图 4、图 5 为 Nano Banana 生成效果。提示词:参考这张图的画风和人物形象,生成一组治愈系漫画:1. 骑着自行车在山间小路上行驶;2. 穿着透明雨衣,雨衣表面有水珠,右手提着装满鲜红番茄的柳条篮子,行走在泥泞乡间小路,小路两侧是繁茂番茄田(红番茄挂藤,绿叶带雨),田边点缀白 / 粉 / 黄 / 蓝野花,细雨纷飞。
两者在复杂分镜生成方面都已具备成熟能力,Nano Banana 一如既往稳定,Seedream 4.0 则在画面色彩搭配上更加鲜明,整体清晰度也更高。
Round4: 修复老照片
我们又上传了一张破损严重的旧照,并要求这俩模型进行自动修复。
图 1 为原图;图 2 为 Seedream 4.0;图 3 为 Nano Banana。提示词:Restore this photograph.
它们的处理结果都达到了可用水准,能够有效去除照片中的裂痕与瑕疵,并在保持原有影像风格的前提下,恢复出较为完整的画面。
二者实力几乎不相上下,Seedream 4.0 的成片更清晰,人物面部轮廓与背景纹理表现得更加锐利; Nano Banana 的颗粒感更强,也更有老照片的味道。
Round5: 中文排版
在涉及中文文本生成与排版的任务中,Seedream 4.0 能将英文正确替换为中文,书写感真实,整体与封面设计协调一致;而 Nano Banana 在这一任务中则出现了明显问题,生成的文字难以辨认,呈现出类似「鬼画符」的效果。
图 1 为原图;图 2 为 Seedream 4.0;图 3 为 Nano Banana。提示词:Change the text on the image to "时尚芭莎" in a handwritten style.
综合这五项测试结果来看,Seedream 4.0 与 Nano Banana 在图像生成与编辑的核心能力上都展现了较高水准,能够较好地理解复杂提示词并生成符合要求的内容。
两相对比,Nano Banana 在多图融合中主体一致性更稳定,而 Seedream 4.0 则在美感、清晰度以及中文排版等方面表现更为突出,尤其在多语言环境与高精度任务中展现出明显优势。
可以预见,在多模态与生成式 AI 的赛道上,竞争将持续加速,而用户也将因此获得更丰富、更具想象力的创作体验。
文章来自于“机器之心”,作者“杨文”。
【开源免费】ai-comic-factory是一个利用AI生成漫画的创作工具。该项目通过大语言模型和扩散模型的组合使用,可以让没有任何绘画基础的用户完成属于自己的漫画创作。
项目地址:https://github.com/jbilcke-hf/ai-comic-factory?tab=readme-ov-file
在线使用:https://aicomicfactory.app/
【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。
项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md
在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0