
家人们,
马上没几天快过年了,明显各个厂商已经开始疯狂卷了。
上周到现在,让我们来算算有多少东西了,
5.3 Codex,4.6 Opus, 可灵3.0,然后是Seedance 2.0和Seedream 5.0。。。
再到今天千问的图像模型,Qwen-Image-2.0也正式发布了。
OK,再想想后来马上要来的大更新,别卷了,别卷了,你们真的别卷了。
我直接上手进行了一些测试,可以看看效果。
●
02
现在大部分的模型对文字的渲染都不算太差。但是细节上总归还是有些问题,特别是大段文字出现的时候。
生成与下面古诗相符合的海报图,并把下面古诗内容写在海报上,符合美学观感,手写字体,毛笔楷体,最后落笔,“唐. 王勃 滕王高阁临江渚,佩玉鸣鸾罢歌舞。画栋朝飞南浦云,珠帘暮卷西山雨。闲云潭影日悠悠,物换星移几度秋。阁中帝子今何在?槛外长江空自流。

FIGURE 01 / POETRY POSTER
这个文字渲染的是真的好,非常精准。
●
03
这里一个例子的手绘图,我用的是英文先。
A high-quality 2D concept design sketch and technical illustration of Kobe Bryant. Clean, sharp linework, precise drafting style, and flat coloring. He is posed dynamically. Vertical split: Left side is clean line art of Kobe in his Lakers #24 jersey with minimal shading. Right side is a detailed mechanical schematic cutaway showing complex gears, pistons, wiring, and a stylized Black Mamba logo heart, drawn like an engineering draft with callout lines. To the right, stylized design manuscript typography and technical annotations read: 5x NBA CHAMPION with schematic ring icons, NBA MVP (2008), 18x ALL-STAR, and a technical chart titled CAREER POINTS. The background is aged beige parchment paper texture with faint design grid lines and blueprint aesthetic. No photorealism

FIGURE 02 / TECHNICAL SKETCH
虽然人物形象上不是完全像科比,但是也还原的非常不错了。纯文生图,人物就能生成这样,真的很强。而且文字都是非常精准的渲染,也完全遵守我给他的指令。
●
04
一个一日上海旅游攻略 ,攻略风格要求手写+图文并貌详细

FIGURE 03 / TRAVEL GUIDE
这个文字渲染的是真的不错。再来个稍微复杂点的,做番茄牛腩煲教程,提示词来自@cnyzgkc。
这是一个手绘风格教学食谱信息图的设计规范。整体风格要求由专业厨师写给普通人的教学食谱,使用Z字形动线排版(左上→右上→左下)确保阅读顺畅,采用彩色水彩笔速写风格搭配细腻墨线轮廓,运用2025主流插画配色与笔触,以米色纸张纹理背景营造温暖、质朴、亲切的氛围,插图必须让人看了就想做。内容结构通用版包括:顶部醒目标题《{菜名}》;步骤区块采用Z动线排版共3-5步,每个步骤包含手绘步骤插图(彩色水彩+墨线)、简短图文说明、厨师秘技、小心得或提示。具体步骤模板为:步骤1准备食材,插图展示整齐摆放的主要食材和调味料,说明列出并处理基本材料,秘技告诉用户如何提升风味或口感,心得提供简单经验或提醒;步骤2调味/腌制/前置处理,插图呈现调制酱汁、腌肉、处理主料的小碗或砧板画面,说明展示关键基础步骤,秘技包括比例、小技巧、避免失败要点,心得为轻松风格的小提示;步骤3炒制/烹调关键步骤,插图描绘锅中食材的烹调场景及水彩烟气柔和效果,说明涵盖大火小火、顺序、重要动作,秘技讲解保持火候、控制时间、提升香气的办法,心得强调料理灵魂所在;步骤4合味/出锅前步骤,插图展现加入酱汁、调味、配料混合的场景,说明整体收汁、调味到位,秘技包括亮油、保持口感或香味的小技巧,心得提示此步决定成败;步骤5点缀/完成步骤,插图呈现撒香料、加入坚果、盛盘等动作,说明最后调整味道或摆盘,秘技介绍保持脆感、避免过熟等技巧,心得为成品风味描述。底部成品插图展示一份精致、色香俱全的《{菜名}》,水彩质感强烈、油亮、鲜嫩、诱人,让读者看了就想做,最下方底部中央署名。

FIGURE 04 / RECIPE INFOGRAPHIC
●
05
帮我把这幅图改成热血漫画版本 其他保持不变

FIGURE 05 / MANGA STYLE
注意右下角的文字,细节保留了,还不错。就是美感上我觉得稍微有点点欠缺。再来看看直接一键直出九宫格不同风格。
帮我把这幅图改成九种不同的风格展现,做成九宫格形式。其他保持不变

FIGURE 06 / 9-GRID STYLE
感觉做九宫格这种对这模型还是难度偏大了点,有风格重复了,而且文字也出现了破损。
●
06
极简朦胧意识流美学,高级排版海报,雅致淡兰紫色艺术,模糊梦幻的抽象纹理,拉丝渐变效果,艺术概念风格,视觉柔和且充满缥缈大气感;画面右下角放主题字:主题字进行字体设计,极细宋体风格“兰影云光”,文字进行错位穿插摆放,字体优雅细长,笔画尾部添加花体曲线,在文字间穿插,整体呈现东方诗意,探索非凡自然与微观世界的艺术化表达,画面上方小文案依次放“2026”“visual concept”“2026”,下方左边文案突出时间数字“TIME——05.20/05.23”,画面中融入小小字英文“Orchid Shadow Mist”“Oriental Visual Concept”“Orchid Culture New Expression”

FIGURE 07 / AESTHETIC POSTER
美得很美得很,指令遵循的不错,而且文字也挺稳的。
●
07
创造这个经纬度31.2394° N, 121.4984° E的景象

FIGURE 08 / GPS INFERENCE
识别的是挺准确的,但是美感和真实感上还是不太够感觉。
●
08
看了这么多case,也该看看人像了吧。提示词来自@oggii_0。
Moody cinematic portrait of a young woman with clear fair skin and barely-there makeup, warm natural lips. Loose dark brown hair, softly textured. Calm, self-assured expression. She’s wearing a fitted brown top clean lines, understated elegance. Dark minimal background fading into black. Gentle diffused front light, soft shadows, subtle film grain, organic color grading, shallow depth of field, high-end editorial feel.

FIGURE 09 / PORTRAIT
感觉还不错,再来看看2x2拼图的情况下的人像。提示词我之前发在X上过,也很火。
A 2x2 grid, 4-panel artistic film collage of a sexy Korean K-pop idol, pure desire aesthetic. **[Global Style]:** Heavy film grain, soft focus, dreamy Pro-Mist diffusion filter, motion blur from camera panning, vintage color grading, flash photography.**[Panel 1 Top-Left Replacement]:**Close-up, blowing a small pink bubble gum, playful expression, focus on the bubble and lips, soft film grain.**[Panel 2 Top-Right]:** Medium shot, she is leaning forward towards the lens, wearing a fuzzy taupe knit mini dress, alluring pout, shaking hair with motion blur.**[Panel 3 Bottom-Left]:** Full body shot, seated on the floor, hugging knees, innocent but sexy posture, looking up at camera.**[Panel 4 Bottom-Right]:** A dynamic candid shot of her turning around, hair whipping across face, motion blur, looking back over shoulder with a smile.The images are arranged in a seamless square grid layout.

FIGURE 10 / 2x2 COLLAGE
复杂的情况下看来还真是不太行,AI感还是很强。
●
09
做一张PPT,bento grid风格, 液态玻璃质感,提炼下面这段内容的重点,并用中文介绍: 🚀 Introducing Qwen-Image-2.0 — our next-gen image generation model! 🎨 Your imagination, unleashed. ✨ Type a paragraph → get a pro slides ✨ Describe a scene → get photoreal 2K magic ✨ Add text → it just works (no more glitchy letters!) ✨ Key upgrades: ✅ Professional typography (1K-token prompts for slides, posters & comics) ✅ 2K native resolution with stunning detail ✅ Flawless text rendering + unified generation/editing ✅ Lighter architecture = faster inference

FIGURE 11 / PPT DESIGN
文字渲染这块确实不错,整体风格也理解的挺到位的我觉得。
●
10
最后整一个有点难度的图像编辑case。还是用到之前用到的那张水墨画武士图。
把参考图中的BubbleBrain去掉,默写一遍静夜思在上面,顺便把人物的武器换成一个锤子。其他不变

FIGURE 12 / IMAGE EDITING
这个效果不错,让改的地儿全改对了,文字也没崩坏掉。
●
整个Qwen-Image-2.0虽然整体能力肯定是还不如Nano Banana Pro的,但是在图像编辑的一致性,还有文字渲染的正确率上都非常出色。
而且这波更新,也支持更长的输入,所以,在一些复杂指令的遵循上也挺不错的。
"我觉得值得坐等一个开源!因为真的在很多业务场景里都能用上。"
大家也可以多去试试呀!
文章来自于微信公众号 “BubbleBrain”,作者: “Bubble”
【开源免费】OWL是一个完全开源免费的通用智能体项目。它可以远程开Ubuntu容器、自动挂载数据、做规划、执行任务,堪称「云端超级打工人」而且做到了开源界GAIA性能天花板,达到了57.7%,超越Huggingface 提出的Open Deep Research 55.15%的表现。
项目地址:GitHub:https://github.com/camel-ai/owl
【开源免费】ai-comic-factory是一个利用AI生成漫画的创作工具。该项目通过大语言模型和扩散模型的组合使用,可以让没有任何绘画基础的用户完成属于自己的漫画创作。
项目地址:https://github.com/jbilcke-hf/ai-comic-factory?tab=readme-ov-file
在线使用:https://aicomicfactory.app/
【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。
项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md
在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0