100镜实测Gemini2.0"用嘴改图"新功能，AI生图的天被捅破了（附五档难度、12个真实案例）

12799点击 2025-03-14 11:53

一天前如果我跟你说，

有这样一个模型，原本只能生成文字，现在可以文生图、图生图、连续对话改图、自由修改提示语、每张图生成时间不超过10s，

你肯定以为我是吹牛，

但现在Gemini 2.0 Flash Experimental带着新的输出格式Images and text来了，

可以说它不仅把 OpenAI 没做出来的 DALLE4 做出来了，还超出了我的想象。

100镜实测Gemini2.0

上面的视频就是我用 Gemini2.0 直接一键生成所有分镜图片，然后用 Vidu2.0 配合生成视频制作而成的小短片！

100镜实测Gemini2.0

我只能说这个一致性牛，真的牛！堪称完美！

Gemini2.0 最牛的点是它是一个六边形选手，虽说在部分极限 Cases 上没做到碾压，但在不同工作流里面表现都相当能打，绝对是我认为目前最均衡的 AI 生图工具。

再加上语言模型的优势，它是真正意义上把 AI 生图的提示语缩短了。因为可以多轮对话，我可以不断补充生图的条件，而不是要一口气输出上百字的提示语。关键还免费！

这种堪比许愿级别的重大更新，当然值得我们的100镜系列出动，这次我和阿汤一拍即合，做出了一套新的测试：

视频分镜创作：一键生成分镜脚本和图片，实现高一致性，并能针对具体某一分镜进行多次修改
连续一致性：多轮对话中，模型对图片上下文的理解、记忆和一致性维护能力。
复杂性与细节：模型处理复杂场景、精细物体、以及多重修改的能力。
创造性与风格化：模型在不同艺术风格、设计理念下的创作能力。
实用性与专业性：模型在专业领域（如物品设计、建筑设计）的辅助能力。

视频分镜创作这一趴，刚刚我们已经看过效果了。那么，接下来我们就直接分成不同难度星级的场景，来考验一下 Gemini2.0 在剩下的几个测试维度下表现如何吧！

Here we go!

一星难度🌟

第一档难度我们先来一个材质和光影的交互：

生成一个放在木桌上的玻璃球，让阳光透过窗户照在球上，产生折射和焦散效果。然后，把木桌换成大理石，并改变阳光的角度，让阴影更长。

100镜实测Gemini2.0

从上到下可以感受到阳光亮度的提升、桌子材质变化以及阴影的拉长。而且局部的修改并不会影响图片整体的布局，而且基本都是一次过。最6的是，桌子材质变化后，倒影还会发生变化。这语音理解能力和连续记忆能力之前也就 DALLE3 才能勉强及格了。

二星难度🌟🌟

第二档我们试试看手绘稿的精细化渲染和风格指定：

100镜实测Gemini2.0

基于我上传的手绘草图（一个未来城市景观），生成赛博朋克风格的渲染图，强调霓虹灯光和雨夜氛围。然后，将其转换为水彩/水墨/皮克斯/动漫/3D超写实风格，并保持构图不变。

100镜实测Gemini2.0

虽然没有很赛博，但是第一次的上色效果还是很好的，建筑细节的蓝色灯光、街道的橙色灯光、彩色的云霞，而后面的多种风格里，水墨风居然是做的最好的。

而且从这次完整对话，我发现了 Gemini2.0 大概率应该是只有文本的连续对话记忆能力，图片只记录了上一轮的，从图片里的修改就可以看出来，特别是最后一轮我特意指定一开始的图片，但 Gemini2.0 输出的图片还是没摆脱上一轮图片的晕染开的缺点。

第二档难度还有进阶考核，来个多风格融合，还需要模型想象出一个不存在的事物。

设计一款未来概念汽车，融合跑车的流线型、越野车的粗犷感和飞船的科技感。生成三种不同配色方案：红黑、蓝白、银灰。然后，选择红黑方案，增加车身两侧的火焰喷射特效。

100镜实测Gemini2.0

这车特里特气的，这个案例我尝试了一次性生成多张图片，生成多张图片之后还支持特定的一张来进行二次修改，制作的效率超级加倍。

当然我们还可以反过来让 Gemini2.0 在一张图里生成一个人常见的所有情绪，效果也还不错：

100镜实测Gemini2.0

三星难度🌟🌟🌟

第三档难度我们来一些 PS Things，

PS 专属的 AI 抠图！

在一张森林照片中抠出一个湖泊，并将其替换为沙漠中的绿洲，确保光影和环境的自然过渡。然后，在绿洲中添加一群骆驼，并给它们打上逆光效果。

100镜实测Gemini2.0

由于难度已经到了三级，我不会再给 Gemini2.0 修改建议了，就用最难的甲方思路，我觉得这不行，你给我改改。

然后我们可以看到从湖泊改成沙漠绿洲的时候，过渡做的还可以，但是追加的几只骆驼就相当突兀，没有影子，感觉有种非常粗糙的拼贴感，即使后面想要再融合一下光影细节，也救不回这张图片。

四星难度🌟🌟🌟🌟

第四档难度我们来考究Gemini2.0对动态场景连续变化的掌握程度了。

生成一个海滩日落的场景，随着时间推移，太阳逐渐落下，天空颜色从橙色变为紫色，海浪不断拍打岸边。然后，在沙滩上添加一对正在散步的情侣，他们的影子随着太阳位置变化。

100镜实测Gemini2.0

可以看到一次性生成这8个镜头还是有难度的，尤其镜头3、6、7的场景紫得发黑，其中镜头3通过对话修改回来了，6、7还是老样子，而且对于提示语中的“时间变化”，Gemini2.0似乎并没有理解，只是一味的改变了颜色，看来这个难度确实高了一些。

同为第四档难度，我们觉得模型本身的审美也很重要，让模型自己去表达抽象概念，以及改变画面的情感基调:

生成一张图片，表达‘孤独’的感觉，使用冷色调和空旷的场景。然后，在图片中加入一个元素，象征‘希望’，并调整色调，让画面稍微温暖一些。

100镜实测Gemini2.0

看来在 Gemini2.0 的视角里冷色调的海洋和浅蓝色的天空代表了孤独，有意思的是之前生成图片都没有给出解释，这里额外添加了图像描述。

在它的视角里，

人的坚持、阳光、月光代表了希望，日落的色彩代表了温暖。

真好。

五星难度🌟🌟🌟🌟🌟

五星难度意味着画面里的事物的数量要拉高了，我们要测试模型对超现实场景的想象力和构建能力，对不符合常规逻辑元素的处理能力，以及复杂场景细节构建

生成一个中世纪欧洲小镇广场的场景，包括市场摊位、来往人群、鸽子、以及远处的教堂。然后放大广场一角，仔细描绘一个正在卖艺的街头艺人和他的猴子。然后聚焦在猴子身上，给它换上马戏团小丑的服装。

100镜实测Gemini2.0

基本上这个提示语就是考验 Gemini2.0 对于提示语中切换镜头的遵循。先不吐槽这个“中世纪欧洲小镇广场”跟异世界漫画长得一模一样，在中间那一张图里人消失的上半身、变异猴子，还有多翅膀的鸽子让我有点崩不住了，这啥啊这是？这一趴我只能给0.5分。

第五档难度理应有物品设计和建筑设计作为压箱底的试题，毕竟生图模型现在通过ComfyUI、SD WebUI、LoRA等早就搭建出了一个个专业的工作流。

设计一款智能手表，要求具有圆形表盘、金属表壳和皮革表带。生成三种不同材质的表带：棕色鳄鱼皮、黑色小牛皮、蓝色帆布。然后，选择黑色小牛皮表带，将这个表戴着一个男生手上看看搭配效果

100镜实测Gemini2.0

这个设计图真的做的有模有样的，三视图都弄出来了，还做出了表带的侧视图，表冠的放大结构图。在生成表达的时候，用的都是展示手表的经典角色，还顺手给手表上个色。

当加入模特的手后，表现也很不错，感觉电商设计行业也要开始瑟瑟发抖了。

小物体测完了，马上来个大物件，

设计一栋现代风格的别墅，要求有落地窗、游泳池和花园。生成三种不同的外墙材料：白色石材、灰色混凝土、木质贴面。然后，选择灰色混凝土外墙，将屋顶改为斜坡，并在花园中添加一个凉亭。

100镜实测Gemini2.0

显然这是一个非常为难模型的问题，但 Gemini2.0 还是接下了这个活，生成了鸟瞰图、立面图和平面布局概念图，不过有点小 bug，平面图跟立面图有点对不上。

我真没想到有一天我会在 AI 上完上贴瓷砖小游戏，选了三种不同外墙材料也能一次性生成。最后加上花园的大别野好看吗？

测起来实在太好玩了，根本停不下来，在五档难度下，我开始使用 Gemini2.0 玩游戏了，

100镜实测Gemini2.0

这次我选择生成一个动漫人物的背影，随机跳出一只宝可梦，在我跟Gemini2.0的对话当中，我还可以投掷精灵球，完成收复！

接下来我拿着这些图片去挨个滴滴深夜未睡觉的朋友们，有些还是UI、前端、设计，他们给出的终极打分是！（满分5分）

图片基础质量：3.5
理解准确性：3
连续性：4.5
细节表现力：3.5
创造性：3
修改响应性：4
逻辑性：4

当上面的分数优势，再加上 Gemini2.0 本身的生成速度、免费等优势，这些都结合在一起，我们可以得出结论，这个新工具好用！而且优势相当可观！

虽然部分想象力还有些缺失，强风格化的东西还做不出来，但不得不说，这，是，AI生图，真正意义上的新玩法！

是真的可以融入日常工作流的玩法！

如何使用？

使用方法相当简单，

打开 AI Studio，右侧将模型切换到Gemini 2.0 Flash Experimental就可以直接开始对话了！

100镜实测Gemini2.0

看图就能懂！

写在最后

多模态大模型开始发力了，

现在有 Gemini2.0 实现“用嘴改图”，

马上还有 Llama4。

从2025开年，我们就一直在说多模态将成为基座大模型的原生能力，

事实上，也确实在向我们期待的方向发展。

当 AI 代替了一部分人类的生产力后，

那些被节约下来的时间和精力，

人类将会创造出更多的意想不到。

所以，

玩起来吧，大家！

文章来自于“卡尔的AI沃茨”，作者“卡尔 & 阿汤”。

100镜实测Gemini2.0

AI Gemini2.0 AI产品测评人工智能

AITNT资源拓展

根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考

AI漫画

【开源免费】ai-comic-factory是一个利用AI生成漫画的创作工具。该项目通过大语言模型和扩散模型的组合使用，可以让没有任何绘画基础的用户完成属于自己的漫画创作。
项目地址：https://github.com/jbilcke-hf/ai-comic-factory?tab=readme-ov-file
在线使用：https://aicomicfactory.app/

AI工作流

【开源免费】字节工作流产品扣子两大核心业务：Coze Studio（扣子开发平台）和 Coze Loop（扣子罗盘）全面开源，而且采用的是 Apache 2.0 许可证，支持商用！
项目地址：https://github.com/coze-dev/coze-studio

【开源免费】n8n是一个可以自定义工作流的AI项目，它提供了200个工作节点来帮助用户实现工作流的编排。
项目地址：https://github.com/n8n-io/n8n
在线使用：https://n8n.io/（付费）

【开源免费】DB-GPT是一个AI原生数据应用开发框架，它提供开发多模型管理（SMMF）、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL（智能体工作流编排）等多种技术能力，让围绕数据库构建大模型应用更简单、更方便。
项目地址：https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file


【开源免费】VectorVein是一个不需要任何编程基础，任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤，并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。
项目地址：https://github.com/AndersonBY/vector-vein?tab=readme-ov-file
在线使用：https://vectorvein.ai/（付费）