100镜实测Gemini2.0"用嘴改图"新功能,AI生图的天被捅破了(附五档难度、12个真实案例)

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
AITNT-国内领先的一站式人工智能新闻资讯网站 搜索
100镜实测Gemini2.0"用嘴改图"新功能,AI生图的天被捅破了(附五档难度、12个真实案例)
8086点击    2025-03-14 11:53

一天前如果我跟你说,


有这样一个模型,原本只能生成文字,现在可以文生图、图生图、连续对话改图、自由修改提示语、每张图生成时间不超过10s,


你肯定以为我是吹牛,


但现在Gemini 2.0 Flash Experimental带着新的输出格式Images and text来了,


可以说它不仅把 OpenAI 没做出来的 DALLE4 做出来了,还超出了我的想象。


100镜实测Gemini2.0


上面的视频就是我用 Gemini2.0 直接一键生成所有分镜图片,然后用 Vidu2.0 配合生成视频制作而成的小短片!


100镜实测Gemini2.0


我只能说这个一致性牛,真的牛!堪称完美!


Gemini2.0 最牛的点是它是一个六边形选手,虽说在部分极限 Cases 上没做到碾压,但在不同工作流里面表现都相当能打,绝对是我认为目前最均衡的 AI 生图工具。


再加上语言模型的优势,它是真正意义上把 AI 生图的提示语缩短了。因为可以多轮对话,我可以不断补充生图的条件,而不是要一口气输出上百字的提示语。关键还免费!


这种堪比许愿级别的重大更新,当然值得我们的100镜系列出动,这次我和阿汤一拍即合,做出了一套新的测试:


  • 视频分镜创作:一键生成分镜脚本和图片,实现高一致性,并能针对具体某一分镜进行多次修改
  • 连续一致性:多轮对话中,模型对图片上下文的理解、记忆和一致性维护能力。
  • 复杂性与细节:模型处理复杂场景、精细物体、以及多重修改的能力。
  • 创造性与风格化:模型在不同艺术风格、设计理念下的创作能力。
  • 实用性与专业性:模型在专业领域(如物品设计、建筑设计)的辅助能力。


视频分镜创作这一趴,刚刚我们已经看过效果了。那么,接下来我们就直接分成不同难度星级的场景,来考验一下 Gemini2.0 在剩下的几个测试维度下表现如何吧!


Here we go!


一星难度🌟


第一档难度我们先来一个材质和光影的交互


生成一个放在木桌上的玻璃球,让阳光透过窗户照在球上,产生折射和焦散效果。然后,把木桌换成大理石,并改变阳光的角度,让阴影更长。


100镜实测Gemini2.0


从上到下可以感受到阳光亮度的提升、桌子材质变化以及阴影的拉长。而且局部的修改并不会影响图片整体的布局,而且基本都是一次过。最6的是,桌子材质变化后,倒影还会发生变化。这语音理解能力和连续记忆能力之前也就 DALLE3 才能勉强及格了。


二星难度🌟🌟


第二档我们试试看手绘稿的精细化渲染和风格指定


100镜实测Gemini2.0


基于我上传的手绘草图(一个未来城市景观),生成赛博朋克风格的渲染图,强调霓虹灯光和雨夜氛围。然后,将其转换为水彩/水墨/皮克斯/动漫/3D超写实风格,并保持构图不变。


100镜实测Gemini2.0


虽然没有很赛博,但是第一次的上色效果还是很好的,建筑细节的蓝色灯光、街道的橙色灯光、彩色的云霞,而后面的多种风格里,水墨风居然是做的最好的。


而且从这次完整对话,我发现了 Gemini2.0 大概率应该是只有文本的连续对话记忆能力,图片只记录了上一轮的,从图片里的修改就可以看出来,特别是最后一轮我特意指定一开始的图片,但 Gemini2.0 输出的图片还是没摆脱上一轮图片的晕染开的缺点。


第二档难度还有进阶考核,来个多风格融合,还需要模型想象出一个不存在的事物


设计一款未来概念汽车,融合跑车的流线型、越野车的粗犷感和飞船的科技感。生成三种不同配色方案:红黑、蓝白、银灰。然后,选择红黑方案,增加车身两侧的火焰喷射特效。


100镜实测Gemini2.0


这车特里特气的,这个案例我尝试了一次性生成多张图片,生成多张图片之后还支持特定的一张来进行二次修改,制作的效率超级加倍。


当然我们还可以反过来让 Gemini2.0 在一张图里 生成一个人常见的所有情绪,效果也还不错:


100镜实测Gemini2.0


三星难度🌟🌟🌟


第三档难度我们来一些 PS Things,


PS 专属的 AI 抠图!


在一张森林照片中抠出一个湖泊,并将其替换为沙漠中的绿洲,确保光影和环境的自然过渡。然后,在绿洲中添加一群骆驼,并给它们打上逆光效果。


100镜实测Gemini2.0


由于难度已经到了三级,我不会再给 Gemini2.0 修改建议了,就用最难的甲方思路,我觉得这不行,你给我改改。


然后我们可以看到从湖泊改成沙漠绿洲的时候,过渡做的还可以,但是追加的几只骆驼就相当突兀,没有影子,感觉有种非常粗糙的拼贴感,即使后面想要再融合一下光影细节,也救不回这张图片。


四星难度🌟🌟🌟🌟


第四档难度我们来考究Gemini2.0对动态场景连续变化的掌握程度了。


生成一个海滩日落的场景,随着时间推移,太阳逐渐落下,天空颜色从橙色变为紫色,海浪不断拍打岸边。然后,在沙滩上添加一对正在散步的情侣,他们的影子随着太阳位置变化。


100镜实测Gemini2.0


可以看到一次性生成这8个镜头还是有难度的,尤其镜头3、6、7的场景紫得发黑,其中镜头3通过对话修改回来了,6、7还是老样子,而且对于提示语中的“时间变化”,Gemini2.0似乎并没有理解,只是一味的改变了颜 色,看来这个难度确实高了一些。


同为第四档难度,我们觉得模型本身的审美也很重要,让模型自己去表达抽象概念,以及改变画面的情感基调:


生成一张图片,表达‘孤独’的感觉,使用冷色调和空旷的场景。然后,在图片中加入一个元素,象征‘希望’,并调整色调,让画面稍微温暖一些。


100镜实测Gemini2.0


看来在 Gemini2.0 的视角里冷色调的海洋和浅蓝色的天空代表了孤独,有意思的是之前生成图片都没有给出解释,这里额外添加了图像描述


在它的视角里,


人的坚持、阳光、月光代表了希望,日落的色彩代表了温暖。


真好。


五星难度🌟🌟🌟🌟🌟


五星难度意味着画面里的事物的数量要拉高了,我们要测试模型对超现实场景的想象力和构建能力,对不符合常规逻辑元素的处理能力,以及复杂场景细节构建


生成一个中世纪欧洲小镇广场的场景,包括市场摊位、来往人群、鸽子、以及远处的教堂。然后放大广场一角,仔细描绘一个正在卖艺的街头艺人和他的猴子。然后聚焦在猴子身上,给它换上马戏团小丑的服装。


100镜实测Gemini2.0


基本上这个提示语就是考验 Gemini2.0 对于提示语中切换镜头的遵循。先不吐槽这个“中世纪欧洲小镇广场”跟异世界漫画长得一模一样,在中间那一张图里人消失的上半身、变异猴子,还有多翅膀的鸽子让我有点崩不住了,这啥啊这是? 这一趴我只能给0.5分。


第五档难度理应有物品设计和建筑设计作为压箱底的试题,毕竟生图模型现在通过ComfyUI、SD WebUI、LoRA等早就搭建出了一个个专业的工作流。


设计一款智能手表,要求具有圆形表盘、金属表壳和皮革表带。生成三种不同材质的表带:棕色鳄鱼皮、黑色小牛皮、蓝色帆布。然后,选择黑色小牛皮表带,将这个表戴着一个男生手上看看搭配效果


100镜实测Gemini2.0


这个设计图真的做的有模有样的,三视图都弄出来了,还做出了表带的侧视图,表冠的放大结构图。在生成表达的时候,用的都是展示手表的经典角色,还顺手给手表上个色。


当加入模特的手后,表现也很不错,感觉电商设计行业也要开始瑟瑟发抖了。


小物体测完了,马上来个大物件,


设计一栋现代风格的别墅,要求有落地窗、游泳池和花园。生成三种不同的外墙材料:白色石材、灰色混凝土、木质贴面。然后,选择灰色混凝土外墙,将屋顶改为斜坡,并在花园中添加一个凉亭。


100镜实测Gemini2.0


显然这是一个非常为难模型的问题,但 Gemini2.0 还是接下了这个活,生成了鸟瞰图、立面图和平面布局概念图,不过有点小 bug,平面图跟立面图有点对不上。


我真没想到有一天我会在 AI 上完上贴瓷砖小游戏,选了三种不同外墙材料也能一次性生成。最后加上花园的大别野好看吗?


测起来实在太好玩了,根本停不下来,在五档难度下,我开始使用 Gemini2.0 玩游戏了,


100镜实测Gemini2.0


这次我选择生成一个动漫人物的背影,随机跳出一只宝可梦,在我跟Gemini2.0的对话当中,我还可以投掷精灵球,完成收复!


接下来我拿着这些图片去挨个滴滴深夜未睡觉的朋友们,有些还是UI、前端、设计,他们给出的终极打分是!(满分5分)


  • 图片基础质量:3.5
  • 理解准确性:3
  • 连续性:4.5
  • 细节表现力:3.5
  • 创造性:3
  • 修改响应性:4
  • 逻辑性:4


当上面的分数优势,再加上 Gemini2.0 本身的生成速度、免费等优势,这些都结合在一起,我们可以得出结论,这个新工具好用!而且优势相当可观!


虽然部分想象力还有些缺失,强风格化的东西还做不出来,但不得不说,这,是,AI生图,真正意义上的新玩法!


是真的可以融入日常工作流的玩法!


如何使用?


使用方法相当简单,


打开 AI Studio,右侧将模型切换到Gemini 2.0 Flash Experimental就可以直接开始对话了!


100镜实测Gemini2.0


看图就能懂!


写在最后


多模态大模型开始发力了,


现在有 Gemini2.0 实现“用嘴改图”,


马上还有 Llama4。


从2025开年,我们就一直在说多模态将成为基座大模型的原生能力,


事实上,也确实在向我们期待的方向发展。


当 AI 代替了一部分人类的生产力后,


那些被节约下来的时间和精力,


人类将会创造出更多的意想不到。


所以,


玩起来吧,大家!


文章来自于“卡尔的AI沃茨”,作者“卡尔 & 阿汤”。


100镜实测Gemini2.0

AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
AI漫画

【开源免费】ai-comic-factory是一个利用AI生成漫画的创作工具。该项目通过大语言模型和扩散模型的组合使用,可以让没有任何绘画基础的用户完成属于自己的漫画创作。

项目地址:https://github.com/jbilcke-hf/ai-comic-factory?tab=readme-ov-file

在线使用:https://aicomicfactory.app/

2
AI工作流

【开源免费】n8n是一个可以自定义工作流的AI项目,它提供了200个工作节点来帮助用户实现工作流的编排。

项目地址:https://github.com/n8n-io/n8n

在线使用:https://n8n.io/(付费)


【开源免费】DB-GPT是一个AI原生数据应用开发框架,它提供开发多模型管理(SMMF)、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL(智能体工作流编排)等多种技术能力,让围绕数据库构建大模型应用更简单、更方便。

项目地址:https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file



【开源免费】VectorVein是一个不需要任何编程基础,任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤,并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。

项目地址:https://github.com/AndersonBY/vector-vein?tab=readme-ov-file

在线使用:https://vectorvein.ai/(付费)