截胡OpenAI,谷歌全模态模型首次解禁!Gemini 2.0中文唠嗑式P图,动漫游戏圈沸腾

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
AITNT-国内领先的一站式人工智能新闻资讯网站 搜索
截胡OpenAI,谷歌全模态模型首次解禁!Gemini 2.0中文唠嗑式P图,动漫游戏圈沸腾
8756点击    2025-03-13 18:22

就在刚刚,谷歌Gemini支持原生图像生成功能了!这是谷歌首个向公众发布的全模态图像生成器。


现在,所有开发者都可以使用Gemini 2.0 Flash进行原生图像生成了,使用Gemini API 和Google AI Studio中的实验版本即可。


截胡OpenAI,谷歌全模态模型首次解禁!Gemini 2.0中文唠嗑式P图,动漫游戏圈沸腾


全模态图像生成器,跟其他AI生图模型最大的区别在哪里?


因为它自身具备的超强推理能力,能结合现实世界的知识生成更符合上下文的图像,理解更多细节,更遵循文化背景特征。


其中,全程都是由Gemini模型完成,无需调用其他模型,只需通过自然语言提示。


此外,传统的AI生图器需要分开处理文本和图片,它则是能同时输出文本和插图,保持惊人的一致性。


· 真正的多模态能力:同时理解文字、图像,以及二者联系

· 理解世界知识:能做智能推理,结合现实世界知识生成准确内容

· 自然语言交互:仅用对话修改图片,真正实现动嘴PS


下面这张图,就是用Gemini 2.0 Flash生成的,包括黑板上的文字。


此前很多图像生成模型,都死在渲染长序列文本上,这个致命弱点,竟被它克服了。


截胡OpenAI,谷歌全模态模型首次解禁!Gemini 2.0中文唠嗑式P图,动漫游戏圈沸腾


有趣的是,其实第一个展示全模态图像生成的是OpenAI,比谷歌早了整整8个月。


而就在昨天,OpenAI要发布第一个全模态模型的消息更是传得沸沸扬扬,没想到今天,竟是谷歌成功发布了第一个版本。


谷歌的这个新功能,可以根据上下文生成相关图像,支持对话式编辑,还能在图像中生成长文本。


比如,你只要动动嘴,告诉模型给牛角面包加点巧克力边,啪的一下,它在对话框里立马给你满意的图像。


截胡OpenAI,谷歌全模态模型首次解禁!Gemini 2.0中文唠嗑式P图,动漫游戏圈沸腾


跟它说:可以在桌子上加一些花吗?它立刻给你在桌子上加上花瓶。


截胡OpenAI,谷歌全模态模型首次解禁!Gemini 2.0中文唠嗑式P图,动漫游戏圈沸腾


如果告诉它,自己不太满意,更喜欢红色郁金香,它能在几秒内立刻换成你满意的图像。


截胡OpenAI,谷歌全模态模型首次解禁!Gemini 2.0中文唠嗑式P图,动漫游戏圈沸腾


网友惊呼:太炸了


现在,我们终于有了原生图像输出功能,这样图像就能遵循智能的上下文了。


截胡OpenAI,谷歌全模态模型首次解禁!Gemini 2.0中文唠嗑式P图,动漫游戏圈沸腾


这个模型的真正厉害之处,就在于它真正能够理解多模态的信息。


比如在这位网友的实测中,它就可以直接从URL解析YouTube视频,给出内容摘要,还是基于时间戳分析的。


截胡OpenAI,谷歌全模态模型首次解禁!Gemini 2.0中文唠嗑式P图,动漫游戏圈沸腾


截胡OpenAI,谷歌全模态模型首次解禁!Gemini 2.0中文唠嗑式P图,动漫游戏圈沸腾


手快的网友,已经开始疯狂实测了。


截胡OpenAI,谷歌全模态模型首次解禁!Gemini 2.0中文唠嗑式P图,动漫游戏圈沸腾


截胡OpenAI,谷歌全模态模型首次解禁!Gemini 2.0中文唠嗑式P图,动漫游戏圈沸腾


截胡OpenAI,谷歌全模态模型首次解禁!Gemini 2.0中文唠嗑式P图,动漫游戏圈沸腾


截胡OpenAI,谷歌全模态模型首次解禁!Gemini 2.0中文唠嗑式P图,动漫游戏圈沸腾


截胡OpenAI,谷歌全模态模型首次解禁!Gemini 2.0中文唠嗑式P图,动漫游戏圈沸腾


生成30岁的中年女性不同角度的两张照片,一致性非常惊艳。


截胡OpenAI,谷歌全模态模型首次解禁!Gemini 2.0中文唠嗑式P图,动漫游戏圈沸腾


以后你想要的照片,想怎么p就怎么p。


截胡OpenAI,谷歌全模态模型首次解禁!Gemini 2.0中文唠嗑式P图,动漫游戏圈沸腾


一辆小汽车、一个模特,拿着小汽车的广告大片实时生成。


截胡OpenAI,谷歌全模态模型首次解禁!Gemini 2.0中文唠嗑式P图,动漫游戏圈沸腾


截胡OpenAI,谷歌全模态模型首次解禁!Gemini 2.0中文唠嗑式P图,动漫游戏圈沸腾


截胡OpenAI,谷歌全模态模型首次解禁!Gemini 2.0中文唠嗑式P图,动漫游戏圈沸腾


甚至,你还可以用Gemini来迭代图像,创建任何游戏!


截胡OpenAI,谷歌全模态模型首次解禁!Gemini 2.0中文唠嗑式P图,动漫游戏圈沸腾


Gemini 2.0 Flash的自画像,有点意思。


截胡OpenAI,谷歌全模态模型首次解禁!Gemini 2.0中文唠嗑式P图,动漫游戏圈沸腾


有人表示,这个功能太酷了,自己手中的不少图,将焕然一新。


截胡OpenAI,谷歌全模态模型首次解禁!Gemini 2.0中文唠嗑式P图,动漫游戏圈沸腾


截胡OpenAI,谷歌全模态模型首次解禁!Gemini 2.0中文唠嗑式P图,动漫游戏圈沸腾


截胡OpenAI,谷歌全模态模型首次解禁!Gemini 2.0中文唠嗑式P图,动漫游戏圈沸腾


有人说,谷歌的首个原生图像生成功能,可能是今年最棒的发布之一。它的编辑过程和一致性如此简洁,忍不住让人期待何时能在Gemini上集成。


截胡OpenAI,谷歌全模态模型首次解禁!Gemini 2.0中文唠嗑式P图,动漫游戏圈沸腾


当然,也有人实测后发现,有些情况下很难让模型输出不带文字的图片,即使尝试了五六种不同的prompt也不行。


比如,让它根据奥特曼昨天分享的OpenAI创意写作模型写的元小说,来创作一幅画。


文字太多的话,它就失去了想象能力,只能输出纯文字。


截胡OpenAI,谷歌全模态模型首次解禁!Gemini 2.0中文唠嗑式P图,动漫游戏圈沸腾


小编亲测了一下,结果也是如此。


截胡OpenAI,谷歌全模态模型首次解禁!Gemini 2.0中文唠嗑式P图,动漫游戏圈沸腾


对此,谷歌Gemini团队的研究者现身表示,会改进这项功能,并且建议如果让模型先以文本形式思考,可能会更好。


截胡OpenAI,谷歌全模态模型首次解禁!Gemini 2.0中文唠嗑式P图,动漫游戏圈沸腾


但好笑的是,「一只马骑宇航员」这样的图像,它依然无法生成。


截胡OpenAI,谷歌全模态模型首次解禁!Gemini 2.0中文唠嗑式P图,动漫游戏圈沸腾


漫画和动漫圈,沸腾了


这次,Gemini 2.0 Flash直接攻陷了漫画圈。


现在用它来生成漫画,只需要动动嘴的功夫。


截胡OpenAI,谷歌全模态模型首次解禁!Gemini 2.0中文唠嗑式P图,动漫游戏圈沸腾


有网友尝试后,发现自己根本停不下来。只需一个简单的提示,就能进行选择性修改,而不会破坏整个图像。


他激动地表示,「用它来制作漫画和故事分镜会变得非常轻松」。


截胡OpenAI,谷歌全模态模型首次解禁!Gemini 2.0中文唠嗑式P图,动漫游戏圈沸腾


给漫画加个色,也是一句话的事儿。


截胡OpenAI,谷歌全模态模型首次解禁!Gemini 2.0中文唠嗑式P图,动漫游戏圈沸腾


截胡OpenAI,谷歌全模态模型首次解禁!Gemini 2.0中文唠嗑式P图,动漫游戏圈沸腾


就连漫画角色的动作——抬起手臂,也能用嘴完成。而且,输出图像与原图保持了高度的一致性。


截胡OpenAI,谷歌全模态模型首次解禁!Gemini 2.0中文唠嗑式P图,动漫游戏圈沸腾


动漫圈的二次元们更是激动不已,有人惊呼,这是史上最佳动漫模型!


截胡OpenAI,谷歌全模态模型首次解禁!Gemini 2.0中文唠嗑式P图,动漫游戏圈沸腾




截胡OpenAI,谷歌全模态模型首次解禁!Gemini 2.0中文唠嗑式P图,动漫游戏圈沸腾


动漫创作的全流程,它都能依指示完成,比如把素描转换为线稿;填充基础色;添加一些柔和的阴影,光源位于左上角;添加一个室内背景,使其与当前的光源和阴影环境相匹配,使用合适的角度;调整为单色灰度,以符合轻小说插画风格等等。


截胡OpenAI,谷歌全模态模型首次解禁!Gemini 2.0中文唠嗑式P图,动漫游戏圈沸腾


截胡OpenAI,谷歌全模态模型首次解禁!Gemini 2.0中文唠嗑式P图,动漫游戏圈沸腾


截胡OpenAI,谷歌全模态模型首次解禁!Gemini 2.0中文唠嗑式P图,动漫游戏圈沸腾


更多的测试demo,自己体会。


截胡OpenAI,谷歌全模态模型首次解禁!Gemini 2.0中文唠嗑式P图,动漫游戏圈沸腾


截胡OpenAI,谷歌全模态模型首次解禁!Gemini 2.0中文唠嗑式P图,动漫游戏圈沸腾


故事分镜


Gemini 2.0 Flash还可以支持文字+配图输出的形式,比如绘本、食谱之类的,它都能通通拿下。


有网友让它去生成,一个「乌鸦喝水」的经典故事。


截胡OpenAI,谷歌全模态模型首次解禁!Gemini 2.0中文唠嗑式P图,动漫游戏圈沸腾


从内容到配图,Gemini 2.0 Flash对故事把控度,和现实逻辑,非常合理。


更惊艳的是,以下这些全部都是一次性输出的。


截胡OpenAI,谷歌全模态模型首次解禁!Gemini 2.0中文唠嗑式P图,动漫游戏圈沸腾


截胡OpenAI,谷歌全模态模型首次解禁!Gemini 2.0中文唠嗑式P图,动漫游戏圈沸腾


截胡OpenAI,谷歌全模态模型首次解禁!Gemini 2.0中文唠嗑式P图,动漫游戏圈沸腾


截胡OpenAI,谷歌全模态模型首次解禁!Gemini 2.0中文唠嗑式P图,动漫游戏圈沸腾


还有网友让Gemini 2.0解释生命的意义,只用图像回答。


截胡OpenAI,谷歌全模态模型首次解禁!Gemini 2.0中文唠嗑式P图,动漫游戏圈沸腾


模型一镜到底,输出了一大串图像。网友表示,「事实上,大部分的写作是不连贯的,让这件事更加怪异」。


截胡OpenAI,谷歌全模态模型首次解禁!Gemini 2.0中文唠嗑式P图,动漫游戏圈沸腾


恶搞表情包


用Gemini 2.0 Flash制作表情包,也是一个不错的选择。


网友上传一张照片后,要求它把人替换成吉卜力工作室风格的狗,并配上一把机关枪。


Gemini 2.0 Flash瞬间完成替换,像那么回事儿。


截胡OpenAI,谷歌全模态模型首次解禁!Gemini 2.0中文唠嗑式P图,动漫游戏圈沸腾


又或者,给Hugging Face抱抱脸加个胡子。


截胡OpenAI,谷歌全模态模型首次解禁!Gemini 2.0中文唠嗑式P图,动漫游戏圈沸腾


再比如,给经典表情包,配上文字。


截胡OpenAI,谷歌全模态模型首次解禁!Gemini 2.0中文唠嗑式P图,动漫游戏圈沸腾


一个提示,完成多个编辑


更令人惊掉下巴的是,Gemini 2.0 Flash还可以根据一个提示,完成图像多处编辑。


沃顿商学院教授Ethan Mollick表示,如果你使用过LLM图像生成器,你会知道它们很难控制:LLM需要向一个独立的图像生成工具发送提示词,而不是直接生成图像。


而Gemini 是首个公开发布的「完全多模态」LLM,能够直接生成图像。


截胡OpenAI,谷歌全模态模型首次解禁!Gemini 2.0中文唠嗑式P图,动漫游戏圈沸腾


下面这个例子中,是Mollick在一家本地手工艺品店拍的照片,提示中核心要求是——把这本小册子改成关于拿破仑的主题,子任务有多个:


将文本修改为「Napoleon Crochet」,字体保持不变。调整图片,使其与拿破仑相关,同时保留白色括号和图像中的其他元素。确保头部朝向与原图一致,图片保持纵向格式。将价格更改为$99.00。


看到Gemini 2.0 Flash生成的图片后,他完全惊到了,并表示生成的艺术风格竟然完全匹配。


截胡OpenAI,谷歌全模态模型首次解禁!Gemini 2.0中文唠嗑式P图,动漫游戏圈沸腾


原生图像生成,四大亮点


去年12月,谷歌首次将Gemini 2.0 Flash,向内部测试者推出了原生图像生成的功能。


经过几个月的优化打磨,就在巴黎开发者日期间,正式向支持Google AI Studio所有地区开放。


开发者们可以通过这个平台,选择Gemini 2.0 Flash实验版本——gemini-2.0-flash-exp,或通过Gemini API即可上手新功能。


截胡OpenAI,谷歌全模态模型首次解禁!Gemini 2.0中文唠嗑式P图,动漫游戏圈沸腾


如上测试中,不难看出,Gemini 2.0 Flash是一款集多模态输入、增强推理能力、自然语言理解于一身的模型,能够直接生成图像。


接下来,一起看看Gemini 2.0 Flash在多模态输出上的几大亮点:


1 文本与图像结合


假设你正在创作一个奇幻冒险的故事,只用文字描述情节,Gemini 2.0 Flash就能自动生成与故事配套的插图。


更厉害的是,它还能在整个故事中,保持角色和场景的一致性。


截胡OpenAI,谷歌全模态模型首次解禁!Gemini 2.0中文唠嗑式P图,动漫游戏圈沸腾


如果对插图风格、叙述方式不满意,你可以直接给出反馈,Gemini 2.0 Flash会根据你的意见重新调整故事,或优化图像。


2 对话式图像编辑


传统的图像编辑,往往需要专业软件和复杂的操作,而Gemini 2.0 Flash让你通过自然语言对话,就能完成一切。


只要告诉它你的想法,模型就会实时调整,并在多轮对话中不断优化。


这种方式不仅适合快速迭代创意,还能帮助你在探索不同风格时,节省大量的时间。


截胡OpenAI,谷歌全模态模型首次解禁!Gemini 2.0中文唠嗑式P图,动漫游戏圈沸腾

3 世界知识理解


与其他图像生成模型不同,Gemini 2.0 Flash的独特优势在于,融合了世界知识和增强推理能力。


这意味着,它不仅能生成美观的图像,还更符合现实逻辑。


比如,当你让它生成一份巧克力曲奇饼干食谱,并绘制插图,Gemini 2.0 Flash的表现着实令人惊艳。


截胡OpenAI,谷歌全模态模型首次解禁!Gemini 2.0中文唠嗑式P图,动漫游戏圈沸腾


当然,作为语言模型,Gemini 2.0 Flash并非绝对完美,偶尔需要稍作调整。


4 文本渲染


对于大多数图像生成模型来说,准确呈现长短文字一直是个难题——要么格式混乱,要么字符模糊,甚至拼写错误层出不穷。


但Gemini 2.0 Flash在这方面表现,非常抢眼。


内部基准测试表明,它在文本渲染上的性能,优于主流竞品。


不论是制作广告、社交媒体帖子,甚至是邀请函,Gemini 2.0 Flash都能清晰、准确呈现文字内容。


截胡OpenAI,谷歌全模态模型首次解禁!Gemini 2.0中文唠嗑式P图,动漫游戏圈沸腾


用Gemini API快速上手


现在,开发者可以直接通过Gemini API测试Gemini 2.0 Flash图像生成模型了。


from google import genai
from google.genai import types

client = genai.Client(api_key="GEMINI_API_KEY")

response = client.models.generate_content(
model="gemini-2.0-flash-exp",
contents=(
"Generate a story about a cute baby turtle in a 3d digital art style. ""For each scene, generate an image."
),
config=types.GenerateContentConfig(
response_modalities=["Text", "Image"]
),
)


Gemini团队研究人员为此还做了一个邀请广大开发者适用的图像,快点上手吧。


截胡OpenAI,谷歌全模态模型首次解禁!Gemini 2.0中文唠嗑式P图,动漫游戏圈沸腾




参考资料:

https://developers.googleblog.com/en/experiment-with-gemini-20-flash-native-image-generation/

https://x.com/OfficialLoganK/status/1899853465922175427



文章来自微信公众号 “ 新智元 ”


截胡OpenAI,谷歌全模态模型首次解禁!Gemini 2.0中文唠嗑式P图,动漫游戏圈沸腾

AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
AI漫画

【开源免费】ai-comic-factory是一个利用AI生成漫画的创作工具。该项目通过大语言模型和扩散模型的组合使用,可以让没有任何绘画基础的用户完成属于自己的漫画创作。

项目地址:https://github.com/jbilcke-hf/ai-comic-factory?tab=readme-ov-file

在线使用:https://aicomicfactory.app/

2
prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。

项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md

在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0