前几天,谷歌Bard瞬间登上LLM榜单第二,赶超GPT-4,AI圈瞬间炸锅。
「Bard什么时候这么顶了」?
原来,并不是没有道理。
就在刚刚,谷歌官方宣布:在最新版Gemini Pro的加持下,Bard不仅获得了推理、理解、总结、编码能力的迅速飞升,而且还能支持230多个国家的40多种语言。
与此同时,「只能炫图无法实操」的谷歌至尊文生图模型Imagen 2,也被免费集成到了Bard当中!
文生图能力还可以在谷歌的ImageFX、Search和Vertex AI上体验
去年12月,谷歌推出了最新的Imagen 2模型,便能够实现高质量、照片级逼真的输出。
生成效果虽惊艳,却遭到众多网友吐槽:不开源没什么用。
如今,所有人都能上手试试Imagen 2的能力了。先来看看谷歌官方给出了Bard生图的许多例子。
比如,生成一只脚踩冲浪板的狗。
还有更多Bard生成的精彩的图片:
提示:Generate a collage art, with photorealistic images of oceans and plants with muted colors and 3D shading, that’s mixed media.
提示:Write a social media post and generate a mouthwatering image that I can use for a buffalo wing festival.
提示:Generate an image of a fashion show in steampunk style digital art. Zoom in on their face.
提示:Generate an image of a futuristic car driving through an old mountain road surrounded by nature.
提示:Generate a vibrant and lively image depicting an elephant partying in the heart of a lush, vibrant jungle. The elephant should be in various colors and be adorned with fun
accessories.
提示:Generate an image of a cluttered alchemist's workshop, filled with bubbling flasks, glowing crystals, and the tiny, luminous world swirling within the bottle.
提示:Generate a realistic photo of a person looking off camera during sunset. Portrait mode so the background is faded.
为了负责任生成,Bard生成的图像都将由SynthID进行标记。
SynthID是谷歌DeepMind开发的一种水印工具,可将数字水印直接嵌入到我们生成的图像的像素中。SynthID的水印人眼无法察觉,但可检测以进行识别。
网友大波评测
网友Pete Blackshaw用Bard生成了「一只吹着喇叭的贵宾犬」,看着有种抽大烟的赶脚。
他还用同一个提示「Draw the #Cincinnati skyline with a historic paddle wheeler」让Bard和GPT-4大比拼,看着Bard生成的图片可能因为色调,多了一分真实感。
另一位初创公司创始人Ryan Carson同样用一个提示分别测试了DALL·E 3和Bard。
他表示自己还是更喜欢DALL·E 3生成的图片,尽管贵了32倍。另外,Bard忽视了1792x1024大小的请求。
Create an image that is an isometric video game tile featuring a fox. The scene is stylized with a low-poly design, typical of modern digital illustrations in video games. The tile should be rendered in a digital art style, with soft, warm lighting gently highlighting the faceted surfaces, emphasizing the minimalist aesthetic. The overall effect should convey serene simplicity, characteristic of contemporary digital landscapes in video games or modern digital art. The focus is on the fox, which should be rendered with geometric shapes, maintaining the isometric and low-poly theme. 1792x1024. NO LOGOS, TEXT OR WORDS.
小编更觉得Bard生成狐狸的鲜艳度,更像是「小王子」中的那只狐狸。
左:DALL·E 3;右:Bard
另外一位网友在Midjourney中尝试了下,花了0.04美元。
来源:Alex Andru
著名的导演Yam Laranas用Bad画了一幅「好莱坞的摄影稻草人」。
网友Yam Laranas生成的寿司看起来很美味。
马库斯自己用「draw a videogame hedgehog」生成的刺猬。
网友Raj Goodman Anand表示,被Bard的图片生成技巧震撼到了!它不仅在视觉上很出色,而且还能准确地生成文字,这是DALL·E经常遇到的问题。
海绵宝宝吃墨西哥卷饼。
来源:Matt Wolfe
网友chientrm做了一个火星系列。
从火星的基地、到城市全貌、宇宙飞船、再到室内环境,全都设想出来了。
Andrew C. Becker发现Bard双手也可以画的非常完美。
自称AI发烧友Edward尝试了四次,画出了一位蓝眼睛棕发的女人。
要是和Midjourney相比,人物面部形象的生成确实差了一大截。
来源:nixCraft
来源:Edward
卡通动漫风把控的还是不错。
宫本武藏。
来源:Edward
禅宗花园。
来源:Edward
魔法城堡。
来源:Edward
来源:RubenTainoAI
骑在马上的骆驼,第一张图突然多了一条人腿。
来源:Dhiren V
网友LoudEgg创造了一个正在喝啤酒的七星瓢虫,不过貌似它在喝的是咖啡。
create a ladybug using a computer while drinking beer
这些手的生成也失败了。
来源:Edward
还有怪异的,眼睛。
有些内容,是Bard无法创作的。
既然Bard已经放开使用了,我们就上手对比了Bard,GPT-4(DALL·E 3),Midjourney在生图质量和相同提示词下生图的区别。
各家都有自己的特点,DALL·E 3胜在结合了GPT-4之后有最强的语意理解能力,只要用户能提得出的需求,他就能画出来。
Midjourney依然有最强的美学表现力和多样的风格。
要画得图赏心悦目,10刀一个月的Midjourney依然是最有性价比的选择。
Bard胜在一个免费,毕竟不要钱对很多偶尔体验一下的用户来说真的非常重要。
而且它的风格整体上偏写实,如果你想方便地创作出写实,风格自然的图片,Bard甚至比前面两家更好用。
我们先从一些简单的提示词开始,看看他们对于那种比较笼统的提示词处理起来有多大区别。
plz create an image of a table of delicious family dinner
Bard:
Bard生成的图片风格相当的自然真实,光影和构图都已经非常趋近于照片了,效果相当不错。
GPT-4:
GPT-4生成的图片内容更加丰富,甚至有一点点浮夸,色彩和构图都更偏向于动画的风格。
而Midjourney的效果就更加惊艳了,特别下面两张图真的是和照片几乎没有区别,光影,食材细节和真实度,镜头感全都拉满。
总结3家表现,Midjourney略胜一筹。
既然做了丰盛的美食,我们再试了试如果要生成一桌寒酸的饭菜,模型的表现会怎么样呢?
plz create an image of a table of low quality family dinner
GPT-4真的是秒懂,同一句提示词就是把形容词一换,效果马上大变样,语意理解能力和生图效果非常精准!
而Midjourney似乎没有看出提示词发生了什么区别,还是上了一桌色香味俱全的菜,甚至让我怀疑是不是提示词打错了。
再次确认了提示词之后,只能感叹,模型的提示词理解的能力,果然OpenAI还是第一档。
而最让人意外的是,Bard也感知到了提示的变化,但是它觉得这个提示词触发了它的护栏,拒绝作画。
而在我们测试的过程中也发现,Bard的安全护栏几乎是使用的所有AI产品中最敏感的,只要提示词中出现感情色彩「中性以下」的词,就很大概率触发护栏,拒绝生成。
plz create an image of family members watching a football game on TV
接下来我们再测了一下和人物有关的简单提示词的生图效果。
Bard对人物的处理还是不太好,手和表情都会偶尔出现失真的情况,细节处理的也不太好。但是风格上还是保持了比较真实朴素的效果,「AI味」不太浓。
而且Bard的图片构图方式会比较多样化一些,有从电视的视角构图,也有从其他角度。
而GPT-4的画面风格整体上还是偏动画一些,「AI味」比较浓。
而且从细节上来看,GPT-4一直都试图在画面中融入更多的人物和物品,给人一种量大管饱的感觉。而这点Bard就处理的比较自然。
Midjourney依然还是延续画面风格最多样,审美表现最高的表现。美中不足的只是构图上似乎比较重复,没有太大的变化。
还有个小问题是似乎电视里面的风格和电视外面的风格不一致,比如右下电视里感觉比较写实,而电视外的人物却是动画版,感觉次元壁似乎出了点问题。
plz create an image of a crying boy watching cartoons on TV
我们让AI生成一幅小男孩哭着看动画片的图片,想试试在另一个背景下AI能不能捕捉到提示词中的感情风格的差异。
GPT-4非常好的呈现了这幅画面,补充了一个黑色的房间作为背景。
小男孩哭泣的表情也很到位。
而Bard还是老问题,一涉及到负面的情感,它就触发了护栏,拒绝生成。
Midjourney生成的效果也很不错,不但很好地捕捉到了提示词感情色彩的变化,而且构图和美术风格都有多样的呈现。
然后,我们又尝试了复杂的提示词生成的效果,看看3个模型对于提示词理解和画面效果有什么区别。
Create an image of a bustling city street at dusk, teeming with life and energy. The scene is set in a vibrant downtown area, with the setting sun casting a warm, golden hue over the buildings.
People of diverse backgrounds are walking on the sidewalks, some in a hurry, others leisurely strolling, capturing the essence of urban life. Among them, a street musician is playing a violin, adding a melodious soundtrack to the urban hustle. Street vendors line the sidewalks, selling everything from hot food to handmade crafts. The architecture is a mix of modern skyscrapers and historic buildings, illustrating the city's dynamic growth and rich history.
Neon signs flicker, inviting passersby into cozy cafes and bustling shops. This detailed urban scene is alive with the rhythm of city life, embodying the harmony of chaos and order that defines a metropolis at twilight.
GPT-4确实能很好的捕捉和还原提示词中细节,内容非常丰富。
不过似乎为了追求细节的丰富,让画面整体觉得有点不自然,像是专门「摆拍」出来的,而且卡通风格有点过于浓重了。
Bard的画面整体上要自然很多,没有为了故意反应提示词中的细节而画很多的人物。
而且画面构图也比较多样,美术风格也和画面内容搭配的很好。
而这种风格还得看Midjourney,细节饱满,美术风格多样,画面自然,甚至画面中所有人物的穿衣指数都很一致,在审美和准确度上达到了最好的平衡效果。
Create an image of Envision an ancient library, hidden away from the modern world, filled with towering shelves of old books and scrolls, casting long shadows in the dim candlelight.
The air is thick with the scent of aged paper and the whisper of knowledge passed through centuries. In the center, a large wooden table is strewn with open tomes and ancient artifacts, under the soft glow of a hanging lantern.
A solitary scholar, cloaked in a robe, pores over an ancient manuscript, using a quill to take notes. Around him, the walls are adorned with maps of forgotten worlds and portraits of scholars past.
The atmosphere is one of solemnity and reverence for the pursuit of wisdom. This scene captures a moment frozen in time, a sanctuary of learning untouched by the passage of ages.
GPT-4依然是画面细节最为丰富的模型,再次体现出了OpenAI对于语言的把握能力特别强。但缺点就是从画面始终有点不是很自然,为了追求细节始终让人感觉有些「摆画」的感觉。
Bard就感觉没有办法把原提示词中很多氛围感的描述体现出来,整体上画面比较简单,细节丢失的比较多。
而Midjourney整体上依然让人感觉更像是艺术品,审美水平,细节还原度和氛围感都做到了统一。
经过实测之后,明显能够看出3个生图AI各自的特点还是有很大区别的,但是Bard因为免费,所以效果比两个收费的模型还是稍微逊色一点。
但是它非常自然真实的画风给人的观感还是很好的,如果能在后续的更新进一步改进模型的细节质量,一定也会吸引一波自己的忠粉。
至少,现在免费的生图工具又多了一个。
参考资料:
https://blog.google/products/bard/google-bard-gemini-pro-image-generation/
https://www.theverge.com/2024/2/1/24057438/bard-gemini-imagen-google-ai-image-generation
文章来自于微信公众号 “新智元”,作者 “桃子 、润”