ChatGPT 人工智能 GPT4 伦理 生成式 医疗 监管 安全 机器学习 深度学习 神经网络 计算机视觉 强化学习 模型 算法 应用 开发 研究 工具 平台 框架 数据集 训练 部署 安全 合规 培训 投资 LLM,llm AI,ai,Ai 大模型 大语言模型 制图 生图 绘图 文生图 文生视频 生成式AI AGI 世界模型 sora chatGPT,chatgpt,ChatGpt claude openai Llama deepseek midjourney 红熊猫模型 Red panda,panda Stable Diffusion,StableDiffusion,stable DALL- E 3 DALL E DALL Flux,flux 扩散模型 混元大模型 文心一言 通义千问 可灵 Pika PixelDance 豆包 月之暗面 零一万物 阶跃星辰 搜索增强 MiniMax Talkie Agent prompt fastai LangChain TTS 微调 提示词 知识库 智能体
# 热门搜索 #
搜索
Gen-3开放内测,网友实测demo惊人!魔都时装秀一绝,却依旧不懂物理世界
9182点击    2024-07-02 11:14

众人翘首以盼的Gen-3 Alpha,终于向部分超级创意合作者开放了。


拿到内测资格的网友,可是爽了一把。


比起上一代,Gen-3 Alpha在细节、一致性和运动表现方面,又有了史诗级改进!



还有人表示,Gen-3让我们看到了一个令人兴奋的未来——用不了多久,我们就能看到完全由AI生成的电影了。



不过,不可否认的是,Gen-3 Alpha在理解物理世界上,还是有一定的差距。


就拿网友测试Gen-3和Sora对比的一个demo中,越野车在陡峭的山坡中快速行驶,轮胎尘土飞扬。


明显可以看出,Gen-3生成了尘土仅在车前方出现的情景。



就连此前的Sora也是,生成了只有四条腿的蚂蚁,被网友吵得不可开交。



不仅如此,这几天比较火的另一个AI视频模型Dream Machine,硬是把体操运动员高空表演,拍成了恐怖片。


所有表演者的四肢,在做空中翻转等技能时,不是分散变形,就是合二为一。



另有网友测试Gen-3后,发现也是存在同样的问题。



下面这位直接站在假象的体操杆上表演。



这种时刻,当然少不了LeCun的嘲讽,他激动地再次重述,「视频生成模型根本不理解基本的物理,更不用说人体了」。



他肯定了AI视频模型会随着时间推移,变得越来越好。


「不过,真正理解物理的学习系统将不是生成式的。所有的鸟类和哺乳动物,比任何视频生成系统更了解物理学。然而,他们都无法生成详细的视频」。



各种演示demo,网友玩疯


开放2天后,Gen-3 Alpha的实测demo已经铺屏全网,接下来,让我们一睹为快。


看看如今敢叫板Sora的AI视频模型究竟强在哪?差距又在哪?


人物细节精准刻画,表现更有张力


水中物理学,Gen-3做的还是很惊艳的。




在人物的刻画,表现张力,不得不说Gen-3真的很强。




这双弹钢琴的手,是那么地完美。




在Gen-3笔下,还可以画出灵动的长着兔耳朵的小女孩。



作者表示,其实自己的提示中写错了(长着兔毛的女孩),不过Gen-3很好地理解她的意图,画出了兔耳朵。



AI生成时装秀,堪比世界四大时装周


还有AI生成的时装秀表演,完全打破了美学的想象力,可以引领时尚前沿了。




精灵、怪兽未来科幻,Gen-3想象力太强


Gen-3生成的「全息」精灵,看着有些神奇。




伦敦泰晤士河中,一只隐藏的怪物从水中逐渐浮现。



这一画面,让人不禁想起哥斯拉电影中的场景。



另一位网友用Gen-3做了一个科幻短片,名为《2030——欧罗巴任务》,还为其配上了音乐。




还有太空电梯,看着像那么回事儿。




多场景转换,把控到位


网友用Gen-3生成的一个人一生不同阶段的飞速闪过的经历。



从幼年时期,到小学、中学,再到大学,结婚,都呈现出来了。



下面这个场景转换,Gen-3把控得非常到位。


从爱尔兰的一座城堡,飞越到一座摩天大楼林立的未来赛博朋克城市。




还有这种像素风格的AI视频生成,完全是原生的。




视频游戏,一键生成


黄仁勋曾说过,未来5-10年内会看到完全由AI生成的游戏!


不过,Gen-3生成的AI视频游戏,也足以令人惊叹了。


网友用Gen-3去生成16位的复古视频游戏1776。




多样字体


另外,Gen-3 Alpha在标题动画的生成效果上,简直令人惊叹。


网友收集了9个最经典的案例。


海浪拍打沙滩后,留下了Ruway的字样。



电影院大屏出现了Ruway字样,给人一种漫威风格的赶脚。



烟花在天空中绽放出Ruway字样。



还有海洋里气泡、流体、树叶等各种各样的元素,生成的惊艳字体。




失败案例


除了开篇所给出的Gen-3不懂物理世界案例之外,网友也收集了一些其他的失败case。


比如,下面这把刀切肉,切一片变成许多片。网友惊叹道,多么厉害的一把刀。




Gen-3、Sora,谁更强?


Gen-3和Sora相比,谁更胜一筹?


网友Proper使用了9个相同提示,分别去测试这两个模型。


提示一:一名潜水员发现了一艘隐藏的来自未来的沉船,船上有生化海洋生物和先进的外星科技


就生成效果来看,Gen-3未来科技感更强,Sora只是着重突出了沉船的外观。



提示二:24岁女子眨眼的超特写镜头,站在马拉喀什的魔幻时刻,电影胶片,70mm拍摄,景深,色彩鲜艳,电影效果


在这个提示下,Gen-3和Sora真实度各有千秋,Gen-3的瞳孔中貌似更能看出马拉喀什这座魔幻之城。


不过,Gen-3的视频没有眨一下眼,缺少了真实性。



提示三:一个外星人与纽约市自然融合,偏执惊悚风格,35毫米胶片。


就外星人形象来说,不得不说Sora更好一些,更能让人接受,Gen-3生成的外星人就像一个恐怖片一样。



提示四:一位时尚的女性走在东京的一条街道上,街道上到处是温暖的霓虹灯和生动的城市标志。她穿着黑色皮夹克、红色连衣裙和黑色靴子,手提一个黑色手提包。她戴着太阳镜,涂着红色口红。她走路自信而随意。街道潮湿且具有反光效果,形成了彩色灯光的镜面效果。街上有许多行人在走动。


还有Sora生成的这张经典的图像——打扮时髦的女人走在东京街道,Gen-3也不输分毫。不过,在表现镜面效果这点上,Gen-3没有完全遵循指令。



提示五:加州淘金热时期的历史镜头。


Gen-3更加真实地体现了加州淘金热,人们沉浸在淘金的喜悦中,而且背景颜色凸显出的历史感更加浓厚。


也就是说,没有对比,就没有伤害。



提示六:一位年轻的专业产品评论员坐在一台有两个显示屏的电脑前,在一个光线充足的视频工作室里,周围环绕着各种小工具和科技设备。他手持一台电影摄影机,正在思考下一个要制作的视频内容。他对准了焦距、 背景略微模糊,以达到电影效果。


Gen-3在人物的表现上,更加丰富。Sora只是男子的头从一边转到另一边,也没有体现出对焦的这个动作。



提示七:摄像机围绕着一大堆老式电视机旋转,这些电视机都在播放不同的节目:1950年代的科幻电影、恐怖电影、新闻、雪花屏、1970年代的情景喜剧等,这一场景设置在纽约一个大型博物馆展厅内。


旋转这一点Gen-3倒是很好地体现,不过电视有点「穿模」的感觉。还有雪花屏幕,Gen-3漏掉了。


但是,对于Sora,却没有旋转起来。


不管咋说,都没有最完美的AI视频模型。



还有额外一个对比的案例,大家可以自己感受下。



文章来源于“新智元”,作者“新智元


关键词: Gen-3 , AI视频 , AI , 视频大模型