最近,可灵AI直接让一位网友的家人群里炸锅了……
事情是这样的,这位网友的父亲需要做搭桥手术,为了给父亲鼓舞,他便试着用可灵AI把爷爷的两张老照片还原成了视频。
在下面这个视频中,爷爷正在朝鲜战场,担任营指导员。穿越时光隧道,1950年代风华正茂的爷爷,对着他挥了挥手。
这位网友把视频发到家人群后,群里直接炸了!
下面这张黑白的合影,是全家唯有的一张全家福。
当已经故去的人忽然动了起来,音容笑貌一如往昔,每个人都泪目了。
家人们久久不能平静,即使已过午夜,群里仍然不断有消息响起。
用AI还原老照片后,全家人仿佛一起经历了一场寻根之旅,从长辈口述的「家史」中,每个人都获得了更多的自我身份认同感。
网友「珏哥」在他的公众号「觉得有意思」里表示,在他看来,AI最大的意义就是成为一台超级造梦机器:安排自己做个美梦,一觉醒来就有继续去生活的劲头了。
歪果仁都「馋哭了」
是的,这几天快手可灵最新上线的图生视频和视频续写功能,不仅在国内掀起一波试用的热潮,还「馋哭」了一众外国网友。
如今,X上已经铺满了可灵生成和续写的视频。
比如这张著名的经典表情包,经过可灵的续写后终于有了大结局!
每一步都在意料之外,但似乎又在情理之中(手动狗头)
狗狗吃面也变得活灵活现。
要知道,曾经的快手可灵一出世,就让外国网友们发出心悦诚服的感叹:效果居然比Sora还要好!
同样是吃汉堡,可灵生成的「咬痕」就要比Sora更加逼真
一些申请到试用资格的用户纷纷表示「真香」。而那些不能亲自体验的国外网友,纷纷「跪求」帮忙生成。
可以说,可灵给全世界的开发者们,再次带来了来自中国的亿点点震撼!
值得一提的是,由于太过爆火,快影App截至目前已有累计超过20万人排队申请。
所以说,这次可灵的两大全新功能,究竟强大在哪里?
首先来看第一个功能——图生视频。
这一功能直接做到了化静为动,让我们从此可以按需定制视觉叙事。
可灵在文生视频上的诸多强大功能,也被一一完美融入了,比如创造逼真的运动场景、精确模拟物理特性、将复杂概念巧妙融合、输出电影级画质、自由调节视频纵横比等等。
上传一张图片,接下来,就是奇迹出现的时刻。
永远面带谜之微笑的蒙娜丽莎,竟然戴上了墨镜,瞟向观众们的小眼神,更多了一丝调皮和狡黠。
业内都知道,模型在转换静态图像为动态视频时,如何细腻而准确地实现大幅度运动场景,要克服不少难点。
对此,可灵充分利用了基础模型架构中的3D时空联合注意力机制,在构建复杂时空运动方面,表现令人惊叹。
下面这个由静图生成的牧羊犬追球的视频,自然流畅,效果非常丝滑。
无论是牧羊犬一下一下晃动的耳朵,还是随风飘扬的毛发,看起来都很符合物理规律。
prompt: 可爱的牧羊犬在奔跑,网球在弹跳,温馨的氛围
汽车在公路上飞驰的这段视频,可灵对整体画面的处理效果简直堪称广告级大片。
不仅汽车疾速前行的姿态逼真自然,对向车道上接连不断的车流、道路两旁向后掠去的树木、虚化处理的隔离带,无不模拟出了疾驰的速度感,几乎挑不出破绽。
prompt:汽车在公路上高速行驶,速度感,广告片
更厉害的是,可灵的图生视频模型还融入了强大的提示词融合技术。
这就意味着,用户可以对模型下达文本指令,来人为地掌控视频中对象的动态表现了。
比如上传这张女孩的照片后,普通的模型,可能会默认增加发丝飘动、花朵摇曳、水面闪烁波纹的效果。
但在可灵中,我们可以输入「转身背对镜头」的提示词。
模型输出的视频中,女孩就开始优雅转身,并且增添了转身瞬间微笑、眨眼的细节,显得更加自然生动。
可灵的这个新功能,也让我们的想象力可以充分放飞。
比如小编在看《权力的游戏》时经常想象的一个场景——「愤怒的巨龙,漫天飞沙,奇幻风格电影」,提示词输入后,幻想中的场景瞬间成真了!
巨龙昂首展翅,掀起漫天黄沙,咆哮声震耳欲聋
这种文本与图像意义的紧密联动,无疑对影视制作等行业意义重大。(看来好莱坞导演撤掉8亿美元摄影棚,的确是明智的选择)
从此,视觉叙事可以按需定制,许多行业必将掀起新的飓风。
此外,这个模型还能支持不同风格的图像输入,无论自然写实,还是风格化图像。
同时,它还兼容各种长宽比的图像输入,可以说是为国内各个短视频平台量身打造。
这张竖版的骑士,黑袍飞舞,光剑仙气环绕,氛围感瞬间拉满
凭AI电影《山海奇境》刷屏全网的制作人陈坤,半年之后用可灵的图生视频功能重制了一遍《山海奇镜》的预告片。
留言区的网友直呼「有大片的味道」。果然AI一天,人间一年。
这位叫「海军爱摄影」的网友,直接将自己的摄影作品变成了视频。
奔跑的女孩与骆驼,黑白的色调,颗粒的老电影质感,把摄影作品中包含压迫感的内涵意蕴升华到了令人震撼的地步。
当世界名画开始动起来,会给人怎样的体验?
「JessyJang」用可灵让我们大开眼界。
无论是现代艺术的经典之作《The Son of Man》,还是著名油画《戴珍珠耳环的少女》《吹笛少年》,都忽然开始活灵活现。霍格沃茨城堡上的油画,原来是真实存在的?
B站up主「呜哩智绘」,用可灵的图生视频功能,生成了各个样子的戴珍珠耳环的少女。
人物动作、面部表情、手部细节、视频中的光影,都堪称完美。
「呜哩智绘」直言:这是「目前我玩过的最稳定好用的图生视频」。
网友也表示——
「喜好儿网」则用可灵让历史人物活了起来。
网友们惊呼,可灵做出的爱因斯坦简直跟纪录片一样。
up主「鑫訫向荣」直接把语文课本里的插画都还原了出来。还记得这些都是哪一课吗?
up主「花染色体TT」,干脆用可灵做了个「伪log」。
用几张12年前的照片,让记忆中的场面鲜活起来。此时,距离高考还有16天——
美女的照片,变成视频后美得更有冲击力了。
即使混进了一些奇怪的东西,看起来似乎也很自然。
其次,是对算法挑战更大的「视频续写」。
它不仅要求模型理解视频的基本元素,以及更深层次的叙事结构,还需要创建新的情景,而且在视觉和主题上都要保持连贯。
在这一领域,可灵则成功地把强大的想象力和精细的可控性发挥得淋漓尽致。
随着功能的正式上线,所有视频立刻在原有基础上原地「+5秒」!
无论是文生视频还是图生视频,皆可适用。
这对于创作者来说,视频续写至关重要。因为这种强大的叙事能力,可以极大地拓展他们的创作边界。
无独有偶,Runway的Gen-2可支持将视频时间最高延续到18秒,每次点击「Extend」功能,可完成4秒的视频,而且能够保持人物的一致性。
同样,Pika也支持视频延续的功能,而且用户可以指定想要生成的时间,与原始视频无缝集成。
而上周,初创公司Luma AI发布的AI视频模型Dream Machine,直接就定位为「续写模型」,还能免费试玩。
各种表情包,成为网友们恶搞的对象,经过Dream Machine的想象,所有的静图都有了完美的后续。
可见,视频续写代表着整个AI视频模型发展未来,打破了传统视频编辑的界限。
更瞩目的是,可灵大模型甚至还能连续多次续写,这样的结果就是,我们最长能够生成长达约3分钟的连贯视频!
续写x1:一个女人站在雪地里,抬起右手摸了一下帽檐
续写x2:女人的手放下,并望向远方
可以看出,新生成的部分和原视频之间,依然保持着运动连贯性和物理的合理性,这正是基于可灵大模型对于物理运动的深入理解。
而这种续写,就给巧妙融入大幅度动作变化带来了可能,让视频的生动性大大提高。
续写x1:宇航员从月球表面跳起来,飞向太空
同样,在视频续写中也集成了文本控制机制,因此用户可以通过自定义提示词,为每段视频注入个性化的创意。
由此,我们想要的每次场景都可以平滑过渡,可以说是不放过咱们都任何一个灵感小火花!
比如这座古堡,我们既可以在场景中让「太阳落下,天空变暗,灯光渐亮」,随后让「灯光亮起,雾气氤氲」。
而网友们用续写功能做出来的视频,效果简直一个比一个炸裂!
网友「石硕Simon」直接用可灵的续写功能创作了长达1分多钟的一镜到底。
多次续写的镜头,依然保持着令人叫绝的连贯性。
「PlayerKang」生成的59秒奔驰汽车大片,无论在连续性、稳定性和流畅性上都令人叫绝,已经接近了替代商业广告片的水平。
「西地宇宙CDVERSE」用可灵的视频续写功能,做出了一套古香古韵的「日出东方」大片。
整个视频,是用一张图片生成的长镜头。
每个镜头中的人物,始终保持着稳定。
此次进化,可灵文生视频基础大模型被无缝整合到「图生视频」和「视频续写」功能中,带来了更丰富、灵活的视频创作体验。
这些能力,都基于快手在AI大模型时代的不断布局。
快手先后发布了,通用大语言模型「快意」,文生图大模型「可图」,还有Direct-a-Video、Video-LaVIT、I2V-Adapter、UNIAA等视频生成关键技术。
恰逢近日在美国西雅图举行的国际计算机视觉顶会CVPR 2024上,快手也同步发布了可灵大模型的图生视频和视频续写等最新功能,引起现场的强烈反响。
公开资料显示,今年快手共有8篇论文入选CVPR 2024,彰显了其在该领域的深厚研究功底。
除了凭借创新的技术在CVPR上大放异彩之外,作为一家引领行业发展的公司,还要用战略眼光将技术落地到应用。
就在即将开幕的2024世界人工智能大会(WAIC)上,快手将举办以「新AI·新应用·新生态」为主题的大模型技术生态论坛。
届时,不仅会发布最新的大模型技术,还包括快手大模型技术矩阵全景、应用和落地现状等一系列多维度、多方向的战略讨论。
文章来自于微信公众号“新智元”,作者 “新智元”