ChatGPT 人工智能 GPT4 伦理 生成式 医疗 监管 安全 机器学习 深度学习 神经网络 计算机视觉 强化学习 模型 算法 应用 开发 研究 工具 平台 框架 数据集 训练 部署 安全 合规 培训 投资 LLM,llm AI,ai,Ai 大模型 大语言模型 制图 生图 绘图 文生图 文生视频 生成式AI AGI 世界模型 sora chatGPT,chatgpt,ChatGpt claude openai Llama deepseek midjourney 红熊猫模型 Red panda,panda Stable Diffusion,StableDiffusion,stable DALL- E 3 DALL E DALL Flux,flux 扩散模型 混元大模型 文心一言 通义千问 可灵 Pika PixelDance 豆包 月之暗面 零一万物 阶跃星辰 搜索增强 MiniMax Talkie Agent prompt fastai LangChain TTS 微调 提示词 知识库 智能体
# 热门搜索 #
搜索
快手「可灵」再进化!视频续写可达3分钟让全球网友炸锅
3739点击    2024-06-26 10:39

最近,可灵AI直接让一位网友的家人群里炸锅了……


事情是这样的,这位网友的父亲需要做搭桥手术,为了给父亲鼓舞,他便试着用可灵AI把爷爷的两张老照片还原成了视频。


在下面这个视频中,爷爷正在朝鲜战场,担任营指导员。穿越时光隧道,1950年代风华正茂的爷爷,对着他挥了挥手。



这位网友把视频发到家人群后,群里直接炸了!



下面这张黑白的合影,是全家唯有的一张全家福。



当已经故去的人忽然动了起来,音容笑貌一如往昔,每个人都泪目了。



家人们久久不能平静,即使已过午夜,群里仍然不断有消息响起。



用AI还原老照片后,全家人仿佛一起经历了一场寻根之旅,从长辈口述的「家史」中,每个人都获得了更多的自我身份认同感。


网友「珏哥」在他的公众号「觉得有意思」里表示,在他看来,AI最大的意义就是成为一台超级造梦机器:安排自己做个美梦,一觉醒来就有继续去生活的劲头了。


歪果仁都「馋哭了」


是的,这几天快手可灵最新上线的图生视频和视频续写功能,不仅在国内掀起一波试用的热潮,还「馋哭」了一众外国网友。




如今,X上已经铺满了可灵生成和续写的视频。


比如这张著名的经典表情包,经过可灵的续写后终于有了大结局!



每一步都在意料之外,但似乎又在情理之中(手动狗头)


狗狗吃面也变得活灵活现。



要知道,曾经的快手可灵一出世,就让外国网友们发出心悦诚服的感叹:效果居然比Sora还要好!



同样是吃汉堡,可灵生成的「咬痕」就要比Sora更加逼真


一些申请到试用资格的用户纷纷表示「真香」。而那些不能亲自体验的国外网友,纷纷「跪求」帮忙生成。




可以说,可灵给全世界的开发者们,再次带来了来自中国的亿点点震撼!



值得一提的是,由于太过爆火,快影App截至目前已有累计超过20万人排队申请。


所以说,这次可灵的两大全新功能,究竟强大在哪里?


图生视频


首先来看第一个功能——图生视频。


这一功能直接做到了化静为动,让我们从此可以按需定制视觉叙事。



可灵在文生视频上的诸多强大功能,也被一一完美融入了,比如创造逼真的运动场景、精确模拟物理特性、将复杂概念巧妙融合、输出电影级画质、自由调节视频纵横比等等。


上传一张图片,接下来,就是奇迹出现的时刻。


永远面带谜之微笑的蒙娜丽莎,竟然戴上了墨镜,瞟向观众们的小眼神,更多了一丝调皮和狡黠。



构建复杂时空一绝


业内都知道,模型在转换静态图像为动态视频时,如何细腻而准确地实现大幅度运动场景,要克服不少难点。


对此,可灵充分利用了基础模型架构中的3D时空联合注意力机制,在构建复杂时空运动方面,表现令人惊叹。



下面这个由静图生成的牧羊犬追球的视频,自然流畅,效果非常丝滑。


无论是牧羊犬一下一下晃动的耳朵,还是随风飘扬的毛发,看起来都很符合物理规律。


prompt: 可爱的牧羊犬在奔跑,网球在弹跳,温馨的氛围


汽车在公路上飞驰的这段视频,可灵对整体画面的处理效果简直堪称广告级大片。


不仅汽车疾速前行的姿态逼真自然,对向车道上接连不断的车流、道路两旁向后掠去的树木、虚化处理的隔离带,无不模拟出了疾驰的速度感,几乎挑不出破绽。


prompt:汽车在公路上高速行驶,速度感,广告片


文本指令控制视频,女孩一键转身


更厉害的是,可灵的图生视频模型还融入了强大的提示词融合技术。


这就意味着,用户可以对模型下达文本指令,来人为地掌控视频中对象的动态表现了。


比如上传这张女孩的照片后,普通的模型,可能会默认增加发丝飘动、花朵摇曳、水面闪烁波纹的效果。



但在可灵中,我们可以输入「转身背对镜头」的提示词。


模型输出的视频中,女孩就开始优雅转身,并且增添了转身瞬间微笑、眨眼的细节,显得更加自然生动。




可灵的这个新功能,也让我们的想象力可以充分放飞。


比如小编在看《权力的游戏》时经常想象的一个场景——「愤怒的巨龙,漫天飞沙,奇幻风格电影」,提示词输入后,幻想中的场景瞬间成真了!


巨龙昂首展翅,掀起漫天黄沙,咆哮声震耳欲聋



这种文本与图像意义的紧密联动,无疑对影视制作等行业意义重大。(看来好莱坞导演撤掉8亿美元摄影棚,的确是明智的选择)


从此,视觉叙事可以按需定制,许多行业必将掀起新的飓风。


此外,这个模型还能支持不同风格的图像输入,无论自然写实,还是风格化图像。


同时,它还兼容各种长宽比的图像输入,可以说是为国内各个短视频平台量身打造。


这张竖版的骑士,黑袍飞舞,光剑仙气环绕,氛围感瞬间拉满


实测效果


凭AI电影《山海奇境》刷屏全网的制作人陈坤,半年之后用可灵的图生视频功能重制了一遍《山海奇镜》的预告片。


留言区的网友直呼「有大片的味道」。果然AI一天,人间一年。



这位叫「海军爱摄影」的网友,直接将自己的摄影作品变成了视频。


奔跑的女孩与骆驼,黑白的色调,颗粒的老电影质感,把摄影作品中包含压迫感的内涵意蕴升华到了令人震撼的地步。



当世界名画开始动起来,会给人怎样的体验?


「JessyJang」用可灵让我们大开眼界。


无论是现代艺术的经典之作《The Son of Man》,还是著名油画《戴珍珠耳环的少女》《吹笛少年》,都忽然开始活灵活现。霍格沃茨城堡上的油画,原来是真实存在的?



B站up主「呜哩智绘」,用可灵的图生视频功能,生成了各个样子的戴珍珠耳环的少女。


人物动作、面部表情、手部细节、视频中的光影,都堪称完美。



「呜哩智绘」直言:这是「目前我玩过的最稳定好用的图生视频」。



网友也表示——



「喜好儿网」则用可灵让历史人物活了起来。



网友们惊呼,可灵做出的爱因斯坦简直跟纪录片一样。



up主「鑫訫向荣」直接把语文课本里的插画都还原了出来。还记得这些都是哪一课吗?




up主「花染色体TT」,干脆用可灵做了个「伪log」。


用几张12年前的照片,让记忆中的场面鲜活起来。此时,距离高考还有16天——




美女的照片,变成视频后美得更有冲击力了。




即使混进了一些奇怪的东西,看起来似乎也很自然。




视频续写


其次,是对算法挑战更大的「视频续写」。


它不仅要求模型理解视频的基本元素,以及更深层次的叙事结构,还需要创建新的情景,而且在视觉和主题上都要保持连贯。


在这一领域,可灵则成功地把强大的想象力和精细的可控性发挥得淋漓尽致。


随着功能的正式上线,所有视频立刻在原有基础上原地「+5秒」!


无论是文生视频还是图生视频,皆可适用。


这对于创作者来说,视频续写至关重要。因为这种强大的叙事能力,可以极大地拓展他们的创作边界。


无独有偶,Runway的Gen-2可支持将视频时间最高延续到18秒,每次点击「Extend」功能,可完成4秒的视频,而且能够保持人物的一致性。



同样,Pika也支持视频延续的功能,而且用户可以指定想要生成的时间,与原始视频无缝集成。


而上周,初创公司Luma AI发布的AI视频模型Dream Machine,直接就定位为「续写模型」,还能免费试玩。


各种表情包,成为网友们恶搞的对象,经过Dream Machine的想象,所有的静图都有了完美的后续。



可见,视频续写代表着整个AI视频模型发展未来,打破了传统视频编辑的界限。


多次续写,最长可达3分钟


更瞩目的是,可灵大模型甚至还能连续多次续写,这样的结果就是,我们最长能够生成长达约3分钟的连贯视频!


续写x1:一个女人站在雪地里,抬起右手摸了一下帽檐

续写x2:女人的手放下,并望向远方


深刻理解物理世界,合理且大幅度动作无破绽


可以看出,新生成的部分和原视频之间,依然保持着运动连贯性和物理的合理性,这正是基于可灵大模型对于物理运动的深入理解。


而这种续写,就给巧妙融入大幅度动作变化带来了可能,让视频的生动性大大提高。


续写x1:宇航员从月球表面跳起来,飞向太空


同样,在视频续写中也集成了文本控制机制,因此用户可以通过自定义提示词,为每段视频注入个性化的创意。


由此,我们想要的每次场景都可以平滑过渡,可以说是不放过咱们都任何一个灵感小火花!


文本控制续写,场景转换丝滑


比如这座古堡,我们既可以在场景中让「太阳落下,天空变暗,灯光渐亮」,随后让「灯光亮起,雾气氤氲」。



实测效果


而网友们用续写功能做出来的视频,效果简直一个比一个炸裂!


网友「石硕Simon」直接用可灵的续写功能创作了长达1分多钟的一镜到底。


多次续写的镜头,依然保持着令人叫绝的连贯性。



「PlayerKang」生成的59秒奔驰汽车大片,无论在连续性、稳定性和流畅性上都令人叫绝,已经接近了替代商业广告片的水平。



「西地宇宙CDVERSE」用可灵的视频续写功能,做出了一套古香古韵的「日出东方」大片。


整个视频,是用一张图片生成的长镜头。


每个镜头中的人物,始终保持着稳定。



技术积累


此次进化,可灵文生视频基础大模型被无缝整合到「图生视频」和「视频续写」功能中,带来了更丰富、灵活的视频创作体验。


这些能力,都基于快手在AI大模型时代的不断布局。


快手先后发布了,通用大语言模型「快意」,文生图大模型「可图」,还有Direct-a-Video、Video-LaVIT、I2V-Adapter、UNIAA等视频生成关键技术。


恰逢近日在美国西雅图举行的国际计算机视觉顶会CVPR 2024上,快手也同步发布了可灵大模型的图生视频和视频续写等最新功能,引起现场的强烈反响。


公开资料显示,今年快手共有8篇论文入选CVPR 2024,彰显了其在该领域的深厚研究功底。



除了凭借创新的技术在CVPR上大放异彩之外,作为一家引领行业发展的公司,还要用战略眼光将技术落地到应用。


就在即将开幕的2024世界人工智能大会(WAIC)上,快手将举办以「新AI·新应用·新生态」为主题的大模型技术生态论坛。


届时,不仅会发布最新的大模型技术,还包括快手大模型技术矩阵全景、应用和落地现状等一系列多维度、多方向的战略讨论。


文章来自于微信公众号“新智元”,作者 “新智元”


关键词: 可灵 , AI视频 , 视频模型 , AI , 大模型
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。

项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md

在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0