更适合中国宝宝体质的图生视频大模型。
起猛了,大清早打开电脑就看到一只柴犬躲在屏幕里偷笑。
哦,原来是因为睡前打开LivePortrait忘记关了。
没错,就是WAIC期间快手开源的那个表情迁移项目(可控人像视频生成框架)。为了防止有些小伙伴缺课,在这里帮大家复习一下,最初LivePortrait的功能主要是人像表情迁移。
比如你没去过卢浮宫,也能看到蒙娜丽莎对你假笑,就像这样:
是不是还挺自然的?可能达芬奇当初看到的表情都没我们现在看到的这么丰富。
而获得这样一小段视频的操作方法也非常简单,只需在屏幕左侧方框拖入原照片(清晰识别五官版),右侧方框导入你想要的表情视频,就能一键迁移完成丝滑小连招。
LivePortrait生成界面
不过,如果只是表情迁移其实没啥好说的,从大名鼎鼎的Sora,到Dream Machine、Viggle这些新锐黑马等,只要是技术比较成熟的大模型,做类似产品都so easy。
LivePortrait可圈可点之处在于,它不仅能迁移表情,还能迁移动作:
LivePortrait表情迁移示意
好家伙,有了这玩意,貌似也不是很需要等小墙头拍戏了。只需要把他/她的照片输入再driving一下,自己也能产粮......开个玩笑。
如今,LivePortrait更是迎来重磅升级,能够把人类的表情一键迁移到动物身上,就像前文那只柴犬一样。
自从7月开源以来,LivePortrait就引起全世界AI发烧友广泛的关注。截至今日最新数据,它在GitHub上总计收获了10K Stars,976 Forks:
GitHub截图
代码地址如下,感兴趣的小伙伴们可以前去围观。
https://github.com/KwaiVGI/LivePortrait
其实,早在6月的时候,编辑部在阿B冲浪时就偶遇铁厂的小伙伴透露,LivePortrait会进一步优化,没想到比想象中来得更快、更惊艳。
B站评论区截图
扒了下LivePortrait对应论文《LivePortrait: Efficient Portrait Animation with Stitching and Retargeting Control》。
简单来说,与主流的扩散模型方法不同,LivePortrait通过采用隐式关键点框架,专注提高3个点:泛化性、可控性和实用效率(这也就解释了为什么升级后可以把表情迁移功能一键复制到动物身上)。
同时,在提高模型计算效率和可控性的基础上,通过使用69M高质量训练帧、视频-图片混合训练、网络结构升级以及改进的动作建模和优化来增强生成能力和可控性。
实验证明,使用 PyTorch 在 RTX 4090 GPU 上,LivePortrait的生成速度显著达到 12.8 ms,优化后还能更快(如TensorRT,预计能达10ms以内)。
论文摘要截图
论文首页
美中不足的是,我们在测试过程中发现,如果原图五官(动物&人类)不够清晰,或者角度不是正面、45度,在生成过程中容易出现脸皮不动、五官乱飞等鬼畜现象。
比如下面这只咪,浑身都在抽搐:
言归正传。
作为一款图生视频大模型,自从问世以来,LivePortrait就难逃和Sora比较的命运。技术端的孰高孰低难以下定论,不过,从目前的试用情况来看,作为快手、中国科学技术大学、复旦大学联手开发的成果,LivePortrait在操作环节和体验上的确更加符合中国人的使用习惯。
而且生成速度也更加理想。5-6分钟就能生成可爱的猫猫狗狗,实在很难不心动。
我们尝试用一张曾经养过的猫咪照片进行“复活”,在它重新摇头晃脑的那一刻,一下子眼眶温热.jpg。突然理解了《流浪地球》里刘德华饰演的图恒宇对于数字人女儿的执念。
事儿不是同一件,心情却是一样的。
《流浪地球》电影截图
技术当然可以有温度。从更大的范围来讲,未来,随着更多图生视频大模型的成熟,“跨时空互动”或将成为常态,在情感记录、口述史传承、重现历史场景等方面都可以发挥更大的作用。
除了快手,国内发力追击图生视频大模型的公司&产品还有腾讯、清华大学、香港科技大学联合推出图生视频模型“Follow-Your-Click”,字节跳动的“即梦”,智谱AI的“清影”,爱诗科技的PixVerse V2以及商汤Vimi等。
谁将成为中国的Sora?尘埃还没落定。目前来看,以上几款产品都存在不同程度上的生成缺憾,和Sora还存在一定差距。
话说到这里,中元节到了,不妨让你想念的那个他/她/它像从前那样再笑一次吧。
文章来源“蚩梦”,作者“蚩梦”
【开源免费】Fay开源数字人框架是一个AI数字人项目,该项目可以帮你实现“线上线下的数字人销售员”,
“一个人机交互的数字人助理”或者是一个一个可以自主决策、主动联系管理员的智能体数字人。
项目地址:https://github.com/xszyou/Fay
【开源免费】LivePortrait项目可以实现高效的人像动画,通过拼接和重定向控制技术,使一个静态人像或动物图像能够变成动态的视频,变成动画形式。
项目地址:https://github.com/KwaiVGI/LivePortrait?tab=readme-ov-file
【开源免费】VideoChat是一个开源数字人实时对话,该项目支持支持语音输入和实时对话,数字人形象可自定义等功能,首次对话延迟低至3s。
项目地址:https://github.com/Henry-23/VideoChat
在线体验:https://www.modelscope.cn/studios/AI-ModelScope/video_chat
【开源免费】Streamer-Sales 销冠是一个AI直播卖货大模型。该模型具备AI生成直播文案,生成数字人形象进行直播,并通过RAG技术对现有数据进行寻找后实时回答用户问题等AI直播卖货的所有功能。
项目地址:https://github.com/PeterH0323/Streamer-Sales