即梦AI、海螺AI和Vidu哪家强?
“复活”这件事,似乎只在仙侠剧、科幻电影中见过,但自从有了AI,好像变得无所不能起来。近期,有人用AI复原孔子、李清照等历史名人,引发热议,让人既见到了书中古人的治愈笑容,也拉近了和古人的距离。
以往,一张照片或者一幅图画虽然能够记录下瞬间的美好,但也往往缺乏一种“生命力”,无法完全传达场景的活力和动感,大家更希望让一张模糊照片能变得清晰,让一张静态照片能动起来。
近日,即梦AI上线“动作模仿”功能,上传一张人物图片和一条参考视频,就生成一条动态视频,让图片里的人物模拟参考视频中的人物动作,连情绪都能1:1还原。
此次,《IT时报》记者测试了即梦AI、海螺AI和Vidu三款应用,看看图生视频究竟哪家强。
海螺AI(原海螺问问)是由大模型初创公司MiniMax推出的一个免费AI智能助手,有互动式对话、声音克隆、智能创作等常用功能。
其视频讲究运动感,进入AI视频生成的页面后,“如何控制运镜”的链接提供了一个便捷的查询入口。“点选镜头模组后,会将相关镜头词插入Prompt中。”跟着格式说明,《IT时报》记者上传了一张竹叶的静图,运镜为左移、上升的场景镜头,提示词为“竹叶缓缓飘动,让人感觉到风的存在”,点击“生成”按键后,页面显示自动优化提示词,最后生成了一个时长为6秒的成品。
除了植物图,《IT时报》记者还上传了一张宠物狗注视前方的图片,运镜为“左移,跟随”,提示词是“小狗朝着看向的地方欢快地跑去”,成品的时长同样为6秒。
此外,《IT时报》记者还测试了人物图,图片中的人物主体微笑着,站在某景点外的红墙前,向镜头做起了“剪刀手”。所设置的运镜为“推出、上升、下摇”,提示词是“女生放下拍照时用的‘剪刀手’,朝镜头走来”。
根据竹叶飘动的画面形成的视频,海螺AI生成的效果整体符合《IT时报》记者的预期,较为满意。小狗在阳光下跑动的画面同样自然,不生硬。人物体态方面,肢体动作、形态较为自然,但当人物从墙体走向镜头时,面貌发生了变化,海螺AI可以在人脸上继续优化。
Vidu是生数科技联合清华大学发布的国内首个长时长、高一致性、高动态性的视频大模型,既能够模拟真实物理世界,还拥有丰富的想象力,具备多镜头生成、时空一致性高等特点。前不久,Vidu 2.0发布,其显著特点是生成速度的提升,Vidu非会员可以生成一段4秒的视频,会员可以生成一段8秒无水印的视频。
“调整句式和语序,避免主体物过多或复杂;避免过度文学化的叙述。”Vidu同样有一份详细的使用指南,有趣的是,它还具有联想能力。比如设置“玻璃桌上的咖啡杯,杯子外面写着单词LOVE”的基础词,该应用会帮助使用者构图,再提供详细的位置描述和环境描述。
《IT时报》记者上传的素材和提示词与海螺AI的一样,进而对比效果,测试顺序分别是竹叶图、小狗图、人像图。
海螺AI和Vidu各有千秋,前者有镜头感,后者细节处理也不错。先看竹叶图,Vidu的镜头同样按照提示词进行,没有进行联想,效果给人一种缓缓的“移动感”,而非运动感。当《IT时报》记者不加任何提示词时,Vidu就开始进行了联想,在明媚的阳光下,竹叶轻轻晃动。
小狗图的体验似乎有点“失灵”,视频表现出了“左移”这个提示,但几乎没有表现出跟随这一动作,而且小狗也没有跑动,在这方面,海螺AI生成的视频更加丰富逼真。不过,Vidu在一些细节处理方面是亮点,比如小狗吐舌头、耳朵晃动等处理得整体让人满意。
在人像图方面,Vidu的肢体动作也较为自然,人物面貌和本人更贴近,没有更换面孔,美中不足的是最后人物的笑容变“假”了,期待Vidu在人物表情、要素上更加多元。
即梦AI上线的“动作模仿”功能,让图生视频有了新玩法。用户从“数字人”入口进入,上传一张人物图片和一条参考视频,就能生成一条动态视频。该功能支持包括肖像、半身以及全身在内的不同画幅,目前,即梦AI官方提供了4个动作模板。
进入即梦AI电脑端页面,《IT时报》记者根据步骤进行了体验,由于系统强调所上传图片的角色感,所以内容须是具体的人物图。首先是对口形功能,记者上传了一张孩童正在荡秋千的图片,输入“妈妈,秋千真好玩”的台词,选择页面上提供的“小男孩”音色和标准的生成效果,最后图片变换为一段时长为2秒的短视频。
“咚咚咚”,时下,短视频平台上掀起一阵“李曦承进行曲”(由韩国歌手李曦承带火的一种舞步)的模仿热潮,无论是檀健次、黄宗泽等影视演员,还是素人和网友,很多人参与了这场“模仿秀”。在即梦AI提供的动作模仿素材中,这个舞步也是模板之一,其余还有热门表情包、贺春的素材,《IT时报》记者上传了两张全身像,也间接感受了一把这段舞蹈。
即梦AI生成的视频时长最长为30秒,即梦提醒用户,上传的视频素材需确保拥有合法授权,平台会对视频内容进行审核,并对输出视频添加“AI生成”水印。
一定程度上,对口型功能能让人看到2岁左右幼童说话时的神态,但没有收获太多的惊喜,一是因为音色有点“出戏”,选择性较少;二是动作略显浮夸,音色模板后续可扩展到更多适用的年龄段。
动作模仿功能可以给用户一点小惊喜,当音乐响起,图片中,记者的肢体也跟随律动起来,动感、节奏感比较强。但细看后,会发现人物形象有些失真,并不太像本人,脸部的表情也略感僵硬和机械,会有些跳戏,期待后续在人物神态的逼真度上有所提升。
文章来自于“IT时报”,作者“孙永会”。
【免费】cursor-auto-free是一个能够让你无限免费使用cursor的项目。该项目通过cloudflare进行托管实现,请参考教程进行配置。
视频教程:https://www.bilibili.com/video/BV1WTKge6E7u/
项目地址:https://github.com/chengazhen/cursor-auto-free?tab=readme-ov-file
【开源免费】MockingBird是一个5秒钟即可克隆你的声音的AI项目。
项目地址:https://github.com/babysor/MockingBird
【开源免费】Fay开源数字人框架是一个AI数字人项目,该项目可以帮你实现“线上线下的数字人销售员”,
“一个人机交互的数字人助理”或者是一个一个可以自主决策、主动联系管理员的智能体数字人。
项目地址:https://github.com/xszyou/Fay
【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。
项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md
在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0
【开源免费】VideoChat是一个开源数字人实时对话,该项目支持支持语音输入和实时对话,数字人形象可自定义等功能,首次对话延迟低至3s。
项目地址:https://github.com/Henry-23/VideoChat
在线体验:https://www.modelscope.cn/studios/AI-ModelScope/video_chat
【开源免费】Streamer-Sales 销冠是一个AI直播卖货大模型。该模型具备AI生成直播文案,生成数字人形象进行直播,并通过RAG技术对现有数据进行寻找后实时回答用户问题等AI直播卖货的所有功能。
项目地址:https://github.com/PeterH0323/Streamer-Sales