AI一键让图片动起来

12217点击 2025-03-20 09:10

即梦AI、海螺AI和Vidu哪家强？

“复活”这件事，似乎只在仙侠剧、科幻电影中见过，但自从有了AI，好像变得无所不能起来。近期，有人用AI复原孔子、李清照等历史名人，引发热议，让人既见到了书中古人的治愈笑容，也拉近了和古人的距离。

以往，一张照片或者一幅图画虽然能够记录下瞬间的美好，但也往往缺乏一种“生命力”，无法完全传达场景的活力和动感，大家更希望让一张模糊照片能变得清晰，让一张静态照片能动起来。

近日，即梦AI上线“动作模仿”功能，上传一张人物图片和一条参考视频，就生成一条动态视频，让图片里的人物模拟参考视频中的人物动作，连情绪都能1:1还原。

此次，《IT时报》记者测试了即梦AI、海螺AI和Vidu三款应用，看看图生视频究竟哪家强。

海螺AI：做一名“创意大师”

海螺AI（原海螺问问）是由大模型初创公司MiniMax推出的一个免费AI智能助手，有互动式对话、声音克隆、智能创作等常用功能。

其视频讲究运动感，进入AI视频生成的页面后，“如何控制运镜”的链接提供了一个便捷的查询入口。“点选镜头模组后，会将相关镜头词插入Prompt中。”跟着格式说明，《IT时报》记者上传了一张竹叶的静图，运镜为左移、上升的场景镜头，提示词为“竹叶缓缓飘动，让人感觉到风的存在”，点击“生成”按键后，页面显示自动优化提示词，最后生成了一个时长为6秒的成品。

除了植物图，《IT时报》记者还上传了一张宠物狗注视前方的图片，运镜为“左移，跟随”，提示词是“小狗朝着看向的地方欢快地跑去”，成品的时长同样为6秒。

此外，《IT时报》记者还测试了人物图，图片中的人物主体微笑着，站在某景点外的红墙前，向镜头做起了“剪刀手”。所设置的运镜为“推出、上升、下摇”，提示词是“女生放下拍照时用的‘剪刀手’，朝镜头走来”。

使用感受

根据竹叶飘动的画面形成的视频，海螺AI生成的效果整体符合《IT时报》记者的预期，较为满意。小狗在阳光下跑动的画面同样自然，不生硬。人物体态方面，肢体动作、形态较为自然，但当人物从墙体走向镜头时，面貌发生了变化，海螺AI可以在人脸上继续优化。

AI一键让图片动起来

Vidu：一款有想象力的AI

Vidu是生数科技联合清华大学发布的国内首个长时长、高一致性、高动态性的视频大模型，既能够模拟真实物理世界，还拥有丰富的想象力，具备多镜头生成、时空一致性高等特点。前不久，Vidu 2.0发布，其显著特点是生成速度的提升，Vidu非会员可以生成一段4秒的视频，会员可以生成一段8秒无水印的视频。

“调整句式和语序，避免主体物过多或复杂；避免过度文学化的叙述。”Vidu同样有一份详细的使用指南，有趣的是，它还具有联想能力。比如设置“玻璃桌上的咖啡杯，杯子外面写着单词LOVE”的基础词，该应用会帮助使用者构图，再提供详细的位置描述和环境描述。

《IT时报》记者上传的素材和提示词与海螺AI的一样，进而对比效果，测试顺序分别是竹叶图、小狗图、人像图。

使用感受

海螺AI和Vidu各有千秋，前者有镜头感，后者细节处理也不错。先看竹叶图，Vidu的镜头同样按照提示词进行，没有进行联想，效果给人一种缓缓的“移动感”，而非运动感。当《IT时报》记者不加任何提示词时，Vidu就开始进行了联想，在明媚的阳光下，竹叶轻轻晃动。

小狗图的体验似乎有点“失灵”，视频表现出了“左移”这个提示，但几乎没有表现出跟随这一动作，而且小狗也没有跑动，在这方面，海螺AI生成的视频更加丰富逼真。不过，Vidu在一些细节处理方面是亮点，比如小狗吐舌头、耳朵晃动等处理得整体让人满意。

AI一键让图片动起来

在人像图方面，Vidu的肢体动作也较为自然，人物面貌和本人更贴近，没有更换面孔，美中不足的是最后人物的笑容变“假”了，期待Vidu在人物表情、要素上更加多元。

即梦AI：间接来一场“模仿秀”

即梦AI上线的“动作模仿”功能，让图生视频有了新玩法。用户从“数字人”入口进入，上传一张人物图片和一条参考视频，就能生成一条动态视频。该功能支持包括肖像、半身以及全身在内的不同画幅，目前，即梦AI官方提供了4个动作模板。

进入即梦AI电脑端页面，《IT时报》记者根据步骤进行了体验，由于系统强调所上传图片的角色感，所以内容须是具体的人物图。首先是对口形功能，记者上传了一张孩童正在荡秋千的图片，输入“妈妈，秋千真好玩”的台词，选择页面上提供的“小男孩”音色和标准的生成效果，最后图片变换为一段时长为2秒的短视频。

“咚咚咚”，时下，短视频平台上掀起一阵“李曦承进行曲”（由韩国歌手李曦承带火的一种舞步）的模仿热潮，无论是檀健次、黄宗泽等影视演员，还是素人和网友，很多人参与了这场“模仿秀”。在即梦AI提供的动作模仿素材中，这个舞步也是模板之一，其余还有热门表情包、贺春的素材，《IT时报》记者上传了两张全身像，也间接感受了一把这段舞蹈。

即梦AI生成的视频时长最长为30秒，即梦提醒用户，上传的视频素材需确保拥有合法授权，平台会对视频内容进行审核，并对输出视频添加“AI生成”水印。

AI一键让图片动起来

使用感受

一定程度上，对口型功能能让人看到2岁左右幼童说话时的神态，但没有收获太多的惊喜，一是因为音色有点“出戏”，选择性较少；二是动作略显浮夸，音色模板后续可扩展到更多适用的年龄段。

动作模仿功能可以给用户一点小惊喜，当音乐响起，图片中，记者的肢体也跟随律动起来，动感、节奏感比较强。但细看后，会发现人物形象有些失真，并不太像本人，脸部的表情也略感僵硬和机械，会有些跳戏，期待后续在人物神态的逼真度上有所提升。

文章来自于“IT时报”，作者“孙永会”。

AI一键让图片动起来

关键词: AI , 即梦AI , 海螺AI , Vidu

AITNT资源拓展

根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考

cursor

【免费】cursor-auto-free是一个能够让你无限免费使用cursor的项目。该项目通过cloudflare进行托管实现，请参考教程进行配置。
视频教程：https://www.bilibili.com/video/BV1WTKge6E7u/
项目地址：https://github.com/chengazhen/cursor-auto-free?tab=readme-ov-file

声音克隆

【开源免费】MockingBird是一个5秒钟即可克隆你的声音的AI项目。
项目地址：https://github.com/babysor/MockingBird

数字人

【开源免费】Fay开源数字人框架是一个AI数字人项目，该项目可以帮你实现“线上线下的数字人销售员”，
“一个人机交互的数字人助理”或者是一个一个可以自主决策、主动联系管理员的智能体数字人。
项目地址：https://github.com/xszyou/Fay

prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法，编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词，进而高质量的帮助用户通过AI解决问题。
项目地址：https://github.com/langgptai/LangGPT/blob/main/README_zh.md
在线使用：https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0

无人直播

【开源免费】VideoChat是一个开源数字人实时对话，该项目支持支持语音输入和实时对话，数字人形象可自定义等功能，首次对话延迟低至3s。
项目地址：https://github.com/Henry-23/VideoChat
在线体验：https://www.modelscope.cn/studios/AI-ModelScope/video_chat

【开源免费】Streamer-Sales 销冠是一个AI直播卖货大模型。该模型具备AI生成直播文案，生成数字人形象进行直播，并通过RAG技术对现有数据进行寻找后实时回答用户问题等AI直播卖货的所有功能。
项目地址：https://github.com/PeterH0323/Streamer-Sales