AI视频的新顶流
三个「悟空」同台,竟是为了比拼舞技。
小丑、五条悟跨次元联动,一比一复刻苹果高管的跑酷。
初看粗劣,再看抽象,你可能满头问号不解其意,怀疑制作者的精神状态,但你同样也可以选择加入创作,证明你可以更鬼畜。
这两个视频都出自一款 AI 工具:Viggle。只要一张人物照片、一个动作视频,Viggle 就能生成各种整活视频。
近期,Viggle 上榜了硅谷知名投资机构 a16z 的全球 AI 产品 Top100,排在第 21 名。
一个不严肃甚至有些糙的 AI 工具,凭什么在海量产品中脱颖而出?
Viggle 用起来很简单,新用户可以先从 Mix 功能开始体验,只需要输入两个「提示词」——视频,提供动作;图片,提供角色。
其中,图片最好是背景干净的全身图片,视频可以自己上传,也可以使用 Viggle 的模板。
Viggle 的视频模板很丰富,唱跳,足球,影视,游戏......
我选择《楚门的世界》的视频模板,上传了黄仁勋意气风发的《时代》杂志照片。
不过十几秒就完成了,然而人像吃了菌子,脖子以上六亲不认,身体边缘还有较为明显的抠图感,金凯瑞的经典表情更没能重现,但动作是照着做了,就说这部分到不到位吧。
如果是自己上传视频,注意时长不超过 30 秒,角色动作清晰和无遮挡,光线也要好,画面不能太昏暗。
我选取了一段曾经席卷抖音的海底捞舞蹈「科目三」,让死侍跳起来,30 秒输出了结果。
是否保留原有的背景,还是改成绿底或白底,供君选择,尤其绿底,很方便后期处理。为了避免红配绿的视觉冲击,我选择了白底。
扭腰、摆胯、摇花手一点也不违背死侍的人设,「科目三」的动作本身就魔性,塑料质感让姿态更加曼妙。
只霍霍一个角色的话,那怎么满足广大网友看热闹不嫌事大的需求?8 月,Viggle 推出了 Multi 功能,顾名思义,可以一次更换多个角色。
这个功能目前没法自己上传视频,只能基于模板,功能引导很好,让你明确哪个动作对应哪个角色。
马斯克亲自发出自己和川普的 AI 舞蹈视频,我们也可以用 Viggle 让《火影忍者》相爱相杀的鸣人和佐助耍一段同款舞蹈。
就是生成的结果有些让人无语——人物不仅有莫名其妙的果冻质感,和背景还不是一个图层。
如果说 Mix 和 Multi 功能适合做鬼畜的短视频,Move 功能则很适合拿来魔改表情包,这时候可以上传一些半身照,把魔改的重点集中在脸上。
我上传了「外国女人」表情包,然后再上传了《美国精神病人》的视频片段,看能不能模仿克里斯蒂安·贝尔的精髓。
「外国女人」复制了演员的表情,露出尴尬但不失礼貌的微笑,明明是和华尔街雅痞相同的神情,却多了一丝沙雕的气质。
简而言之,Viggle 很好玩,也很简单,可惜效果不够好,动作能模仿,表情也可以照搬,但人和背景经常格格不入。
另外,找到合适的全身照也挺难的,如果不得不以半身照代替,下半身由 AI 补足,看起来可能有些「半身不遂」,别问我怎么知道的。
这其实是马斯克
但 Viggle 有 iOS 和 Android的 app,有网页版(https://viggle.ai/create),也能在 Discord 用,每天能免费生成几次视频,那么忍耐度高一点也不是不可以。
Viggle 自己也很清楚产品的粗糙,Viggle 联合创始人 Hang Chu,将现在的 Viggle 视为「prototype」(原型),先让大家用起来,产品能用,有用,边用边迭代,不是坏事。
退一万步说,这种钱没给够的粗制滥造风格在短视频也别有一番风味,就像之前 B 站很火的学了三年动画系列。
官方自己也带头整活,《电锯人》的电次、帕瓦、玛奇玛跳洗脑神曲《乐意效劳》,人物有明显的绿边,但多看几遍就上头。
让表情包动起来更是有极大的创作空间,但也想吐槽,欧美互联网对于表情包的运用还是太初级了。
Viggle 出圈,靠的是自来水用户的力量。
今年 4 月,Viggle 的一个视频意外地火了——说唱歌手 Lil Yachty 被换成了小丑,没有一点违和感,走姿、踢脚、转身,都像是小丑本丑会做出的动作。
虽然连 Viggle 自己也始料未及,但事实已经证明,整活的内容,最容易在 TikTok 等短视频平台火起来。
Viggle 在 TikTok 小火,目前 #viggleai 包含 3.5 万个视频,#viggle 包含 4.6 万个视频。
光是这条猫猫跳舞的视频,就拿到了 120 万赞,虽然有点恐怖谷,但也有网友欲罢不能,表示根本看得停不下来。
只在社交产品 Discord,Viggle 已经积累了超过 430 万用户。
之前很多成功的 AI 产品都是从 Discord 起步,构建社区,测试功能,积累用户,然后才有自己的独立网站,比如 Suno 和 Midjourney。
Viggle 能火起来,主要有两个原因,一个是简单易用,一个是有意思。Viggle 联合创始人 Hang Chu 也在 a16z 的采访中强调了前者。
用户可以轻松完成好玩的创作,是以严肃的技术为支撑的。Hang Chu 告诉 a16z:
We are pretty serious about being silly. (我们非常认真地对待搞笑。)
Viggle 的技术路线,和其他视频生成 AI 不太一样,它是一种「可控视频生成」的工具。
「可控性」,可以说是很多 AI 生成工具的死穴了。
Viggle 训练了 3D 视频基础模型「JST-1」,它理解物理规律,可以创建更逼真的角色动作和表情,让用户指定某个角色做出什么动作。
虽然 Viggle 的角色会出这样那样的 bug,但它很优秀的一点是,即使我们上传的图片只是正面视角,模型也会尽力生成完整的 360 度人体视图。
相比之下,很多文生视频 AI 基于像素,可控性差,常常会生成不符合物理的、不切实际的角色动作。
但两条路线也各有所长。基于像素的扩散模型,好处是可以用任何视频训练,并生成任何内容,如果训练规模达到一定程度,可控性可能会逐渐显现出来。而 Viggle 走的路,是先尝试解决可控性,让工具像图形引擎一样精确可控,再在这个基础上扩展。
目前 Viggle 只能创建角色,但未来,Viggle 计划推出更多功能,包括生成物体、角色和物体的交互,甚至整个场景。
AI 图片生成工具曾经一枝独秀,但这一年来,用 AI 搞创作的形式越来越丰富了。图片、音乐、视频,AI 都能整活。
和 Viggle 有些类似的,是阿里通义千问 app 的「全民舞王」。
今年年初就因为「科目三」火了一把,不过自由度比 Viggle 差了些,主要是基于模板。反过来说,这样也让玩耍的门槛更低了。
现在通义千问还有「全民唱演」,可以换头表情包、演唱热歌等等。
从 Viggle 到通义千问,AI 带来了全新的内容消费形式——让普通用户参与到创作中,可以基于自己喜欢的角色和视频大开脑洞。
甚至,不必站在前人的肩膀上,自己上传自己的视频和图片也未尝不可。
Viggle 主流的创作形式是基于既定作品的二创,但其实我们也能自由发挥。目前,Viggle 有以下几种玩法。
最简单也最常用的是 mix,但在 Discord 我们可以用到 animate 功能,上传人物图片,动作只需通过文字提示词指定,不用再上传视频了。
我上传了一张《最终幻想》萨菲罗斯的图片,输入文字提示词:ballet, leap into the air and twirl(芭蕾舞,跳跃并旋转),背景选择绿幕。
旋转跳跃我闭着眼......
可以看到,这个功能发挥脑洞的空间很大,不必拘泥于视频素材。
比较可惜的是,同样很自由的 ideate 和 stylize 功能,在网页版和 Discord 都没有上线,还是「coming soon」的状态。
内容创作者和普通用户用 Viggle 整活,专业的动画工程师、游戏设计师们也可以在构思和预制作阶段让它派上用场。
Viggle 是一类 AI 创作产品的代表——当 AI 更可控、更好玩、更个性化,我们可以让自己和喜欢的角色参与到某个场景中,演绎出很多种模样,延伸出很多可能。
我们可以因为喜欢某个场景,某个片段,然后把自己置身其中,重现它,再造它。
当某个时刻更和我们自己有关,那就是我们每个人的「瞬息全宇宙」 。
文章来源于“爱范儿”
【开源免费】kimi-free-api是一个提供长文本大模型逆向API的开渔免费技术。它支持高速流式输出、智能体对话、联网搜索、长文档解读、图像OCR、多轮对话,零配置部署,多路token支持,自动清理会话痕迹等原大模型支持的相关功能。
项目地址:https://github.com/LLM-Red-Team/kimi-free-api?tab=readme-ov-file
【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。
项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md
在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0