现在打开视频网站,诸葛亮大碗喝酒、安陵容硬气吃大龙虾的鬼畜视频,已经布满屏幕。这些视频的幕后推手,有不少是来自快手于今年6月推出的、有中国版Sora之称的“可灵”。它以支持一键生成2分钟视频为技术特点,且适合中文世界操作。
有人用它大做鬼畜视频、纯娱乐,但也有脑袋瓜灵活的年轻人将其视为“赛博财神爷”,并成功靠它搞到了六位数的收入。这种现象带来的启发是:一种基于新知识应用而形成的“AI经济差距”正在无形之中扩大。
主攻AI赛道的西羊石团队于今年4月成立于深圳,团名来自于3位创始小伙子每个人名字中的一个字。
西羊石团队摸索出的AI生意经,一句话概括,就是非传统内容行业出身的他们,用AI生成视频,服务G端、B端、C端三类客户。这当中,把AI生视频当做核心卖点的可灵,是他们依靠的重要的技术工具之一。
先来看看这三位年轻人,都不是大佬,而是少资源、无啥背景的小白。
创始人之一的西堂,主业是大厂员工,研究生毕业后,有三四年工作经验,会在晚上或者周末利用自己的社会人脉兼职拉商务,并思考团队战略和调整方向。
羊羊本科学校是TopC9,研究生学校是211,25岁的他今年刚毕业就走上了AI创业赛道,并在没有工作经验的情况下全职创业。
小石年纪最小,是00后,他主业做程序员,兼职为创业提供深度技术支持,现在他刚刚向主业公司提出了离职,并计划在10月底全职创业。
图|西羊石团队
他们三个最开始是在一个AI付费社群认识的,在做项目的过程中不断加深合作关系,觉得三观一致,就一拍即合成立了“西羊石”AI视频团队。
刚开始三个人根本不懂商业世界,只知道一味学技术,结果三个人都在学一样的技术,团队1+1+1=1,团队的力量并没有得到放大,很多时候是面临着箭在弦上、但没有下一步的商业动作去承接流量,导致做了很多事情没有达到理想的效果。
发现这个问题后,他们开始进一步磨合,通过盖洛普和其他一些工具及合作过程中来分析个人的优势,并且也找到了指导老师。更重要的是,他们也在不断思考商业模式,靠什么去获得第一桶金,并能持续做大事业。
后来探索出来的起步公式是“IP+AI”。
IP就是打造个人在AI行业里的辨识度,把自己经历的、所学的累积成的AI创作经验,汇集成付费课程服务C端青年,答疑解惑,帮助更多人。AI就是靠它来服务B端(企业端)和G端(政府端)客户。希望以此为杠杆,撬动市场。
一开始,西羊石团队是在自己的视频号上,靠发布用可灵制作的文旅广告片、儿童寓言故事等来吸粉,几个月成功过万。当作品有了一定用户扩大效应后,政府、企业的中间人就率先自动找上门来洽谈合作。
第一个找上门的单子是法院反校园霸凌教育宣传片,对方提出的要求就是以“反暴力”为主题做一个视频。最后成品不超过3分钟,收入5位数。
当西羊石团队交付成品时,对方发现AI 生成的视频,成片效果甚至在精细度方面比传统的mg动画等要精良不少,但成本更低,给出了 “对画面、剪辑、音乐都非常认可”的评价。
这之后,他们又接到了九寨沟、黄山等景区的文旅宣传片合作,这些AI视频基本上时长也都在三分钟左右,每分钟1-3万元不等,价钱视企业需求而定。
图 | 西羊石做的文旅宣传片
政府、企业愿意接受AI视频,背后是一本经济账。
羊羊了解到,以前要做类似的文旅宣传片或者企业宣传片,需要摄影师扛着十几万的设备前往当地实景拍摄,知名导演、编剧的价钱可能在一分钟10万——30万不等,而且还不包含导演、摄像、后期的差旅费。
但现在,一些政府项目的预算只有几万元,采用AI来做刚好就能省去不少人力、物力和时间,成本自然降了下来,关键是成片效果也没有太大差别。
可以说,西羊石团队抓住了降本增效大时代下的业务机会——内容在制作成本上由传统费成本的制作方式、向减成本、减时间的AI方向的平替。
虽说为政府和企业做的类型不同,但方法是相同的。羊羊大方介绍了他的核心技术模式——“GPT/Kimi -> MJ/SD/comfyui -> runway gen3/可灵/luma -> suno -> 睿声/elevenlabs/dubbingx -> 剪映/pr”。
概括说来,首先通过ChatGPT或者Kimi写剧本、拆出分镜、细化故事,之后通过MJ、comfyui 画图,接下来会用可灵、runway生成视频,之后再用suno添加背景音乐,睿声用来处理旁白,最后用剪映、PR处理前面生成的素材,剪辑成正片。
看似很顺,但当中有很多看不见的门槛,普通人如不掌握,也容易用不好这些软件。
比如在用ChatGPT或者Kimi写剧本时,需要使用者很擅长列“提示词”,列不好,则出不来预期效果。西羊石团队也是经历了很多训练和磨合,才逐渐练就了熟练使用提示词的技能。
又比如在用MJ、comfyui画图时,这个过程可能会出现风格不一样,人物一致性有差别的问题,但这几个年轻人也是找到了自己的一套方法论。
可以看到,这个技术模式最大化利用了目前市场上各类大模型产品最突出的优点,来进行相互配合。
可灵在这一众产品中的优势,被认为是在“图生视频”方面更能理解中文语境,对中文提示词更为支持,服饰和动作更容易生成,还能支持各种尺寸。
与之相比,gen3则只支持16:9横屏和9:16竖屏,runway的稳定性更强,基本不会出现模糊、变形情况。不过,对中文语境的理解不如可灵,而luma生成速度过慢,使用人数过多的时候,可能早上下的指令,晚上才能生成。
除了to G和to B的生意外,西羊石团队还一直有意识地打造个人IP,针对C端搞起了“知识付费”,也就是把自己积累的AI操作经验汇集成不同价位的课程,用来变现,带领学员获得一些AI视频比赛名次。
课程产品主要由羊羊负责录制,他们目前推出了价值10元某AI视频专栏,以及价值几百元的AI视频陪伴群和价值几千元的AI视频私教,并称后续也会上线千元以内的AI视频相关课程产品。此外,他们的公众号也能接到千元的AI工具相关广告。
目前,西羊石团队运营了5000多人的知识付费社群。据羊羊的观察,进群的人有大学生、失业中年等,“大家都对AI特别感兴趣,可能觉得这是先进的生产力。”
此外,羊羊还会接一对一的付费咨询,每小时1000多元。他会以行业专家的身份来接受技术方面的深度咨询。
虽说这三个年轻人有的是兼职,但他们说,其实并非玩票,“真的有花大量的心思和精力在AI技术的研究与应用场景的探索上”。也有别的公司高薪来挖羊羊,但最终羊羊婉拒。因为他觉得AI是未来的方向,自己干更有前途。
在外人看来似乎有点“草台班子”,但他们仨已经靠AI在半年时间里赚到了6位数,约摸30万。这当中,最赚钱的业务是广告片和电商AI视频,每个月都有稳定的商单。
在羊羊看来,使用可灵等这些大模型,能达到多方共赢,即——B端省钱提效、C端几乎看不出AI与非AI作品的差别、制作方即便是少人数团队,也能较快起步。
不过,创业的过程永远不可能一帆风顺,更何况西羊石团队成员的工作经验尚且不足,难免也有错失的商单。
小石就记得,之前有一个导演本来打算与西羊石合作,但考虑到团队不够成熟,成员也仅有3人,最终,导演选择了传统影视团队。这背后反映的是,市场对AI团队与作品,还未到全盘信任与接受的程度。
从AI赛道中搞到钱的年轻人还有很多。从实质来看,大家的路径都是把AI当做一种创作工具,来生成一种偏内容创作的产品,实现价值交易。只是这么多用AI来创作的内容,不是每一项在市场都受欢迎,这也影响着大家搞钱的多少。
95后研究生菜鸟,也是靠可灵搞到钱的一位,但搞钱力道就弱了一些。
他之所以自称菜鸟,并非谦虚,而是认为“大神实在是太多了”。由于所学专业是信息工程,菜鸟对AI动向的变化特别敏锐,可灵在今年6月上线时,菜鸟就成为了第一批吃螃蟹的人。
抱着接受新鲜事物的心理,菜鸟接连尝试了文生视频、图生视频。他让萌娃瞬间就能像模特一样走起T台猫步,也将一些经典电影画面以浪漫的形式再现。但很遗憾,这些视频都没有掀起什么水花。
尝试了多种形式的内容后,菜鸟发现自己最喜欢用可灵生成会动的老照片。掌握生成技巧后,菜鸟接连在抖音、小红书发布了让老照片动起来的作品,没过多久就有一位女孩找到了他。
女孩在抖音给菜鸟发私信,“这是我姥爷,他去世了,我很想他”,为了帮女孩满足愿望,菜鸟用可灵让她看见了动起来的姥爷,并且没有收费,女孩无比感谢。从那以后,菜鸟利用可灵生成的老照片免费帮助了很多人,他坦言:“我觉得这件事情特别有意义,可以真真切切帮助很多人。”
当然让逝去的人动起来,已经不算新鲜,而且如果不经过当事人家属同意,很容易有法律风险。因此,菜鸟会注意,每次都要经过家属授权后才进行创作。
不过与西羊石团队比起来,单打独斗的菜鸟只赚到了零花钱,免费用可灵生成老照片一周后,菜鸟开启了收费模式,每张照片9.9元,目前涨到了19.9元。他无奈地说:“毕竟可灵也在涨价,现在下指令需要抽卡(优化指令的意思),每次六毛,可能做一张照片需要抽十次卡。”
在女友的安利下,菜鸟也发现有人用AI生成头像,8元一张,虽然这个他也能做,可他不打算尝试,“在别人已经蹚出来的路上走,不太容易赚到钱。”
与菜鸟相比,羊羊的观点是:将可灵生成老照片归为“边缘业务”,他们做让老照片动起来的视频会收费49元,羊羊觉得这个定价无关紧要,“我们要去赚富人的零花钱,而不是赚穷人的救命钱。”
图 | 让老照片动起来,已经是比较常见的AI玩法
恰因如此,羊羊做了一段时间后,甚至免费把用可灵生成老照片的步骤写出来,供需要的人尝试。
新人玩家薯条目前还没有直接用可灵搞到钱,但她加入了一个知识星球,在知识星球里,她看见了别人每个月可以赚几万元的方法,但自己每个月却只能通过可灵相关的AI知识付费赚几百元。
谈及可灵生成老照片这项业务,薯条遗憾满满,“我可能比较后知后觉,别人都已经收割完一波韭菜了,我才入局。”
目前,薯条也在运营自己的小红书账号,并发布各类与AI搞钱相关的内容,她的目标是吸引对AI搞钱有兴趣的观众,为自己的副业做转化,但并没有认真经营。
根据薯条的观察,现在很多AI生成的内容都会陷入同质化,平台可能还会限流,如果想完全用AI生产内容是不太可行,“这让我不会全职去做AI方向。”
可灵上线后,短时间内最吸引用户的,是B站、小红书这类社区上突然出现了大量让人眼花缭乱的鬼畜视频。
比如大熊猫坐在沙发上安安静静地弹吉他,世界名画《戴珍珠耳环的的少女》喝完咖啡吃烤鸡,婉约古典美女瞬间能吃成土肥圆……
图 | 视频网站上用可灵做的熊猫弹吉他,来自up主拖鞋肥猫
快手可灵是于今年6月上线的。公开资料显示,此前,可灵研发团队仅有20多人,由早年与快手视觉生成与互动中心负责人万鹏飞一起研究视觉算法的队友组成。
目前,可灵累计服务了超过260万用户,生成了5300万张图片、2700万个视频。9月13日,可灵负责人,快手高级副总裁盖坤透露,“可灵正在内测1.5版本的基础模型,还将引入“运动笔刷”功能。最新上线的“对口型”功能则实现了音频内容与视频人物嘴型的精准同步,增加了视频的逼真感。
目前可灵已经被快手用来做很多尝试,比如制作AIGC短剧。《山海奇境之劈波斩浪》就是可灵的作品。此外,可灵还邀请李少红、贾樟柯、张吃鱼等九位导演,启动了中国首个AIGC导演共创计划。
图 | 《山海奇境之劈波斩浪》画面,评论区:明星要失业
可灵虽然被认为刺激了整个行业的内容生成模式,但在AI领域,可灵并非一枝独秀,国内有即梦、清影、Vidu,最近字节还发布了豆包AI视频模型,国外还有sora、runway、luma等,市场竞争激烈。
当AI生成视频的软件越来越多,用户难免会拿来比较。在羊羊看来,横向对比的话,可灵的帧率比即梦高,生成速度比luma快,升级1.5后,首尾帧的画面也能出来,并新增了运动画版等功能。在国内的软件里,可灵对中文语意的理解更强,稳定性较高。但硬伤在于免费额度比较少,价格有提升,MJ和comfyui则存在编程门槛,这就阻挡了相当一部分用户。
“综合来看,runway大模型的综合实力最强,但硬伤是对中国化题材的支撑力度不够。在创作内容时,我们基本会掺杂着使用。”
小石在使用可灵的过程中,感觉 “可灵内容的真实感需要继续升级”。羊羊则认为可灵更适合做一些大场面的内容,比如航拍山水、特效场景这类,但可灵不适合做人物的神态、表情,这些过于细腻,他直言:“不止是可灵,任何AI工具都做不出来。”
图 | 西羊石认为,可灵适合大场面
至于可灵能否对标Sora,资深玩家们一致认为很难说。从Sora目前发布的视频来看,羊羊觉得可灵视频在时长、稳定性、质量方面仍然与Sora存在进步空间。
关于包括用可灵这样的AI产品能否持续搞钱的问题,大家的意见也不一致。菜鸟觉得挑战还是很大的。
羊羊则认为可灵正处于风口。“可灵当然可以持续赚钱,它是图生视频非常重要的工具,无论是广告片、长视频还是带货视频,只要这些场景能用到可灵,那就一定能赚到钱。归根结底,可灵只是一项工具,我们要找到具体的应用场景赚钱。”
小石也对可灵的未来充满期待,“可灵已经算是国产AI生成视频工具的一股清流,如果它能不断更新迭代的话,是有机会追赶国外大模型的。”
目前,快手对可灵有比较高的期待,CEO程一笑曾经表示,“一定要大做”,快手副总裁盖坤也希望:“快手的大模型矩阵可以深度服务快手的商业生态场景”,大模型团队负责人张迪则认为,“将用大模型技术重塑快手业务,从而提升创作者的内容生成体验和用户的内容消费体验。”
可以预见,整个大模型行业将持续在文生视频、图生视频领域上演接二连三的军备竞赛,谁能最终胜出,竞争才刚刚开始。
文章来源|真故研究室,作者“尹凯”
【开源免费】suno-api是一个使用监听技术实现了调用suno功能,并封装好API的AI音乐项目。
项目地址:https://github.com/gcui-art/suno-api
【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。
项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md
在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0