一场“没有硝烟的战斗”
今年2月Sora问世后,放出了几段文生视频的片段,给全世界不小的震撼,仅需要一些提示词描述或者静态图片,Sora就能生成超高画质、堪比电影质感长达1分钟的视频内容。马斯克更是直截了当地说:“GG human(人类认输)。”
这直接让国内AI视频生成模型企业揭竿而起,掀起一场“没有硝烟的战斗”。
时隔一个月,国内的AI微短剧便如雨后春笋接连而至,《中国神话》、《三星堆:未来启示录》、《山海奇镜之劈波斩浪》、《美猴王》、《AI看典籍》等。让观众感受到中国企业不输Sora的视频生成模型。
谁也不打算放弃这次机会,因为这场竞赛不仅代表着企业科技软实力水平,更是一次率先插旗的机会。据《生成式AI商业落地白皮书》显示,当前有53%的中国企业已开始有组织地进行生成式AI布局。大家都希望能技术入局分一杯羹,但真正实现商业转化却没那么容易。
5月开始国内企业相继公布自研的视频生成模型,智谱AI的「清影」,爱诗科技发布「PixVerse V2」,生数科技上线「Vidu」,快手的「可灵 」,抖音的「即梦AI」,「美图奇想」大模型、猫眼娱乐「神笔马良」……一时间,视频生成模型领域好不热闹!
其实从是2023年大模型浪潮来袭,国内就有一批”先行者“企业率先入局视频生成模型,智象未来、出门问问、商汤科技能,当时仍在探索阶段,还有很多问题需要解决。虽然能做到文字生视频,但只能完成简单指令、画质不清晰、视觉效果不真实、内容不连贯,无法精准控制输出,大家还在不断训练升级中。
直到3月国内首部AI全流程微短剧《中国神话》在央视频上线播出后,大家看到国内的技术完全不输Sora,模型生成的分辨率、帧率和时长等水平不断提升。随后快手可灵推出《山海奇镜之劈波斩浪》、抖音即梦打造《三星堆:未来启示录》,展示着国内技术已经足够创作完整影视作品的能力。
图片:《三星堆:未来启示录》截图
如今轻体量的短剧,也成为视频生成模型企业推出作品的首选方式,主要是看重,短剧的每集1-3分钟时长、画面没有过高要求、视频平台上线门槛低、故事性要求不强的性质,这样一来,视频生成模型就能发挥更强的执行力,对视频作品有较高的完成度,最终创作的AI微短剧也更符合年轻化观众的审美兴趣。
更重要的是,经过不断地更迭调整,相比初代的视频生成模型技术,现在已经能够在画面中呈现出复杂的物理规律效果,各家平台也具备各自的优势。
5月上线的「即梦」是最为大众所知的剪映旗下产品,由「剪映Dreamina」改名而来,同时上线了AI作图和AI视频生成功能让一波科技爱好者争相体验。其中图片生成视频的全新的视频创作方式让测试者眼前一亮,直接颠覆此前视频创作的形式。
而字节跳动其实从2023年开始布局AI,并在年底11月成立了专注于 AI 创新业务的新部门Flow。可以说是国内市场上在视频生成模型方面最有经验的公司,其先后推出Boximator、即梦AI的经验积累和技术迭代下,9月24日在火山引擎AI创新巡展上,字节跳动正式宣告进军AI视频生成领域,一举发布了豆包视频生成-PixelDance、豆包视频生成-Seaweed两款大模型。相当于手握4大视频生成模型产品,新推出的模型的语义理解能力大大提升,已经能够做到多个主体运动的复杂交互画面,并且保证多镜头切换的内容一致性,这在世界范围来说,都是很难做到的。
6月紧随其后的快手「可灵」其技术路线与Sora相似,效果也是直接对标Sora。这也就意味着技术水平之高,经过4个月的测试升级,最新版的能够比较好地呈现出运动画面,还新增了“对口型”功能,能够让视频里的人物唱歌说话时,口型运动更自然。
除了高水平的模型技术,快手则更注重模型技术在视频作品方面的应用,9月9日快手启动“可灵AI”导演共创计划。宣布与李少红、贾樟柯、叶锦添、薛晓路、俞白眉、董润年、张吃鱼、王子川、王卯卯等 9 位知名导演,以可灵AI为创作工具,生成制作 9 部 AIGC 电影短片。
能看出快手不是在闷头研发模型技术,更注重视频生成大模型的实用性和观众的体验感。毕竟无论模型发展多高水平,它都是“工具”,是辅助影视创作、提高创作效率、创新营销素材和形式的工具。
最近猫眼娱乐推出的「神笔马良」则让行业更大为震撼,作为首个面向长剧本的AI生成工具,用户可以上传剧本,一键智能分析、智能角色创作、智能分镜创作、智能台词朗读,实现剧本内容的视听化呈现“让剧本一键成片”。
也就是说,影视创作最繁琐的剧本环节可能“一键解决”了,更重要的是为高质感、强内容、中逻辑的长剧服务,相当于在一定程度上拉高了影视创作的天花板。
据QuestMobile发布的数据,2024年第一季度,生成式AI(AIGC)成为移动互联网行业增速最快、收益最大的行业;今年6月,AIGC类APP的月活跃用户规模达6170万,同比增长653.3%。另有头豹研究院数据显示,预计到2026年,中国AI视频生成行业的市场规模将达到92.79亿元。
视频生成大模型领域似乎一夜爆火,利好消息满天飞。
外部风险和国内市场的快速发展,吸引国内大厂和科技创业公司依据自身优势,在AIGC技术上持续发力,推出了更具开放性、实用性的本土化视频生成大模型。
据相关机构及媒体的不完全统计,当前国内的大模型数量超300个,其中仅有140个左右完成了生成式人工智能服务备案。今年1-7月,仅35家大模型产业相关企业拿到了亿元级的融资,大部分企业仍然处在融资早期,甚至尚未过审。
AI视频的未来听起来很美好,但这个领域目前并没有出现一个出圈的爆款应用。无论是AI视频产品还是由AI生成的视频作品,都像是少数影视专业人士的玩具,局限在小圈子范围内,始终未能像ChatGPT一样在大众层面获得认可。
据生数科技CEO唐家渝表示,在技术路线上,AI视频行业目前处于底层架构收敛的状态,可以理解为同质化,但并不意味着大家进展都一样。例如现在的大语言模型都会使用 Transformer架构,但OpenAI是明显领先的。
不过,虽然底层架构统一,但各个公司会有一些差异性。例如,如何有效压缩视频,如何在保证质量的情况下快速生成视频,会涉及非常多算法技巧、算法难点,这是导致差异性的主要原因。
目前的视频生成模型最大的局限性在于可控性不足。比如生成一段画面,画面里的人物或者对象容易崩坏,生成的结果也有很大的随机性,需要不断地尝试,这背后的本质是目前视频生成技术的稳定性还不够。
从实际落地的层面上看,无论是广告、短剧,对画面连续性、一致性的要求是很高的。即便是C端用户单纯去玩,也希望能一次性就生成他们想要的画面,这都对视频生成模型的稳定性提出要求。
据悉,国内主要的视频生成大模型产品已经能够达到1080p甚至4K的高清分辨率,单个镜头的视频时长在2-15秒左右,符合影视化的镜头时长需求,但分钟级的长镜头在实现上还存在难度。提示词方面,目前,图生视频、文生视频、视频生视频均处在迭代阶段,视频生成趋势正在由检索生成、局部生成、走向依靠自然语言提示词的全量生成,创作门槛更低、生成内容更加灵活丰富。
尽管产品并不完美,但无论是企业还是资本市场对视频生成大模型的未来发展都抱有较高的期待。启明创投主管合伙人周志峰在2024世界人工智能大会上将“3年内AI视频生成技术将全面爆发”作为2024生成式AI的十大展望之一。"
互联网大厂目前已经成为行业引领者,字节、快手高度重视视频生成项目。字节将剪映定位为P0 级项目,由原CEO 张楠带队;快手则将“可灵”定位于战略级项目,由技术大牛万鹏飞带队,集全公司数据、算力和资金资源。
而之所以视频生成能够成为下一个有明确落地应用场景的行业,核心在于“视频”已经成为互联网时代下,C端用户的最大内容消费形式。据量子位研究,在移动互联网的用户使用时长占比中,短视频占比达28%,移动视频行业用户规模达10.76亿,月人均时长超64小时。
视频生成大模型的用户分类分为B端和C端两类,其中B端主要来自与视频内容相关的领域,比如广告、游戏、短剧和影视等。C端用户一般是独立编剧、视频博主等,作为内容生产工具,视频大模型可以极大程度的丰富各社交平台、视频平台的内容创作。
对B端从业者的渗透,则是视频生成大模型从“玩具”向“生产力工具”升级的关键,更重要的是,无论C端用户还是B端用户,人数规模的增长将会带动大模型平台的数据飞轮运转,进一步推动大模型的技术升级和理解能力。
而AI商业模式也主要有两种。一种是SaaS(软件即服务)订阅模式,用户打开软件可以直接体验到产品功能。一般这类软件都会提供免费试用次数,如果用户有更多的需求或想使用更高级的能力,就需要支付订阅费用。
另一种是API(应用程序编程接口)形式,将模型能力输出形式提供给用户,即MaaS(模型即服务)。例如很多编剧公司、自媒体公司都需要具备文生视频的能力,丰富产品形态,增加竞争力。
目前AI视频生成大模型在影视、广告、电商、自媒体等领域已经有了广泛的应用,甚至取代一部分特效、动画、广告短片、商品动态展示等创作场景。
智谱AI CEO张鹏在接受媒体采访时表示:“现在(视频生成大模型)的商业化仍处于非常早期的阶段,而且成本实际上也非常高,后面会根据市场的反馈做逐步迭代。”
AI视频不会一直都是小众产品。就像拍照一样,一开始只是摄影爱好者或摄影师群体使用,但如今,拍视频、拍照已经成为每个人的习惯。相信未来,视频创作者和消费者界限将逐渐模糊,借助AIGC工具,会有越来越多消费者变成创作者,视频创作的效果和ROI大幅度提升。
文章来自于微信公众号“TopMarketing”,作者“剧风仔”