AI 视频生成有多卷?
当前的 AI 赛道,AI 生文、生图应用层出不穷,而AI生成视频领域仍处于相对早期发展阶段,尽管有一些初步尝试和突破,但难以与其他AI生成内容相媲美,它们仍然存在许多问题,抖动、闪现,以及频繁出现的画面跳变,这种“鬼畜”现象很难保证稳定的生成效果。
然而最近 Pika 的火热,重新带动了人们对 AI 视频生成的关注,甚至带动创始人父亲的上市公司接连涨停。
科技媒体们争相报道,都把 Pika 视作“AI 视频鼻祖”Runway 强有力的竞争者。Runway 是市场公认更为成熟的 AI 视频生成工具,去年热门影片《瞬息全宇宙》在制作中就用到了后者的技术。
一众看好伴随而来的是炒作质疑,有人担心 Pika 1.0 存在过度宣传或夸大技术能力,导致公众对 AI 视频产生不切实际的期望。显然,Pika 官方注意到了这些不同的声音,在上周紧急放出一波用户的内测视频,效果跟宣发同样惊艳,击碎外界的指责,口碑瞬间反转。
事实上,AI 文生视频领域的竞争最近正变得日益活跃,背后参与者不仅包括高校和科研团队,还涵盖了多家科技巨头和风头正劲的AI初创公司。
在海外,Runway、Pika Labs、Meta(Emu Video)、李飞飞团队的 AI 文生视频战争正打得火热,比拼谁生成的效果更稳定、更惊艳;在国内,字节、美图秀秀等互联网企业也在暗暗较劲,纷纷布局 AI 文生视频工具成果。
那么,Pika 的发布,是否意味着最强 AI 文生视频工具即将易主?AI 视频为何突然爆发,竞争力在哪里,给圈内带来哪些启发?之前被制约发展的关键因素有哪些,又是如何破局的?是否标志着这一领域的杀手级应用已经诞生,“GPT 时刻”已经到来?未来又会朝着什么方向演进?
干掉 Runway?
为何成立刚过半年的 Pika,突然这么被追捧?
短短 7 个月,Pika 已累计完成 3 轮、成功拿到 5500 万美元的融资,估值已超 2.5 亿美元。投资人中不乏 OpenAI 科学家、“政变”之后仅存的董事会成员,难道其真的掌握了“科技与狠活”?
今年 4 月份,创始人郭文景才和同学从斯坦福博士辍学创办 Pika,他们希望打造更容易使用的 AI 视频生成器,让每个人都能成为自己故事的导演。
此前产品的效果跟 Runway 比不了,只是在搞视频的圈子里小有名气。要不是凭借免费模式圈了一波忠诚用户,不会有这么多人使用它。目前社区用户达到 50 万,每周制作数百万个视频,其中 Discord 服务器人数超过 16 万。为此,Pika 已经租用了数百个量级的 GPU。
从 11 月 29 日开始,关于 Pika 的创业报道突然铺天盖地。官方宣布推出其首款视频生成产品——Pika 1.0,极大地降低了使用门槛,官方甚至宣称只需要简单地打字就可以开始使用,即“Start just by typing(只要打字就能开始)”,其对语义理解的准确度和画面的精细效果超出业界预期。
据悉 Pika 计划在明年实现商用,可以帮助用户生成可用性较高的素材和视频片段,预计视频时长将比目前长几倍,但仍然会控制在 1 分钟以内。
就在许多人猜测 Pika 获得融资后,为扩大影响力而主动对外进行宣传之际,拿到评测资格的创作者透露,Pika 1.0 支持 3 种方式生成视频:文生视频、图生视频、视频转视频,感觉完全重新做了一个模型,最擅长 2D、3D 动画。
除了视频转视频以外,文生图、文生视频、图生视频等效果都非常强。他通过文字下指令,只花了 1 分钟就生成一个完全匹配上皮克斯水平的动画,神情、稳定性爆杀市面上所有的 AI 视频。
看来,Runway 的劲敌真的来了。
然而,郭文景在福布斯专访中却表现得很谦虚,她并不打算与这个领域的强大竞争对手(比如 Adobe、Runaway)为敌。“我们跟他们不同,不是要为电影制作打造产品。”“我们试图为日常消费者做更多的事情 —— 像我和 Meng 这样的人,他们本质上是创作者但又不那么专业。”
与 Runway 同时服务 C 端消费者和企业的做法不同,Pika 希望专注于为C端普通消费者打造产品,以此做出差异化,拉开与其他竞品的距离。
目前 Runway 可免费试用、定价 12 美元/月,而 Pika 为免费产品,不过后续也会考虑订阅收费模式。
随着短视频、社交媒体营销中的视频内容以及创作者经济的崛起,越来越多的新兴剪辑产品开始出现并且展现出势能。
目前,视频编辑的需求会更强于生成。像字节跳动的 CapCut (剪映)在海外市场同样受到欢迎,已突破亿级用户。
AI 在后期制作和剪辑环节中的高效率已经表现得非常显著,使得视频创作在这个环节发生了明显的变化。普通用户不需要再下载传统剪辑软件、花时间学习课程,就可以通过浏览器或移动端 App 使用轻量化 AI 剪辑功能。
从风险投资公司 a16z 此前的统计,也能得出这样的结论,即视频编辑功能在这类应用中仍占据了相当重要的地位。
a16z 统计的六个视频 AIGC 应用中,只有两个应用是专注于视频生成的,分别是 Runway 和 Kaiber。而剩下的应用则都包含了一定的视频编辑功能,这些功能包括但不限于利用现有素材进行再创作(如 D-ID 和 Fliki),以及进行视频剪辑(如 Kapwing 和 Veed)。
不过,随着拍摄成本的不断上升,使用生成的内容作为替代方案变得越来越有吸引力,也就是说视频生产环节也在发生变化。
据公众号“海外独角兽”总结,推动这一趋势的产品主要分为两类:1)HeyGen、Sythesia 等数字人产品(有固定模版,只改变局部画面);2)Runway、Pika Labs 等视频生成产品(依照文字、图片等生成全新视频)。
AI 生成视频领域在最近呈现出前所未有的活跃态势,各种模型纷纷扎堆进行更新。尤其上个月开始,AI 文生视频竞争变得非常激烈,是一个巨大飞跃。
可以说,AI 技术的发展和应用正在推动视频创作的各个环节发生变革,为创作者带来更多的可能性。过去,AI视频应用主要局限于企业(B端)市场和专业创作者,这在一定程度上限制了其在商业领域的广泛发展和应用。
Pika类应用的爆发,意味着传统内容创作者可以利用 AI 工具提高工作效率,同时非专业人士也有了更多的机会尝试内容创作,进一步打开C端市场,扩大了AI 视频的商业化空间。
据中信建投总结,“AI+视频”不仅是一种 AI 应用,更是 LLM 后 AI 新基建能力:1)To C,降低 UGC 门槛,有望出现“AI 时代的抖音”或视频版妙鸭产品。2)To B,在电商、教育等场景降本增效;长期在影视、游戏制作空间大。
得益于过去大模型技术的持续改进,文本生成、图像生成、语言翻译和音频生成等已经被广泛应用于多个领域,这些已经逐渐进入了成熟期。比如前段时间有几个 AI 配音的生成音频就刷爆了网络,赵本山说英文、霉霉讲中文。背后使用到的 AI 生成工具是 AI 数字人 HeyGen。
尤其在图像生成领域比 ChatGPT 等文本生成的大模型成熟期还要早,如 Midjourney、DALL·E 3 和 Stable Diffusion 等模型,它们能够根据文本描述生成高质量的图像。
相对而言,视频生成普及程度并不高。在视频生成方面,尽管有一些模型如 DALL·E 3 和 Midjourney 提供了动画制作的工具,但整体上文生视频的技术发展相比于图像生成要慢一些。
反过来看,这也意味着 AI 视频仍处于爆发前夕,充满了巨大的潜力和机会。在大模型技术的加持下,视频生成的成熟度和用户规模也开始追赶上来了。视频生成能在短时间内追上来,说明技术的门槛在降低。
要知道,成立短短半年多的 Pika 一夜爆红,已拿到 3 轮融资;而鼻祖 Runway 早在 2015 年就是一家 AI 初创公司了,其融资也才到 D 轮,估值达 15 亿美元。
那么,AI 视频的“iPhone 时刻”或者杀手级应用到来了么?
Pika 很自信,认为“GPT 时刻”很快就会到来,明年就能看到了。
“我希望明年就可以实现。给用户的感受就像 ChatGPT、Midjourney v5 那样,有一个显著提升。”Pika 创始人郭文景接受采访时表示。
实事求是地说,目前的 AI 文生视频赛道的难度仍很大,尤其难以解决画面变得稳定的抖动问题。
这跟早期的手绘动画很相似,都是先绘制很多帧静止的图像,之后将这些图像连接起来,并通过一帧帧图像的渐变,实现画面的运动。由于目前的 AI 文生视频技术,还无法准确地确定关键帧,这导致了画面抖动和不稳定的生成效果。
再加上当前人们依然会为 Adobe 等传统软件支付费用,但视频生成类的用户付费比例还很低,盈利模式的可持续性受到挑战。
显然,我们也要清楚大模型的边界在哪儿。不要高估大模型的能力,它有很多事情还做不了。当下,生成式 AI 视频工具将大批量产生短剧系列,但困于技术短板,时长、清晰度、流畅度还都很有限,对于长视频的影视剧影响还较小。
如爱奇艺创始人、CEO 龚宇最近谈及 AIGC 对内容行业的挑战:明显开始对我们这个行业产生了影响,虽然在工作流程中只参与其中一两个环节,它创意的作品套路、商业价值很低,现在的水平和我们这个产业的要求相距甚远,但是未来 3-5 年很可能发展成为主流工作方式。
因此,虽然 Pika 的出现让人们对 AI 文生视频充满了期待,但是 AI 文生视频技术距离人们期望中的理想效果,还有很长的路要走。
由此可见,眼下 AI 视频的 iPhone 时刻、GPT 时刻,或者说 All- in-one 杀手级应用尚未到来。
Pika 文生视频 AI 应用的出现,给 AI 生成式视频添了一把旺火,再次燃起了人们对 AI 文生视频赛道的关注。这背后源于 GPT-4V 等多模态大模型的推出,基于扩散模型的 Dalle-3、Midjourney 和 Stable Diffusion 等技术的功能不断增强,势必对影视、娱乐和广告营销创意等行业产生了巨大的影响,甚至可以说是颠覆。
那么,这距离人们期望中的AI 视频理想效果还有多远呢?
无论是企业级还是消费级,AI 视频的前景都面临着巨大不确定性。同时还存在不少现实挑战,如版权问题、原创性保护以及如何确保 AI 生成内容的质量和合规性等。尤其是投资者更关心 AI 能否带来实际的经济效益,运行高级 AI 模型的 AI 算力成本可能是一个障碍,这些模型需要大量的计算资源,用户量不断增长,算力成本也会相应地增加。
总之,视频 AI 的崛起确实标志着人工智能竞争进入了下一阶段。在这个阶段,各大公司和研究机构都在积极布局视频 AI,以争夺在这一领域的竞争优势。随着技术的不断发展,我们可以期待在未来看到更多创新性的产品和应用。
我们期望那一天的到来,即未来Transformer或其他某种算法能够精准地预测下一帧内容,那么我们将迎来全新的视频模型,这样的技术突破有可能催生出下一个炙手可热的内容平台。
文章来自于微信公众号 “飞哥说AI”(ID:FeigeandAI),作者 “元帅”
【开源免费】n8n是一个可以自定义工作流的AI项目,它提供了200个工作节点来帮助用户实现工作流的编排。
项目地址:https://github.com/n8n-io/n8n
在线使用:https://n8n.io/(付费)
【开源免费】DB-GPT是一个AI原生数据应用开发框架,它提供开发多模型管理(SMMF)、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL(智能体工作流编排)等多种技术能力,让围绕数据库构建大模型应用更简单、更方便。
项目地址:https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file
【开源免费】VectorVein是一个不需要任何编程基础,任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤,并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。
项目地址:https://github.com/AndersonBY/vector-vein?tab=readme-ov-file
在线使用:https://vectorvein.ai/(付费)
【开源免费】Fay开源数字人框架是一个AI数字人项目,该项目可以帮你实现“线上线下的数字人销售员”,
“一个人机交互的数字人助理”或者是一个一个可以自主决策、主动联系管理员的智能体数字人。
项目地址:https://github.com/xszyou/Fay
【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。
项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md
在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0
【开源免费】VideoChat是一个开源数字人实时对话,该项目支持支持语音输入和实时对话,数字人形象可自定义等功能,首次对话延迟低至3s。
项目地址:https://github.com/Henry-23/VideoChat
在线体验:https://www.modelscope.cn/studios/AI-ModelScope/video_chat
【开源免费】Streamer-Sales 销冠是一个AI直播卖货大模型。该模型具备AI生成直播文案,生成数字人形象进行直播,并通过RAG技术对现有数据进行寻找后实时回答用户问题等AI直播卖货的所有功能。
项目地址:https://github.com/PeterH0323/Streamer-Sales