ChatGPT 人工智能 GPT4 伦理 生成式 医疗 监管 安全 机器学习 深度学习 神经网络 计算机视觉 强化学习 模型 算法 应用 开发 研究 工具 平台 框架 数据集 训练 部署 安全 合规 培训 投资 LLM,llm AI,ai,Ai 大模型 大语言模型 制图 生图 绘图 文生图 文生视频 生成式AI AGI 世界模型 sora chatGPT,chatgpt,ChatGpt claude openai Llama deepseek midjourney 红熊猫模型 Red panda,panda Stable Diffusion,StableDiffusion,stable DALL- E 3 DALL E DALL Flux,flux 扩散模型 混元大模型 文心一言 通义千问 可灵 Pika PixelDance 豆包 月之暗面 零一万物 阶跃星辰 搜索增强 MiniMax Talkie Agent prompt fastai LangChain TTS 微调 提示词 知识库 智能体
# 热门搜索 #
搜索
Pika想干掉Runway,AI视频生成有多卷?‍‍‍‍‍‍‍‍
6508点击    2023-12-15 12:00


AI 视频生成有多卷?‍‍‍‍‍‍‍‍


当前的 AI 赛道,AI 生文、生图应用层出不穷,而AI生成视频领域仍处于相对早期发展阶段,尽管有一些初步尝试和突破,但难以与其他AI生成内容相媲美,它们仍然存在许多问题,抖动、闪现,以及频繁出现的画面跳变,这种“鬼畜”现象很难保证稳定的生成效果。


然而最近 Pika 的火热,重新带动了人们对 AI 视频生成的关注,甚至带动创始人父亲的上市公司接连涨停。


科技媒体们争相报道,都把 Pika 视作“AI 视频鼻祖”Runway 强有力的竞争者。Runway 是市场公认更为成熟的 AI 视频生成工具,去年热门影片《瞬息全宇宙》在制作中就用到了后者的技术。


一众看好伴随而来的是炒作质疑,有人担心 Pika 1.0 存在过度宣传或夸大技术能力,导致公众对 AI 视频产生不切实际的期望。显然,Pika 官方注意到了这些不同的声音,在上周紧急放出一波用户的内测视频,效果跟宣发同样惊艳,击碎外界的指责,口碑瞬间反转。


事实上,AI 文生视频领域的竞争最近正变得日益活跃,背后参与者不仅包括高校和科研团队,还涵盖了多家科技巨头和风头正劲的AI初创公司。


在海外,Runway、Pika Labs、Meta(Emu Video)、李飞飞团队的 AI 文生视频战争正打得火热,比拼谁生成的效果更稳定、更惊艳;在国内,字节、美图秀秀等互联网企业也在暗暗较劲,纷纷布局 AI 文生视频工具成果。


那么,Pika 的发布,是否意味着最强 AI 文生视频工具即将易主?AI 视频为何突然爆发,竞争力在哪里,给圈内带来哪些启发?之前被制约发展的关键因素有哪些,又是如何破局的?是否标志着这一领域的杀手级应用已经诞生,“GPT 时刻”已经到来?未来又会朝着什么方向演进?


干掉 Runway?


为何成立刚过半年的 Pika,突然这么被追捧?


短短 7 个月,Pika 已累计完成 3 轮、成功拿到 5500 万美元的融资,估值已超 2.5 亿美元。投资人中不乏 OpenAI 科学家、“政变”之后仅存的董事会成员,难道其真的掌握了“科技与狠活”?


今年 4 月份,创始人郭文景才和同学从斯坦福博士辍学创办 Pika,他们希望打造更容易使用的 AI 视频生成器,让每个人都能成为自己故事的导演。



此前产品的效果跟 Runway 比不了,只是在搞视频的圈子里小有名气。要不是凭借免费模式圈了一波忠诚用户,不会有这么多人使用它。目前社区用户达到 50 万,每周制作数百万个视频,其中 Discord 服务器人数超过 16 万。为此,Pika 已经租用了数百个量级的 GPU。


从 11 月 29 日开始,关于 Pika 的创业报道突然铺天盖地。官方宣布推出其首款视频生成产品——Pika 1.0,极大地降低了使用门槛,官方甚至宣称只需要简单地打字就可以开始使用,即“Start just by typing(只要打字就能开始)”,其对语义理解的准确度和画面的精细效果超出业界预期。


据悉 Pika 计划在明年实现商用,可以帮助用户生成可用性较高的素材和视频片段,预计视频时长将比目前长几倍,但仍然会控制在 1 分钟以内。


就在许多人猜测 Pika 获得融资后,为扩大影响力而主动对外进行宣传之际,拿到评测资格的创作者透露,Pika 1.0 支持 3 种方式生成视频:文生视频、图生视频、视频转视频,感觉完全重新做了一个模型,最擅长 2D、3D 动画。



除了视频转视频以外,文生图、文生视频、图生视频等效果都非常强。他通过文字下指令,只花了 1 分钟就生成一个完全匹配上皮克斯水平的动画,神情、稳定性爆杀市面上所有的 AI 视频。



看来,Runway 的劲敌真的来了。


然而,郭文景在福布斯专访中却表现得很谦虚,她并不打算与这个领域的强大竞争对手(比如 Adobe、Runaway)为敌。“我们跟他们不同,不是要为电影制作打造产品。”“我们试图为日常消费者做更多的事情 —— 像我和 Meng 这样的人,他们本质上是创作者但又不那么专业。”


与 Runway 同时服务 C 端消费者和企业的做法不同,Pika 希望专注于为C端普通消费者打造产品,以此做出差异化,拉开与其他竞品的距离。


目前 Runway 可免费试用、定价 12 美元/月,而 Pika 为免费产品,不过后续也会考虑订阅收费模式。


实力玩家激战正酣


随着短视频、社交媒体营销中的视频内容以及创作者经济的崛起,越来越多的新兴剪辑产品开始出现并且展现出势能。


目前,视频编辑的需求会更强于生成。像字节跳动的 CapCut (剪映)在海外市场同样受到欢迎,已突破亿级用户。


AI 在后期制作和剪辑环节中的高效率已经表现得非常显著,使得视频创作在这个环节发生了明显的变化。普通用户不需要再下载传统剪辑软件、花时间学习课程,就可以通过浏览器或移动端 App 使用轻量化 AI 剪辑功能。




从风险投资公司 a16z 此前的统计,也能得出这样的结论,即视频编辑功能在这类应用中仍占据了相当重要的地位。


a16z 统计的六个视频 AIGC 应用中,只有两个应用是专注于视频生成的,分别是 Runway 和 Kaiber。而剩下的应用则都包含了一定的视频编辑功能,这些功能包括但不限于利用现有素材进行再创作(如 D-ID 和 Fliki),以及进行视频剪辑(如 Kapwing 和 Veed)


不过,随着拍摄成本的不断上升,使用生成的内容作为替代方案变得越来越有吸引力,也就是说视频生产环节也在发生变化。


据公众号“海外独角兽”总结,推动这一趋势的产品主要分为两类:1)HeyGen、Sythesia 等数字人产品(有固定模版,只改变局部画面);2)Runway、Pika Labs 等视频生成产品(依照文字、图片等生成全新视频)


AI 生成视频领域在最近呈现出前所未有的活跃态势,各种模型纷纷扎堆进行更新。尤其上个月开始,AI 文生视频竞争变得非常激烈,是一个巨大飞跃。


  • 10 月,初创企业 Moonvalley 由 AI 图/文生成转向 AI 视频生成,推出号称“史上最强大的视频生成 AI”,一句提示词就能生成 16:9 电影画质的高清视频。


  • 11月3日,Runway宣布其AI视频生成工具Gen-2更新,分辨率提升至4K,大幅提高保真度和一致性;一周后,又紧急推出运动画笔功能,强化视频局部编辑能力。

  • 11 月 16 日,Meta 宣布推出两款 AI 驱动的生成模型—— Emu Video 和 Emu Edit,其中 Emu Video 利用 Meta 之前的 Emu 模型,能够基于文本和图像输入生成视频剪辑;而 Emu Edit 则专注于图像处理,承诺在图像编辑方面提供更高的精确度。

  • 11 月 22 日,AI 绘画走红的 Stability AI 发布了其最新 AI 模型 Stable Video Diffusion,能够通过现有图片生成视频,是基于之前发布的 Stable Diffusion 文本转图片模型的延伸,也是目前为止市面上少数能够生成视频的 AI 模型之一。

  • 11 月 28 日,AI 视频工具 Pika 1.0 发布,具有文生视频、用文字完成视频局部编辑等功能,效果媲美 Runway 的 Gen-2。

  • 12月12日,李飞飞及其学生团队与谷歌合作,推出了AI视频生成模型W.A.L.T(窗口注意力潜在Transformer ,Window Attention Latent Transformer),可以通过自然语言提示生成3秒长的每秒8帧、分辨率达512x896的逼真视频;可以让一张静图变为生动活泼的动图;还能生成3D摄像机运动的视觉效果。



可以说,AI 技术的发展和应用正在推动视频创作的各个环节发生变革,为创作者带来更多的可能性。过去,AI视频应用主要局限于企业(B端)市场和专业创作者,这在一定程度上限制了其在商业领域的广泛发展和应用。


Pika类应用的爆发,意味着传统内容创作者可以利用 AI 工具提高工作效率,同时非专业人士也有了更多的机会尝试内容创作,进一步打开C端市场,扩大了AI 视频的商业化空间。


据中信建投总结,“AI+视频”不仅是一种 AI 应用,更是 LLM 后 AI 新基建能力:1)To C,降低 UGC 门槛,有望出现“AI 时代的抖音”或视频版妙鸭产品。2)To B,在电商、教育等场景降本增效;长期在影视、游戏制作空间大。


AI 视频“GPT 时刻”仍未到来


得益于过去大模型技术的持续改进,文本生成、图像生成、语言翻译和音频生成等已经被广泛应用于多个领域,这些已经逐渐进入了成熟期。比如前段时间有几个 AI 配音的生成音频就刷爆了网络,赵本山说英文、霉霉讲中文。背后使用到的 AI 生成工具是 AI 数字人 HeyGen。


尤其在图像生成领域比 ChatGPT 等文本生成的大模型成熟期还要早,如 Midjourney、DALL·E 3 和 Stable Diffusion 等模型,它们能够根据文本描述生成高质量的图像。


相对而言,视频生成普及程度并不高。在视频生成方面,尽管有一些模型如 DALL·E 3 和 Midjourney 提供了动画制作的工具,但整体上文生视频的技术发展相比于图像生成要慢一些。


反过来看,这也意味着 AI 视频仍处于爆发前夕,充满了巨大的潜力和机会。在大模型技术的加持下,视频生成的成熟度和用户规模也开始追赶上来了。视频生成能在短时间内追上来,说明技术的门槛在降低。



要知道,成立短短半年多的 Pika 一夜爆红,已拿到 3 轮融资;而鼻祖 Runway 早在 2015 年就是一家 AI 初创公司了,其融资也才到 D 轮,估值达 15 亿美元。


那么,AI 视频的“iPhone 时刻”或者杀手级应用到来了么?


Pika 很自信,认为“GPT 时刻”很快就会到来,明年就能看到了。


“我希望明年就可以实现。给用户的感受就像 ChatGPT、Midjourney v5 那样,有一个显著提升。”Pika 创始人郭文景接受采访时表示。


实事求是地说,目前的 AI 文生视频赛道的难度仍很大,尤其难以解决画面变得稳定的抖动问题。


这跟早期的手绘动画很相似,都是先绘制很多帧静止的图像,之后将这些图像连接起来,并通过一帧帧图像的渐变,实现画面的运动。由于目前的 AI 文生视频技术,还无法准确地确定关键帧,这导致了画面抖动和不稳定的生成效果。


再加上当前人们依然会为 Adobe 等传统软件支付费用,但视频生成类的用户付费比例还很低,盈利模式的可持续性受到挑战。


显然,我们也要清楚大模型的边界在哪儿。不要高估大模型的能力,它有很多事情还做不了。当下,生成式 AI 视频工具将大批量产生短剧系列,但困于技术短板,时长、清晰度、流畅度还都很有限,对于长视频的影视剧影响还较小。


如爱奇艺创始人、CEO 龚宇最近谈及 AIGC 对内容行业的挑战:明显开始对我们这个行业产生了影响,虽然在工作流程中只参与其中一两个环节,它创意的作品套路、商业价值很低,现在的水平和我们这个产业的要求相距甚远,但是未来 3-5 年很可能发展成为主流工作方式。


因此,虽然 Pika 的出现让人们对 AI 文生视频充满了期待,但是 AI 文生视频技术距离人们期望中的理想效果,还有很长的路要走。


由此可见,眼下 AI 视频的 iPhone 时刻、GPT 时刻,或者说 All- in-one 杀手级应用尚未到来。


结语


Pika 文生视频 AI 应用的出现,给 AI 生成式视频添了一把旺火,再次燃起了人们对 AI 文生视频赛道的关注。这背后源于 GPT-4V 等多模态大模型的推出,基于扩散模型的 Dalle-3、Midjourney 和 Stable Diffusion 等技术的功能不断增强,势必对影视、娱乐和广告营销创意等行业产生了巨大的影响,甚至可以说是颠覆。


那么,这距离人们期望中的AI 视频理想效果还有多远呢?


无论是企业级还是消费级,AI 视频的前景都面临着巨大不确定性。同时还存在不少现实挑战,如版权问题、原创性保护以及如何确保 AI 生成内容的质量和合规性等。尤其是投资者更关心 AI 能否带来实际的经济效益,运行高级 AI 模型的 AI 算力成本可能是一个障碍,这些模型需要大量的计算资源,用户量不断增长,算力成本也会相应地增加。



总之,视频 AI 的崛起确实标志着人工智能竞争进入了下一阶段。在这个阶段,各大公司和研究机构都在积极布局视频 AI,以争夺在这一领域的竞争优势。随着技术的不断发展,我们可以期待在未来看到更多创新性的产品和应用。


我们期望那一天的到来,即未来Transformer或其他某种算法能够精准地预测下一帧内容,那么我们将迎来全新的视频模型,这样的技术突破有可能催生出下一个炙手可热的内容平台。


文章来自于微信公众号 “飞哥说AI”(ID:FeigeandAI),作者 “元帅”


关键词: Pika , Ai视频 , Runway
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
AI工作流

【开源免费】n8n是一个可以自定义工作流的AI项目,它提供了200个工作节点来帮助用户实现工作流的编排。

项目地址:https://github.com/n8n-io/n8n

在线使用:https://n8n.io/(付费)


【开源免费】DB-GPT是一个AI原生数据应用开发框架,它提供开发多模型管理(SMMF)、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL(智能体工作流编排)等多种技术能力,让围绕数据库构建大模型应用更简单、更方便。

项目地址:https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file



【开源免费】VectorVein是一个不需要任何编程基础,任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤,并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。

项目地址:https://github.com/AndersonBY/vector-vein?tab=readme-ov-file

在线使用:https://vectorvein.ai/(付费)

2
数字人

【开源免费】Fay开源数字人框架是一个AI数字人项目,该项目可以帮你实现“线上线下的数字人销售员”,

“一个人机交互的数字人助理”或者是一个一个可以自主决策、主动联系管理员的智能体数字人。

项目地址:https://github.com/xszyou/Fay

3
prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。

项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md

在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0

4
无人直播

【开源免费】VideoChat是一个开源数字人实时对话,该项目支持支持语音输入和实时对话,数字人形象可自定义等功能,首次对话延迟低至3s。

项目地址:https://github.com/Henry-23/VideoChat

在线体验:https://www.modelscope.cn/studios/AI-ModelScope/video_chat


【开源免费】Streamer-Sales 销冠是一个AI直播卖货大模型。该模型具备AI生成直播文案,生成数字人形象进行直播,并通过RAG技术对现有数据进行寻找后实时回答用户问题等AI直播卖货的所有功能。

项目地址:https://github.com/PeterH0323/Streamer-Sales