ChatGPT 人工智能 GPT4 伦理 生成式 医疗 监管 安全 机器学习 深度学习 神经网络 计算机视觉 强化学习 模型 算法 应用 开发 研究 工具 平台 框架 数据集 训练 部署 安全 合规 培训 投资 LLM,llm AI,ai,Ai 大模型 大语言模型 制图 生图 绘图 文生图 文生视频 生成式AI AGI 世界模型 sora chatGPT,chatgpt,ChatGpt claude openai Llama deepseek midjourney 红熊猫模型 Red panda,panda Stable Diffusion,StableDiffusion,stable DALL- E 3 DALL E DALL Flux,flux 扩散模型 混元大模型 文心一言 通义千问 可灵 Pika PixelDance 豆包 月之暗面 零一万物 阶跃星辰 搜索增强 MiniMax Talkie Agent prompt fastai LangChain TTS 微调 提示词 知识库 智能体
# 热门搜索 #
搜索
上半年视频生成产品全盘点:有哪些选手?谁最强?资本看好谁?
6913点击    2024-07-28 23:40
7月26日,智谱AI 推出视频生成产品「清影」,已上线可免费使用。这无疑给上半年越演越烈的AI视频生成产品的竞争又加了一把火。

上半年,到底有哪些表现出色的AI视频产品?他们的性能怎么样?资本又看好哪些公司?未来AI视频生成的走向又会是怎么样的 ?

今天的这篇文章,全面梳理了2024年上半年的AI视频产品的战况。

要说2024年大模型最火的赛道,视频生成一定榜上有名。


继2月Sora开启AI视频生成新时代之后,今年6月密集的模型发布,又将视频生成大战推向了新的高潮。


“AI影视的下一个代际来了”、“太卷了,简直是你方唱罢我方登场”、“终于有希望摆脱PPT时代了”、“看样子很快就能用AI制作MV了”……在AI视频创作者或从业者当中,我们能看到最多的情绪是“兴奋”。


自Sora发布以来,超8家国内外AI企业陆续推出新产品或模型,动辄生成10秒以上视频且公开可用,有的据称已实现长达2分钟的超长视频生成,AI视频生成赛道掀起热火朝天的2.0大战。


这边,字节抢先上线AI视频生成产品即梦,将视频生成时长从常见的3-4秒拉长到12秒;沉寂许久的快手突然发布可灵大模型,惊艳的效果引发全网热议,排队人数一度接近100万。



快手可灵排队申请人数


那边,创企Luma AI“弃3D投视频”,发布Dream Machine高调入局;老玩家Runway也不甘示弱,甩出新一代Gen-3模型,将物理模拟能力推向新的高度。



Gen-3视频生成效果


融资战场上,战火同样炽烈。国内,爱诗科技、生数科技自3月起接连斩获亿级融资;海外,Pika在6月获得8000万美元融资,估值翻倍至5亿美元,而Runway则被曝正在筹备一笔高达4.5亿美元的融资。


Sora如同一颗重磅炸弹,震撼了AI视频生成界。如今经过5个月的激烈追赶,海内外AI视频生成产品究竟进展如何?它们能否与Sora一较高下?又将面临哪些挑战?通过对可用产品的横向体验,以及与从业者、创作者的探讨,智东西深入分析了这些问题。


在实测中,我能明显感受到视频生成的速度变快、“翻车”现象大幅减少,从简单的“PPT式”平移进化为有角度、动作变化的运动。整体体验下来,免费可用的产品中效果最佳的是即梦和可灵,无论是时长、稳定性还是物理模拟都实现领跑。


在融资方面,与Sora发布前相比,AI视频生成相关的融资密度和金额都大幅上涨,5个月内吸金超44亿,还带动视频制作流程“上下游”的其他产品如AI剪辑、AI灯光等获得资本青睐。此外还有多个新玩家入局,有的还没发布任何产品或技术就已经融到亿级资金。


01 


技术之战:


卷时长、卷高清、卷物理模拟


2月16日,OpenAI发布Sora,一夜颠覆了AI视频生成赛道格局。然而5个月过去,Sora仍是一款期货产品,什么时候能为普罗大众所用,看起来也遥遥无期。


这期间,国内外的大厂、创企争相发布新产品或模型升级,且大多数都已向全体用户开放,其中不乏效果惊艳的产品,这也让AI视频生成的格局再次发生改变。毕竟,Sora再好,用不上又有什么价值呢?


据智东西不完全统计,Sora发布以来国内外至少有8家公司发布新产品或模型,其中除生数科技的Vidu之外均公开可用。



AI视频生成产品发布/模型升级(智东西制表)


2月21日,Stability AI正式上线了AI视频生成产品Stable Video网页版,且面向所有用户开放。虽然其底层模型Stable Video Diffusion于去年11月便已开源发布,但作为模型仍有一定的部署和使用门槛,打包成网页版发布后让更多用户可以简单便捷地上手使用。


4月27日,生数科技联合清华大学发布长时长、高一致性、高动态性视频大模型Vidu,据称可生成长达16秒、分辨率1080P的视频,并且能够模仿真实物理世界。


从放出的Demo来看,Vidu确实在清晰度、运动幅度、物理模拟等方面取得了很好的效果,不过遗憾的是,Vidu与Sora一样尚未开放。智东西向生数科技询问得知,产品将于近期开启内测。



生数科技Vidu视频Demo


5月9日,字节剪映旗下AI创作平台Dreamina更名“即梦”,并上线AI作图和AI视频生成功能,最长支持生成12秒的视频。


6月6日,快手发布AI视频大模型可灵,并上线快影App,用户只需填写问卷即可申请使用。可灵大模型主打对物理世界特性的高强度模拟,例如难倒众多AI的“吃面条”等问题,在其提供的视频案例中均有体现。


目前,可灵支持生成5秒、10秒固定时长的视频。据其官网介绍,模型最高能生成2分钟、帧率30fps、分辨率1080P的视频,后续将上线视频续写等功能。


6月13日,此前主要做AI生成3D的创企Luma AI宣布推出视频生成工具Dream Machine,支持文本、图像生成5秒长度的视频,同时提供视频延长功能,可基于已生成的视频一次延长5秒。


6月17日,Runway发布新一代模型Gen-3 Alpha版本,并于7月2日面向所有用户付费开放,订阅费最低为每月15美元。Gen-3目前支持基于文本生成5秒、10秒长度的视频,图生视频以及其他可控工具暂未开放。



Gen-3 Alpha生成视频效果


7月6日,智象未来(HiDream)在WAIC上发布了智象大模型2.0,提供5、10、15秒三种视频生成时长,并增加文字嵌入生成、剧本多镜头视频生成、IP连贯一致性等能力。


7月17日,此前专注AI 3D重建的英国AI创企Haiper AI,宣布旗下AI视频生成产品Haiper升级至v1.5,时长延长到8秒,且提供视频延长、画质增强等功能。


下表展示了这些模型的生成时长、分辨率、帧率等参数,以及除基础生成外的附加能力。



升级的AI视频生成产品参数(智东西制表)


从参数上看,这些AI视频生成产品首先在生成时长上实现了明显进步,基础生成时长从此前的2-4秒延长到5秒,并且有一半以上都支持超10秒的时长,还有部分产品提供了延长功能。目前免费可用的产品中,生成视频最长的为即梦的12秒。


在视觉效果方面,分辨率、帧率都有较大提升,支持720P及以上的产品更多了,帧率也向24/30fps靠拢,此前的产品生成视频分辨率大多在1024*576左右,帧率多为8-12fps。


02


产品之战:


上手实测 6 款免费「现货」,「抖快」领跑


Sora刚发布时,智东西曾对国内可用的8款AI视频生成工具进行了深度体验,当时差距还比较明显,“翻车”情况较多。(全网首个“中国版Sora”横评!15家企业对决,字节领跑


那么经过几个月的迭代升级,已经交出新答卷的这些玩家表现如何?智东西对新发布或升级的AI视频生成产品进行了体验,为公平起见,统一只试用免费能力,且均选取第一次生成的视频。


需要注意的是,视频生成本身就有类似于“抽卡”的运气成分在内,且和提示词的撰写也有很大关系,因此少量的案例并不完全代表模型能力。


第一关我选择了静物场景,提示词为:郁金香沐浴在夕阳暖光中的特写。


Stable Video在这个提示上表现出很高的稳定性,同时画面清晰度、色彩的丰富程度都比较高,在运动上以镜头的运动为主。



Stable Video生成视频


Dream Machine的画面清晰度明显掉了一个档次,不过在对提示词的表现上还是比较准确的,运动同样以镜头的平移为主。



Dream Machine生成视频


Haiper生成的视频视觉效果很好,但是运动幅度略小。



Haiper生成视频


智象大模型的表现也不错,画面有很强的景深效果,但细看花瓣会发现存在细节上的缺陷和不稳定。



智象大模型生成视频


即梦生成的是固定镜头的画面,运动方面以郁金香的晃动为主,整体效果比较稳定。



可灵生成的视频把“特写”这一提示词展现到了极致,同时画面清晰度较高,还刻画出了花瓣上的纹理。不过话说回来,对“郁金香的特写”该如何理解,本身也不是一个有固定答案的问题,所以也说不上谁对谁错。



可灵生成视频


整体来看,各路玩家在静物场景上的表现都很稳定,生成视频的可用程度很高。


第二关我选择了动物场景,且增加了风格化和动态动作的元素,提示词为:一只卡通袋鼠在跳迪斯科。这其实是Sora提供的案例中的一个,首先我们来看一下Sora的打样。



Sora生成视频案例


Stable Video在这一关“扑街”。第一帧画面很完美——这或许与Stable Video在生成视频时选取的路径有关,在生成流程中,它会先生成4张图像供用户选择,再根据用户选择的图像生成视频——随后袋鼠的全身都开始扭曲变形。


比较有趣的是画面背景中的人物和拟人化的动物并没有太大的问题,不知道是不是“跳迪斯科”这个动作把Stable Video给难倒了。



Stable Video生成视频效果


Dream Machine生成的视频整体稳定性不错,但在袋鼠的脚部、手部等细节上会有稳定性的缺失。在运动幅度上,除了袋鼠本身的运动外,它还进行了从特写到全景的镜头推移。


我又试用了Dream Machine的视频延长功能,视频后5秒是其延长生成的内容。可以看到它并没有局限在单一镜头,而是进行了从全身到上半身近景的镜头切换。不过延长的视频中虽然背景中的人物群像稳定性较高,但袋鼠更加不稳定了。



Dream Machine生成视频效果


Haiper生成的袋鼠有一定程度扭曲,且没有体现“跳迪斯科”这一关键词。



Haiper生成视频


智象大模型在这一关翻车比较严重,和Stable Video一样出现了画面主体大幅度扭曲的问题,并且也没有体现“跳迪斯科”。



智象大模型生成视频效果


即梦生成的视频整体视觉效果比较好,清晰度、色彩丰富程度很高。稳定性方面,前几秒还比较正常,但在后3秒左右出现了明显的扭曲,扭曲程度与Dream Machine差不多。


在语义理解上,画面有体现一定的“跳舞”动作,但和“迪斯科”关系不大。此外,画面背景中的文字看起来像是“鬼画符”。



即梦生成视频效果


可灵生成的视频整体比较稳定,主要的问题集中在手部和眼球。但在语义理解方面,并没有体现出“跳迪斯科”这一关键词。



可灵生成视频效果这一关整体来看,Dream Machine、即梦、可灵的表现更胜一筹,但都无法达到Sora的水准。此外,这个提示词也展现了各个模型在审美上的差异,包括色彩的倾向、风格的选择、镜头的切换等。


第三关设置为人物特写,使用的提示词为:一个宇航员在空间站外漂浮的特写镜头,背景中有地球和月亮,星星在头盔面罩上反射。


Stable Video在这一关的表现还不错,准确地描绘了“宇航员”、“地球”、“月亮”、“星星反射”等关键词,稳定性也很高。运动方面不是简单的镜头平移,而是画面主体相对背景的运动。



Dream Machine生成视频


Haiper在这一关表现不错,虽然漏掉了“月亮”,但其他关键词都有体现,头盔中的倒影也很自然。



Haiper生成视频


智象大模型起初拒绝生成该提示词,显示存在敏感内容。在多次删减后,我终于用“一个男子在空间站外漂浮的特写镜头”生成了一段视频。


画面整体效果比较真实,虽然最终用的提示词里只有“空间站”这一个体现内容的关键词,其还是描绘了地球、航天服等元素。不过这位主人公并没有戴航天头盔,不知道是怎么呼吸甚至讲话的(doge)。



智象大模型生成视频效果


即梦在人物细节的刻画上较为优秀,人脸、服装都比较精致,稳定性也很高,但是画面背景中似乎出现了第二个“地球”,此外镜头相较于“特写”更偏向“近景”。



即梦生成视频


可灵生成的视频画面中一开始没有出现人物,随后宇航员缓慢进入镜头当中,但背景又是静止的,看起来有种淡淡的幽默。不过画面本身的准确度和稳定性还是很高的,体现了每一个关键词,还描绘了部分选手遗漏的“空间站”。



可灵生成视频


人物关的整体表现虽然不如静物场景稳定,但相比上一关效果好了不少,可能和训练数据丰富、运动幅度小有关系。这一关表现更好的是Stable Video、Haiper、即梦和可灵。


总体来看,在智东西本次体验的6款AI视频生成产品中,即梦、可灵的生成效果优势比较明显,无论是在时长还是稳定性上都达到不错的能力。此外国内的Morph Studio、NeverEnds等产品效果也很不错,但由于其未在Sora发布后有新的产品或模型升级,因此不在本次体验范围内。


03


资本之战:


5 个月吸金 44 亿,新玩家涌现


Sora发布时,如当初的GPT-4一样再度掀起生成式AI热潮,引发文生视频概念股集体涨停。


一级市场也迎来一波新的狂欢。据智东西不完全统计,Sora发布至今5个月以来,至少有5家AI视频生成赛道的创企获得超亿元融资,累计约12亿元,此外还有Runway被曝正在洽谈4.5亿美元(约合人民币32.68亿元)新融资。



AI视频生成相关大额投融资(智东西制表)


国内,爱诗科技分别于3月、4月接连融到两笔亿级资金,且得到蚂蚁等知名投资方的青睐,此前其仅在去年8月获得一笔数千万元的天使轮融资。


今年1月,爱诗科技上线海外版AI视频生成产品PixVerse,当时成为与Pika、Runway竞争的有力黑马。Sora发布后,其创始人王长虎曾称将在3-6个月内实现赶超。


目前5个月过去,爱诗科技尚未发布底层模型的迭代更新,不过陆续推出了角色一致性、运动笔刷等新功能。智东西向其询问产品进展得知,其新一代模型及新功能“文生视频故事片”将于明天发布,能生成8秒视频并一次性生成3-5段内容连续的有声视频。



PixVerse上线运动笔刷功能(图源:爱诗科技)


生数科技也在短短3个月内连续获得两笔数亿元融资,其中百度风投作为老股东持续加投。此前,生数科技共获得2轮累计超一亿元融资。


三呆科技(Sand AI)则是一家近期刚刚走入大众视野的创企,目前并未有产品发布。7月10日,Sand AI被曝于5月获得今日资本领投的数千万美元A轮融资。


Sand AI成立于2023年10月,主要开发类似Sora的视频生成技术。值得注意的是,其创始人曹越是光年之外联合创始人之一,曾任北京智源AI研究院视觉模型研究中心负责人、微软亚洲研究院主管研究员。


公开信息显示,曹越本科、博士均毕业于清华大学,曾获得计算机视觉顶会ICCV的最佳论文奖马尔奖,谷歌学术被引超4万次。



曹越(图源其个人主页)


Haiper AI也是一家新入局视频生成的创企。该公司成立于2022年,位于英国伦敦,此前专注基于AI的3D重建方向。


据外媒3月报道,Haiper AI获得1380万美元(约合人民币1亿元)的种子轮融资,此前曾于2022年4月筹集了540万美元资金。


Haiper AI的创始团队是两位华人,Yishu Miao曾在TikTok全球信任与安全团队任职,Ziyu Wang曾在DeepMind担任研究科学家。去年晚些时候,Haiper AI团队决定专注于视频生成,并在去年12月发布了首款同名视频生成产品的测试版。



Haiper发布同名产品测试版


Pika于6月宣布获得新一轮约8000万美元(约合人民币5.81亿元)融资,估值翻倍至近5亿美元。去年11月,Pika宣布完成累计完成5500万美元的融资,估值在2-3亿美元。


7月2日,AI视频生成赛道的“老玩家”Runway被曝出正在洽谈4.5亿美元(约合人民币32.68亿元)的新融资,估值达到40亿美元。


Runway的上一笔融资完成于去年6月,投资方包括谷歌、英伟达等,并以1.41亿美元的资金达到15亿美元融资,累计融资2.37亿美元。


如果本轮融资落地,无论是融资额还是估值都达到两倍以上。


总的来看,在Sora发布后的这几个月,一级市场不断有新的AI视频生成融资出现,不仅频率更加频繁,金额也大幅上涨,单次融资额都超过此前的融资总额。即使部分创企没有产品发布或模型升级,也没能阻挡投资方的热情。


04 


AI 视频大战 150 天,


从「PPT」变成真正的「视频」


Sora“隐身”的150天,在众多大厂和创企的“围攻”下,主流AI视频生成产品与Sora的差距已经大幅缩短,并且还有至关重要的一点——可上手使用,甚至不少功能还是免费。


目前来看,头部AI视频生成产品已经实现了不错的时长和稳定性,下一步迭代的重点方向是物理模拟。从官方展示的Demo来看,Gen-3、可灵、即梦、Vidu对真实世界的模拟程度较高,经过筛选过的案例已经与Sora放出的案例效果相差无几。


那么从创作者的视角来看,现阶段的产品使用体验如何呢?


近日,导演、AI影视创作者陈坤(闲人一坤)制作了其AI短剧《山海奇镜》预告片的重制版,并与原版进行了对比。


在该短剧的首映会上,他向智东西等媒体谈道,半年时间内AI的进步还是非常明显的,尤其是物理模拟方面,在他看来已经实现了“代际性”的迭代。具体来说,现阶段可灵等视频生成模型已经实现了原生高清,不再是切片式的画面内容驱动,主体运动合理,动作幅度不但大还流畅,且对提示词响应积极。但同时,现在AI视频生成技术仍面临几大痛点:人物一致性、场景一致性、人物表演、动作交互、运动幅度。



《山海奇镜》预告片重制版与原版对比


从应用的角度来看,在影视制作等场景中,AI目前还处于追赶传统影视的过程中。


在一个完整的制作流程中,AI仍是一个辅助的手段而非主要工具,如剧本、配音、剪辑、后期等环节,目前还没有能达到生产力水准的产品出现。


但在成本上,包括人效比等方面,基于AI的流程已经实现大幅压缩,达到传统制作流程的1/4以下。



陈坤在点映会上接受采访


在WAIC 2024上,爱诗科技联合创始人谢旭璋谈道,现在我们所说的“视频生成”其实只是视频素材的生成,只是完整视频制作流程中的一小部分,没有声音、剪辑、转场、剧本等,无论是从技术还是业务上,还有非常长的路要走。


这也是除了继续迭代底层模型克服视频生成现有痛点外,AI视频发展的另一重要方向。


市面上也有不少公司正在各个视频制作流程中进行尝试,同样得到一级市场的青睐。仅最近一周内,就有AI驱动的视频编辑工具Captions、AI虚拟环境提供照明和合成工具Beeble分别获得6000万美元和475万美元融资。


05 


结语:AI 视频生成,


等待一个 GPT-4 时刻


Sora的发布点燃了国内外大厂团队和创业者的热情,不过整体来看还处于早期阶段,技术路线尚未达成共识,生成效果离商业标准也有一定距离。至于具体处在什么阶段,有不少行业人士将其与语言、图像模型的早期阶段作类比,如“GPT-3时代”、“图像生成的2022年前夕”等。


但可以肯定的是,AI视频生成技术正在指数级飞速发展,不断有新的产品和技术问世。尽管存在一些技术痛点和挑战,但随着技术的迭代和市场的推动,这一领域有望实现更多的突破和应用。


AI视频生成大战不仅是技术的较量,更是资本的角逐。在这场狂卷吸金的风暴中,谁能笑到最后,我们拭目以待。


文章来源于:微信公众号Founder Park


关键词: AI , AI视频 , AI应用 , AI公司 , 大模型
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
AI 3D建模

【开源免费】LGM是一个AI建模的项目,它可以将你上传的平面图片,变成一个3D的模型。

项目地址:https://github.com/3DTopia/LGM?tab=readme-ov-file

在线使用:https://replicate.com/camenduru/lgm

2
prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。

项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md

在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0