ChatGPT 人工智能 GPT4 伦理 生成式 医疗 监管 安全 机器学习 深度学习 神经网络 计算机视觉 强化学习 模型 算法 应用 开发 研究 工具 平台 框架 数据集 训练 部署 安全 合规 培训 投资 LLM,llm AI,ai,Ai 大模型 大语言模型 制图 生图 绘图 文生图 文生视频 生成式AI AGI 世界模型 sora chatGPT,chatgpt,ChatGpt claude openai Llama deepseek midjourney 红熊猫模型 Red panda,panda Stable Diffusion,StableDiffusion,stable DALL- E 3 DALL E DALL Flux,flux 扩散模型 混元大模型 文心一言 通义千问 可灵 Pika PixelDance 豆包 月之暗面 零一万物 阶跃星辰 搜索增强 MiniMax Talkie Agent prompt fastai LangChain TTS 微调 提示词 知识库 智能体
# 热门搜索 #
搜索
字节、快手、Vidu“打野”升级,AI视频小步快跑
2906点击    2024-11-13 10:45

邪恶栀子花,爆火的AI鬼畜视频


继9月份版本更新之后,光锥智能从生数科技联合创始人兼CEO唐家渝朋友圈获悉,Vidu大模型将于本周再次进行版本升级,Vidu-1.5版本即将上线。


此版本更新方向仍是重点延伸大模型的泛化能力和主体一致性问题。上一版本重点是单一主体的一致性,而最新版本则能够理解和整合人物、物体、环境等多个概念,遵循用户指令30秒内生成多个主体融合的相关视频结果,率先实现视频创作中的多主体一致性生成。


除Vidu外,自今年9月份以来,据不完全统计,包括字节旗下即梦AI、快手可灵AI、Runway、智谱清影、爱诗科技PixVerse、Pika等主流的AI视频生成平台,都已经进行了版本更新。



当前,在爆火的AI视频生成赛道中,大模型创企、互联网大厂等纷纷入局,而在经过前期各家密集进行产品发布阶段后,如今已进入产品迭代升级比拼阶段。


通过各家版本更新的内容,不难发现,AI视频生成大模型能力迭代的大方向,仍是生成视频的时长、画面的稳定性、连续性和主体前后的一致性上。


但与此同时,各个玩家又在实际功能应用中,开始出现“分野”,各有侧重,部分中小玩家也开始找到自己的细分市场。


比如Runway最新版本中更新了可将真人面部表情精确复刻给AI角色的Act-One,以能够实现3D化的AI摄像头控件。PixVerse则上线了各种万圣节特效、毒液特效等。


对此轮各AI视频生成平台的更新,星贤文化创始人、AI原创玄幻IP《山海奇镜》制作人陈坤认为:“最大的更新应该是Act-One这种表情迁移,提供了人物表演的基础可能性。”而对于人物主体的一致性和稳定性,“有进步,但并没有代际型进步。”


在AI视频创作者尾鳍Vicky看来,相比上半年初代产品,最新更新的AI视频平台,除了在底层模型能力上的迭代之外,在功能上也进行了更新,比如首尾针、画质和帧率的补足、配音等功能,“这些功能的完善,实际上是比上半年更全面。”


如果说2024上半年,是AI视频生成赛道的军备竞赛,那么下半年则是进入小步快跑的版本更新周期。


而在此阶段,字节和快手的交锋仍在激烈进行中,中小厂商开始找到自己独特赛道,而一些企业专注走海外市场,也实现了“国内开花,墙外香”的效果。


无疑,这一阶段的厮杀,看似温和,但却实质性的影响平台自身的定位和未来发展的方向,以及后续用户群体和数量规模的可持续增长。


字节狂追,快手抢跑


“即梦有些掉队。”这是AI视频生成平台用户给出的客观评价。


作为去年第一批的AI视频生成平台,以及字节旗下的产品,即梦AI的视频生成效果一直备受使用者诟病,处于被Runway、Pika等同一批玩家吊打的状态。


今年6月,字节在短视频领域的直接竞争对手——快手,正式在官网上线了“可灵”视频生成大模型,并火速出圈。同时,越来越多AI视频生成平台如雨后春笋般推出,AI视频生成赛道彻底爆火。


在强大竞争压力之下,作为国内AI产品第一梯队,补上视频生成这一块短板,已成为字节跳动面临的当务之急,而其奋起直追的速度也超乎想象。


9月24日,2024火山引擎AI创新巡展深圳举办,原抖音艺术负责人陈欣然以即梦AI及剪映市场和运营负责人的身份亮相,并宣布即梦AI已经接入了豆包最新的视频生成模型。


同期,字节跳动发布豆包模型家族的两款视频生成模型Seaweed和Pixeldance,并通过即梦 AI、火山引擎分别面向创作者和企业客户小范围邀测。


11月8日,字节跳动旗下的AI内容平台即梦AI宣布,由字节跳动自研的视频生成模型Seaweed面向平台用户正式开放。


据字节跳动方面介绍,本次开放使用的豆包视频生成模型Seaweed是该款模型的标准版,仅需60秒即能生成时长5秒的高质量AI视频,领先国内业界3至5分钟的所需生成时间。


即梦AI还透露,近期Seaweed和Pixeldance两款视频生成模型的Pro版也将开放使用。Pro 版模型能实现自然连贯的多拍动作与多主体复杂交互,攻克了多镜头切换的一致性难题,在镜头切换时可同时保持主体、风格、氛围的一致性,适配电影、电视、电脑、手机等各种设备的比例。


字节抖音和快手,作为国内短视频平台的领军者,双方的竞争已经从短视频、电商转移至AI领域,客观来说,抖音在各方面都压快手一头。但唯独在AI领域,快手给出了漂亮的反击。


自6月一鸣惊人之后,快手可灵其实已经有数次的小版本的迭代。


但在底层大模型能力上,今年9月20日,快手发布可灵1.5版本,接入新一代模型,实现了画质和动态质量都大幅提升,原有的模型也加入了新功能——运动笔刷,生成效果可控性增强。


“可灵1.5很强,可以说是所有模型里面最真实的,吊打Runway,基本上已经克服了之前人物变形的问题。”AIGC创业者洋芋酱AIgen(艺名)如此对光锥智能说道。


在实际生成的视频效果中,对比可灵和Runway,可以看到,同一个提示词,两者在实际人物主体的稳定性上效果都很强,但可灵生成出的视频效果能够自动解锁面部表情。


“Runway其实也能自主生成面部表情,但效果非常诡异。”洋芋酱AIgen如此说道,不过,可灵AI和Runway这种能力是随机的,并不固定。


这其实也能够看到,可灵AI和Runway在实际生成效果上更胜一筹,而在对提示词的理解上,可灵AI也确实走在前列,但未来也仍需要不断迭代升级,才能将这一能力固化下来。


(Runway,提示词一个穿着新中式服装的女模特,正在展示自己的造型,背景是彩色的烟雾飘散,洋芋酱AIgen提供)


(可灵AI,提示词一个穿着新中式服装的女模特,正在展示自己的造型,背景是彩色的烟雾飘散,洋芋酱AIgen提供)


不过,此次即梦上线最新视频生成大模型之后,尾鳍Vicky则认为其在模型能力和UI设计上,与可灵差距不大。同时,在内测即梦平台Pro版模型的时候,其能够轻松控制画面的运动幅度和动作。


作为国内头部的短视频平台,快手和字节,在AI视频生成赛道的布局,终局目的是要吸引和留住用户的注意力,而这就需要不断生产出新颖、有质量、有创意的内容。


基于此,AI短剧,也成为字节即梦和快手可灵竞争的焦点之一。


今年7月份,由“可灵AI”创作出的AI短剧《山海奇镜之劈波斩浪》引发广泛关注,该短剧成为国内首部AIGC原创奇幻微短剧。


9月,快手星芒短剧联合“可灵AI”推出了“星有灵犀-AI短剧创作大赛”。据悉,大赛以流量奖励、荣誉奖励、内容签约等多项举措激励更多人加入AI短剧创作。


字节同样不甘示弱,即梦AI在联手博纳影业发布首部AIGC生成科幻短剧《三星堆:未来启示录》的同时,也在联手抖音平台多位“超级创作者”实现共创,邀请平台上有高质量粉丝及高影响力的达人,共同加入“超级创作者联盟”计划,希望借此打造国内最大的虚拟创作社群。


但现阶段不管是抖音,还是快手,其视频平台的影视创作者创作的内容,“很难破圈儿。”尾鳍Vicky如此说道,“因为现在整个市场尚未形成,C端用户并不知道用它来干嘛。头部会有一些商业化需求,但需求并不多,整体并不稳定。”


毕竟,现阶段全球的专业创作者还比较少,且AI视频生成大模型技术尚处于早期阶段。


因此,作为头部视频平台,字节和快手之间的竞争也日趋激烈,而除了底层AI技术、产品之争外,更重要的则在于谁能够率先探索出技术赋能内容之路。毕竟,平台如果能够聚集更多具有创新意识的内容创作者,就能够打造出一个更受用户关注和喜爱的社区生态。


当然,除了字节和快手之外,在AI视频生成赛道中的其他玩家,也开始出现“分野”,部分中小厂商,也开始探索并走出了一条属于自己的差异化竞争之路。


细分市场崛起,找准自身定位是王道


在抖音、快手等短视频平台上,一些创作者创作的内容可能破圈儿难度比较大,但一些包含鬼畜特效的视频,却异常的火爆,比如由AI生成的何炅和黄磊突然打架的视频。



对于AI视频生成赛道的玩家来说,如果字节和快手,是全方位的技术和内容生态体系的竞争,而其他中小玩家更多的则是聚焦在细分赛道,找准自身平台和产品定位,则成为生存发展的基础。


10月底,Runway的CEO在公开信中明确表示, Runway并不是一家AI公司,而是一家媒体和娱乐公司,“我认为 AI 公司的时代已经结束了。”


基于此,在各大公司争相卷AI视频生成长度、逼真度、流畅度的时候,Runway显然已经在AI视频赛道中走出了自己的特色——做专门服务于艺术、媒体和娱乐的AI。


从Runway的实际视频生成效果来看,其在人物稳定性、一致性上的效果可以说走在前列。而除了基础技术能力外,在最新的版本更新中,Runway上线的2个新功能虽小,但都将为动画师、游戏开发者和电影制作人提供非常大的便利、节约巨大的成本。


Runway可以说是最受影视从业者欢迎的产品之一,除技术实力之外,更重要的还在于性价比。


“ Runway实在是太香了,我们用可灵都是省着用,但是Runway是无限次数的,每天抽个几百次都无所谓。”洋芋酱AIgen表示,“AI视频的随机性还是很强的,如果按次收费,普通创作者可能很难承受起这个成本。”


反观可灵,如果用1000元购买积分,能够购买15000可灵值,每次用35可灵值,1000元只能生成428次。对于真正的创业者来说,基本不够用,“按照我在Runway每天要生成两百多次视频的频率来看,可灵1000元购买的积分基本2天就烧完了。”洋芋酱AIgen如此说道。


在光锥智能上一篇《爆“卷”的AI视频,大厂向左,创企向右》文章中也提到过,对于现阶段各平台采用的会员制收费方式,对于不能够商业化闭环的创业者而言,后续的付费率和付费意愿都不会很高。而现如今看来,对于即使能够实现商业化闭环的创业者而言,性价比也是影响其使用产品的关键因素。


而除了Runway之外,Pika和Pixverse也找到了自己的赛道。从他们最新更新的版本中可以看到,这两家重点是训练了一些用户能够直接使用的特效效果,“虽然比喻可能会不太恰当,但是有点接近之前抖音做的那种贴纸。”洋芋酱AIgen说道。


比如在10月底万圣节期间,PixVerse V3版本新增了不少万圣节主题的特效,包括僵尸模式、巫师帽和怪物入侵等主题效果,还有类似于Pika很火的AI捏捏特效,视频延长功能,用户可以为已有视频额外增加5-8秒的内容,并能精确控制新增片段的内容走向。


而随着最近《毒液:最后一舞》电影的上映,PixVerse基于最新视频模型PixVerse V3推出了新特效“我们是毒液”的视频效果,能够一键将图片生成酷炫毒液动画。


当前,在社交平台上,这种鬼畜特效非常受用户欢迎。此前Pika在1.5版本中,就推出了AI捏捏的特效,一经推出,就备受用户喜爱,其也靠着这一波特效,实现了弯道超车。而和Pika差不多时间开始增长的海螺AI,其实也是靠人物表演和meme表情包直接拉爆了海外舆论,弯道超车。


Pika的AI捏捏特效


事实上,尽管海螺AI推出时间较晚,但行业从业者对海螺AI的评价并不低。“海螺AI在人物动作上的表现很厉害,最近何炅和黄磊打架的AI生成视频,就是通过海螺AI生成。”洋芋酱AIgen说道。


不过,海螺AI更重要的是实现了“国内开花,墙外香”的效果。作为国内AI公司MiniMax在海外推出的AI视频生成平台,其一经推出,搜索热度持续攀升。


据“AI产品榜”统计,海螺AI网页版9月访问量大涨860%,登顶9月全球及国内增速榜首。海外用户纷纷在社交平台分享使用体验,普遍认为海螺AI是目前市面上最出色的AI视频生成工具之一。


而凭借产品在海外市场的爆火,MiniMax在商业化能力上,已经走在大模型六小虎的前列。


相比较来说,像Vidu和智谱清影这一类的平台,在主体一致性和人物稳定性中,视频生成时长等方向上正在不断进化,但尚未形成专属于自己风格的赛道和独特的竞争优势。


尽管AI视频生成技术正不断进化,并衍生出具有特色的细分赛道。但信达证券研报也显示,AI视频生成技术在人物一致性、所需时长、画面质量等方面仍需进一步提升,以满足商业化水准。


同时,目前主流AI视频工具还处在视频生成竞争的阶段,且大多数为单一功能产品,仍需要多种不同的视频创作工具串联使用才能达到直接输出可商业化视频的效果。


未来,AI视频生成大模型平台,仍需要不断迭代进化。


文章来自于微信公众号“光锥智能”,作者“ 白鸽”


关键词: AI , Vidu , 即梦 , 可灵
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。

项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md

在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0