ChatGPT 人工智能 GPT4 伦理 生成式 医疗 监管 安全 机器学习 深度学习 神经网络 计算机视觉 强化学习 模型 算法 应用 开发 研究 工具 平台 框架 数据集 训练 部署 安全 合规 培训 投资 LLM,llm AI,ai,Ai 大模型 大语言模型 制图 生图 绘图 文生图 文生视频 生成式AI AGI 世界模型 sora chatGPT,chatgpt,ChatGpt claude openai Llama deepseek midjourney 红熊猫模型 Red panda,panda Stable Diffusion,StableDiffusion,stable DALL- E 3 DALL E DALL Flux,flux 扩散模型 混元大模型 文心一言 通义千问 可灵 Pika PixelDance 豆包 月之暗面 零一万物 阶跃星辰 搜索增强 MiniMax Talkie Agent prompt fastai LangChain TTS 微调 提示词 知识库 智能体
# 热门搜索 #
搜索
张一鸣的对手,多了一个又一个
9165点击    2024-07-29 17:45

进入7月,文生视频赛道动作不断:智谱AI 推出AI生成视频模型智谱清言,用户可在30秒内免费生成6秒视频;快手可灵迎来全面开放测试,并正式上线会员体系,月费分为66元、266元和666元三档。


据字母榜(ID:wujicaijing)不完全统计,仅国内,目前便有超20家公司推出了自研AI视频产品/模型。非凡产研数据显示,2024年上半年,仅文生视频领域全球有18次融资活动,其中12起融资都集中在国内。


在今年2月份Sora震撼发布前后,前抖音CEO张楠几乎同期转岗剪映,并表示将推出一个AI生图和视频产品。但近半年过去,面对国内其他玩家在成为Sora的“国产平替”的竞赛中,字节在文生视频领域却推进缓慢。


更糟糕的是,新竞争对手还在不断赶来的路上,如今字节最新的对手是MiniMax。


接近MiniMax的人士告诉字母榜,如今MiniMax正在内部开发视频大模型,可能会植入星野AI或海螺AI内,作为单个应用场景出现。


对此,MiniMax商业化负责人魏伟回应称,现在包括MiniMax在内,各家大模型公司都在做文生视频的尝试,但对MiniMax来说,文生视频的技术仍在早期阶段。目前MiniMax对AI音频或AI视频的推出还没有明确计划。


作为国内“AI四小龙”之一,MiniMax由闫俊杰创立,3月,MiniMax官宣了由阿里巴巴领投的6亿美元,投后估值达25亿美元,根据非凡产研数据,6月,MiniMax旗下星野AI的月活为400万人,海螺AI的月活为200万人。


不管是MiniMax、还是智谱AI,切入文生视频的“军备竞赛”,背后都有着对流量的焦虑。


6月6日,快手的文生视频大模型可灵发布,一口气把视频生成的时长提到了2分钟级。上线不到两月,申请内测可灵的用户已经超过了70万。而根据非凡产研数据,6月,MiniMax旗下海螺AI下降量为176万人,环比下降19.95%。



尽管非凡产研CEO吴畏表示,整个6月,聊天类AI产品数据均有下滑,属于行业整体状况。但对于MiniMax、智谱AI们而言,无论是开发自己的视频大模型,还是将文生视频作为单个功能场景插入原本的大模型内,都不失为一个引流的优选。


引流之外,对于坐拥短视频业务的字节而言,文生视频还将加强剪映等视频剪辑工具的能力,并有望带动平台内容供给的丰富度。


面对各路友商在文生视频领域的步步紧逼,字节不得不迎头跟上。


A


在文生视频领域效用不显的大厂,不只有字节一家。


宣布要“All in AI”的百度,年初推出的AI视频模型UniVG正在内测阶段,阿里达摩院推出了AI视频产品“寻光”。


而根据晚点LatePost报道,2024年一季度,字节 AI 研发团队将视频生成模型的优先级排在了前面,还挖来了原Google视频生成模型VideoPoet项目负责人蒋路。2024年1月,字节推出一款AI视频生成工具——MagicVideo-V2,支持从4K到8K的超高分辨率视频生成。随后2月,剪映推出名为Dreamina的AI绘画工具。3个月后,剪映Dreamina正式更名为“即梦”,上线AI作图和AI视频生成功能,生成时长为3-12秒。


腾讯不仅自己的AI实验室推出了视频生成模型VideoCrafter2,同时腾讯混元团队还联合中山大学和香港科技大学共同研发了视频大模型Follow-Your-Pose-v2,上传一张人物图片、提供一段动作视频,就能让图片人物模仿视频中的动作,视频可达10秒。


腾讯集团副总裁蒋杰更表示,腾讯混元已支持文生视频、图生视频、图文生视频、视频生视频等多种视频生成能力,且已拥有16s视频生成的能力。



继Sora激起文生视频讨论热潮,快手推出可灵,将文生视频从60秒拉长到2-3分钟,文生视频赛道也引发了AI创企们的争夺。


除了MiniMax和智谱AI之外,Morph AI的Morph Studio、爱诗科技的PixVerse、MewXAI的艺映AI、右脑科技的Vega AI,虽已经在AI视频领域占据一席之地,也在不断迭代产品。


但不是所有大模型企业都将研发“国产Sora”摆在了优先战略级。


长文本起家的月之暗面,在OpenAI推出文生视频模型Sora引发关注之际,完成了超10亿美元的新一轮融资。当同样由阿里领投的MiniMax已经传出正在研发视频大模型的消息时,月之暗面在长文本之外,仍未有新动作传出。


成立百川智能的搜狗前CEO王小川,更是在3月份一次采访中表示,百川不走Sora路径。他认为像Sora之类的文生视频模型既不靠近AGI理想,也不靠近现实场景,Sora的高度、突破性、应用价值都低于GPT。


B


大模型厂商争卷文生视频,显然是因为看好AI视频“钱景”。


根据公开数据,早早在APP里支持“一键AI美颜”的美图,由连年亏损,到2023年总收入27亿元,同比增长29.3%,经调整后归母净利润3.7亿元,同比增长233.2%。而这一增长主要源于AI推动主营业务收入增长,如今美图用户每天处理数亿份图片和视频,其中约83%都用到了泛AI功能。


以美图AI口播视频工具开拍为例,面向B端用户,即抖音、小红书、B站上的视频创作者。“用(开拍)来拍口播可以设置字幕,滤镜美颜也会更自然,甚至美图还有专门的APP Wink,恢复画质的功能也很好用。”某小红书博主告诉字母榜,如今做自媒体,除了剪映之外,美图的开拍、Wink已经成了她必用的剪辑工具。


前字节视觉技术负责人、爱诗科技创始人兼 CEO 王长虎亦表示,在过去的移动互联网时代,国民级产品一定包括抖音、TikTok、快手,视频相比语言更贴近用户,未来产品化和商业化的可能性更大。


对于尚在用投流换用户,仍处在亏损中的AI创企如MiniMax等大模型厂商们来说,文生视频已然成为极具诱惑力的商业化新场景。


更不用提,上线不到两月,申请内测可灵的用户已经超过了70万。在用文生视频“让特朗普说rap”“让李白跳抖肩舞”的互联网造梗狂欢里,AI视频正在创造新的流量入口。


对于需要用日活和下载量证明自己的AI创企而言,社交平台的投流成本居高不下,研发视频大模型,将文生视频植入原本的AI工具内做流量入口,无疑会帮助正在亏损中的大模型初创公司,尽可能压缩成本。



此外,对于MiniMax们来说,想要承接由于OpenAI禁用API端口调用而寻找“下家”的B端用户,不论是用AI生成电商平台的门店物料,还是视觉创作、商业摄影、专业视频编辑、商业设计等其他领域,文生视频功能的载入,都能吸引一批“荷包更鼓”的B端用户。


但对于“不缺钱”的互联网大厂如字节等短视频平台,“卷”文生视频赛道,还有着关乎核心业务的重要考量。


在文生视频领域动作频频的剪映,既是视频创作的工具,也和抖音的内容生态息息相关。而面对快手可灵的“先发制人”,美图开拍等APP的紧逼,对于持续引导视频创作者在创作完成后“一键发布到平台”的大厂来说,对创作入口的争夺,直接关联着背后内容生态的建构过程。


此外,无论是由抖音和博纳合作的AI科幻短剧《三星堆:未来启示录》,还是快手原创的AI奇幻短剧《山海奇镜之劈波斩浪》,对于巨头APP如抖音、快手而言,文生视频的AI技术也能够更大程度地丰富平台内容。


同时,头豹研究院数据显示,2021年中国AI视频生成行业的市场规模为800万元,预计2026年,这一市场规模将达到92.79亿元。截至2023年底,该赛道已经出现了独角兽公司:

Midjourney估值100亿美元,Stability AI估值40亿美元,Runway估值15亿美元。而年初爆火出圈的Pika,刚刚成立不到一年,已于6月5日,宣布完成8000万美元B轮融资,估值达到4.7亿美元。


根据非凡产研数据,2024年上半年,仅文生视频领域全球有18次融资活动,其中12起融资都集中在国内,其中爱诗科技A轮融资达1亿元,生数科技A轮融资达数亿元,千万甚至亿级的融资数额,也展示了资本市场对文生视频的热切关注。


需要不断融资满足单月百万级别大模型运行费用的AI创企,想要把握投资人的心,也需要文生视频这个新故事。


C


但想用AI视频引流、做商业化,对资本市场讲出新故事,仍面临重重挑战。


2月中旬,OpenAI的文生视频模型Sora引发热议,可以生成长达1分钟的流畅视频,尽管3月OpenAI CTO已透露计划“今年晚些时候”正式推出Sora,但迄今为止,Sora仍未开放公测,仅向一些艺术家定向提供内测。



迟迟不进行公测的Sora,或许指向的正是AI视频生成的质量问题。曾担任阿里巴巴智能设计实验室负责人,打造了AI设计平台“鲁班”的特看科技创始人吴春松(花名乐乘),也面向国内出海商家和海外本土企业推出了视频AIGC生成平台,他表示,“在产品面向C端用户的初期,用文生视频需要尝试25次,才能生成一次可用的视频,对于用户来说,抽卡概率太低。”


B站某UP主则告诉字母榜,如今用国内几家文生视频大模型,“想要生成和文字描述准确的结果,很多情况下更看运气,尝试10次下来,调整后有3-4次能用,就已经是技术做得很不错的模型了。”


为了解决文生视频质量不稳定的问题,特看科技通过“文生图、图生视频”的技术迭代,让AI视频生成成功的概率从1/25提升到1/10(生成10次成功1次)。但对于专业的视频创作者来说,想要真正地实现用AI生成可用度较高的商用视频,就不能只是社交平台上风靡的“复活老照片”这类简单易复制的操作,对于AI生成视频的分镜、剧情的准确性,甚至镜头效果的美观程度和一致性,都提出了更高的要求。


反观现在国内的视频大模型,即使是在时长和准确度上表现不错的可灵,也因为“平台用来训练模型的基础语料仍然不够,跳出擅长的美食和人像领域,视频生成的准确度就会下降。”


除了生成质量不稳定之外,文生视频的商业化路径也也并不容易走通。


除了坐拥美图秀秀这一稳定流量入口的美图,即便是国内的短视频超级APP抖音和快手,也尚未打造出破圈的商业化作品,更多依然是与影视制作团队的内部合作项目。


即便选择了出海,包括5月在海外用户量已经高达176万的爱诗科技PixVerse、在海外音视频剪辑领域占据头部的字节Capcut,商业化路径也并不明晰。在出海的AI视频工具内,只有HeyGen由于为企业定制营销数字人视频,在一年内实现了从100万美元到3500万美元的增长。


模糊不清的商业化路径,加上单月百万级别的研发成本,对于AI大模型厂商们来说,文生视频这场“大考”,恐怕并不好过。


仍处在赔本赚吆喝阶段的文生视频赛道,某种程度上也给了张一鸣更多追赶的时间。


本文来自微信公众号“字母榜”,作者:马舒叶


关键词: AI , AI视频 , 快手可灵 , 字节AI
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
数字人

【开源免费】Fay开源数字人框架是一个AI数字人项目,该项目可以帮你实现“线上线下的数字人销售员”,

“一个人机交互的数字人助理”或者是一个一个可以自主决策、主动联系管理员的智能体数字人。

项目地址:https://github.com/xszyou/Fay

2
无人直播

【开源免费】VideoChat是一个开源数字人实时对话,该项目支持支持语音输入和实时对话,数字人形象可自定义等功能,首次对话延迟低至3s。

项目地址:https://github.com/Henry-23/VideoChat

在线体验:https://www.modelscope.cn/studios/AI-ModelScope/video_chat


【开源免费】Streamer-Sales 销冠是一个AI直播卖货大模型。该模型具备AI生成直播文案,生成数字人形象进行直播,并通过RAG技术对现有数据进行寻找后实时回答用户问题等AI直播卖货的所有功能。

项目地址:https://github.com/PeterH0323/Streamer-Sales