ChatGPT 人工智能 GPT4 伦理 生成式 医疗 监管 安全 机器学习 深度学习 神经网络 计算机视觉 强化学习 模型 算法 应用 开发 研究 工具 平台 框架 数据集 训练 部署 安全 合规 培训 投资 LLM,llm AI,ai,Ai 大模型 大语言模型 制图 生图 绘图 文生图 文生视频 生成式AI AGI 世界模型 sora chatGPT,chatgpt,ChatGpt claude openai Llama deepseek midjourney 红熊猫模型 Red panda,panda Stable Diffusion,StableDiffusion,stable DALL- E 3 DALL E DALL Flux,flux 扩散模型 混元大模型 文心一言 通义千问 可灵 Pika PixelDance 豆包 月之暗面 零一万物 阶跃星辰 搜索增强 MiniMax Talkie Agent prompt fastai LangChain TTS 微调 提示词 知识库 智能体
# 热门搜索 #
搜索
字节跳动不能输掉的一场仗
6990点击    2024-09-26 18:19

事情大家都知道了:字节跳动终于发布了自家的“Sora”。


9月24日的深圳AI创新巡展上,火山引擎发布两款视频生成大模型PixelDance(像素舞动)和Seaweed(海草),并且面向企业市场开启邀测。


这是一次毫无预警的发布。除了少数进入到内测环节的创作者,字节没有发布任何有关新产品的消息。


尽管低调,但市场对字节系Sora仍有着巨大期待。年初,OpenAI的Sora几乎是一脚踢开了多模态、视频生成的大门。之后,6月快手可灵的爆火出圈,彻底点燃了这个赛道。


作为短视频巨头的字节,从去年ChatGPT发布后,就备受市场关注。从已有条件上看,字节几乎是大厂中,做大模型和AI产品先天优势最足的一家:有钱、有芯片、人才密度也足够大。


类Sora赛道,也早已被市场公认为是字节、快手的“天选场景”——短视频巨头不仅有巨量数据,也有足够丰富的应用场景。


但现实是,快手可灵自6月上线以来,已有超260万人使用过可灵,累计生成了2700万个视频、5300万张图片。此前的字节却仍未有动静,不免要面对市场上的诸多猜测——等到此时发布AI视频生成模型,还有多大胜算?


字节版“Sora”,可以摘掉Sora的帽子吗?


从效果上看,两款模型初步可以实现的的效果,无疑令人惊艳。


字节官方给出的实例中,无论是统一性、角色丰富度,都上了一个台阶。


由文字或图像生成的AI视频,不仅能够遵循复杂指令,让不同人物完成多个动作指令的互动,人物样貌、服装细节甚至头饰在不同运镜下也保持一致,接近实拍效果。



△来源:豆包AI视频生成模型 


值得关注的,一是多帧视频的连续性。


此前,视频生成模型大多只能完成简单指令,比如某个人/某个物体,完成单个动作。一旦有比较复杂的动线,视频就容易失真、变形。


现在的豆包AI视频生成模型,则可以实现自然连贯的动作,在奔跑、走路、抬头等等上面,连贯性和效果都好了不少。简单来说,不会看着看着,就突然从史密斯吃面,变成特朗普吃面。



△来源:豆包AI视频生成模型


二是角色的丰富度。豆包这次发布的AI模型,优势尤为突出的是多主体间的互动。


在不少实例中,都可以看到多个角色之间的互动,动作连贯合理,镜头类型也十分丰富,包含了多种类型的镜头调度方式——远景和近景的切换。镜头也能实现变焦、环绕、平摇、缩放、目标跟随等多种形式的变化。


在切换前后,人物样貌、服装细节甚至头饰也都可以保持一致。


下面这则视频,就从前面戴潜水墨镜的人,切换到后方另一位潜水员,两者的形象也都保持了一致。



△来源:豆包AI视频生成模型 


目前,PixelDance(像素舞动)和Seaweed(海草)模型都正在内测版小范围测试,还未完全开放公测。但《智能涌现》通过内测风景、人物等等场景,即梦AI在实时生成风景视频上,镜头的调度、画面质量上,都可圈可点。



△来源:36氪实测PixelDance功能


不过,在人物生成场景里,输入原图+指定的动作Prompt后,随着动作改变,一致性还是相当可以,但会有部分手指变形的Bug,



△来源:36氪实测Seaweed图生视频功能,Prompt:右边的女子拿出了一杯红酒,给左边的女子喝。


豆包本次的AI模型基于自研的DiT架构打造,这也被认为是OpenAI Sora的同款架构,是目前AI视频赛道上的主流技术路线。


不过,AI视频生成赛道的发展阶段比文字、图像都还要更早。如今的底层算法以闭源为主,数据极其稀缺——意味着各家都只能闭门造车,拼的就是工程优化能力。


火山引擎总裁谭待也表示,即梦AI等业务场景,已经对Transformer结构进行深度优化,而在DiT架构的研究上也有多款创新,才能大幅解决AI视频应用成本昂贵的问题,让应用成本降到最低。


但也有AI视频领域的从业者保持冷静,认为不用抱有太高期待。“现在底层的大模型没有代差,拉不开太大差距。”


AI博主归藏,就把豆包和AI视频老大哥Runway,以及明星初创Luma AI的生成效果,做了直观对比——



△来源:归藏


从功能上看,此次字节发布的Seaweed模型产品功能和体验更多元,不仅支持各种风格提示词响应,还有横竖多种比例的输出。


“综合结果比Luma要好很多,跟Runway各有优劣。”归藏在即刻上表示。


无论如何,字节的雄心壮志已经摆在了桌上。除了两款AI视频新模型,本次字节还发布了新的豆包音乐模型和同声传译模型,以及音乐模型。对创作者而言,豆包的大模型家族真正成为了”全家桶“:覆盖语言、语音、图像、视频等模态。


更值得关注的,是业务层面的迅猛增长。


自豆包大模型家族正式发布以来,日均调用量经历了爆发式增长。截至9月,豆包语言模型的日均tokens使用量超过1.3万亿,相比5月首次发布时增加十倍。其中,多模态数据处理量也分别达到每天5000万张图片和85万小时语音。


近期的一张AI产品增长表现统计图,就颇令人玩味:单单是豆包App的MAU增长,就已经远远拉开了与其他产品的距离。



△来源:AI产品榜


 

豆包爆发式的增长,更多来自此前的激进价格战。自5月以来,包括字节、阿里、腾讯等巨头,以及Deepseek等创业公司,展开了一场轰轰烈烈的降价。字节甚至把每千Token价格卷到了以”厘“为单位,迅速拉到了地板价。


现在,底层模型已经到了拼性能的阶段。火山引擎总裁谭待,这次就又提出了一个新指标:峰值TPM(每分钟Token数)。“业内多家大模型目前最高仅支持300K甚至100K的TPM,难以承载企业生产环境流量。”他说。


TPM,可以看作是在在单位时间内,模型的数据吞吐量。豆包Pro支持800K的TPM——据谭待表示,比如某科研机构的文献翻译场景,TPM峰值为360K,某汽车智能座舱的TPM峰值为420K,某AI教育公司的TPM峰值会达到630K。这些场景,豆包Pro如今都可以满足。


随着豆包AI生成视频的发布,字节最后补上了AI视频的一块拼图。这和昨夜OpenAI突然发布的高级语音功能一起,一起形成了一种明喻:在模型层,大厂们已经武装到牙齿,大的细分赛道都有相应的模型——留给创业者的空间,又要再一次打个问号。


字节和快手的漫长对垒


在AI赛场上,字节对于胜利的渴望已经溢于言表。


剪映及其旗下的AI视频产品“即梦”,就由前抖音集团CEO、现剪映业务负责人张楠亲自带队。而为了尽快让此次的两款新AI视频生成模型上线,字节也抽调了不少人做工程。


字节跳动的焦虑,来自短视频战场上的老对手:快手。


2024年6月,文生视频模型“可灵”,就突然空降快手剪辑产品“快影”。


在行业苦等“中国版Sora”出现的当下,可灵的表现是亮眼的。


“现在视频生成很难做长的原因,一是成本高,二是前后一致性太难保证。”一名AI从业者告诉36氪,“但是可灵能生成2分钟视频,比Sora(60秒)的天花板还高。”


更进一步,从镜头的连贯性和元素关系的逻辑性来看,不少业内人士都表示,可灵在中国类Sora产品中,效果是Top级别。


与彼时仍未开放的Sora,和小出圈的生数科技视频生成模型Vidu相比,快手对“老铁们”也可谓是慷慨和坦诚:立马开放公测,且免费。


与“众多工程师参与”的PixelDance和Seaweed不同,可灵团队的项目执行方式可谓是相当粗放和激进。


有媒体曾报道,可灵团队只有20余人,从立项到上线只花了3个月。可灵启动一个月后,就被上升为快手的战略级项目。快手高级副总裁、主站业务与社区科学线负责人盖坤常说的一句话是:公司的卡都给你们用,公司全力支持。


在豆包发布之前,可灵也提供截至9月19日,可灵已经迭代了9次,最新的1.5版本上线了Web端,有了更高清的画质、更符合物理规律的运动轨迹,支持更为复杂的镜头控制和可自定义的运动轨迹。


不少从业者对36氪判断,可灵的出圈,与快手丰富的视频数据积累密不可分。而能与之一战的,大概率只有拥有抖音的字节跳动。


然而在视频生成领域,字节对阵快手以来,碰到了罕见的败北。其实早在可灵发布前1个月,剪映就在AIGC产品“即梦”上线了AI视频生成功能。


但无论是关注度,还是用户口碑,即梦都不算一款成绩漂亮的产品。一名使用者评价:在效果一般的情况下,非会员生成视频超3秒竟然还要收费。



压力已经给到了字节。一位AI 3D领域生成的从业者就表示,AI视频生成公司给出的样例,一般都是尝试过输入多次Prompt,才得出来的Good Case(好样本)。等之后全量上线,才能真正看到豆包在实用场景下的表现。


“一些明显可以感知的指标在于,长镜头时长什么时候可以超过1分钟,多分镜切换后时空一致性能不能保持,以及随着分辨率加大时,生成时间会不会跟随分辨率指数增长。”他表示。


对于当下的抖音和剪映业务体量而言,AI视频的应用成本依旧是高昂的。


一个最直观的问题在于,对于剪映这样一个月活已经超过3亿,专注在视频剪辑场景的应用,如何要在降低AI应用成本的同时,维持产品和效果的高水平,将是更难的挑战。


先发优势在AI模型层依然重要。目前,可灵、Vidu已经先行占据了视频生成领域的用户心智,作为后入者的字节,不得不加快步伐。


漫长的战役才刚刚开始。


文章来源于“咏仪”,作者“邓咏仪 周鑫雨


AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
AI 3D建模

【开源免费】LGM是一个AI建模的项目,它可以将你上传的平面图片,变成一个3D的模型。

项目地址:https://github.com/3DTopia/LGM?tab=readme-ov-file

在线使用:https://replicate.com/camenduru/lgm

2
prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。

项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md

在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0