能否造出中国版Sora?
开年Sora的爆火,为全球科技大厂在AI领域的竞逐又投下一颗重磅炸弹。
相关话题的讨论范围早已突破科技圈。当“AI将重塑各行各业,并产生深远影响”成为一项共识,头部大厂正在竞速迈入AI时代。其中,也包括近年跻身全球一线的互联网“新贵”——字节跳动。
2月下旬,字节旗下视频剪辑工具CapCut(剪映海外版),正式开放AI生成视频功能公测。同时,有消息指剪映已在数月前组建封闭团队,秘密研发AI产品,而字节跳动还在秘密研发AI大模型领域的多个产品,涉及多模态数字人、 AI生图、AI生成视频等。
去年底以来,字节跳动的一系列人事和部门调整,已经显露出积极转向AI的战略迹象。
去年11月,字节调集内部资源,成立AI业务团队“Flow”;今年2月,字节核心高管——抖音集团CEO张楠离任,宣布将未来工作重心转向剪映CapCut,为产品创造AI领域的更多想象空间。
当AI技术快速迭代,以Sora为代表的各类大模型变得愈发成熟,对旧有内容生产体系和平台模式的改变,已经初见端倪。相比其他全球一线大厂,字节此前在AI领域的进展一直显得较为低调。
2024年,被不少业内人士视为AI产品的“爆发年”,而字节能否跟上AI时代的步伐,决定了将在其中扮演怎样的角色。
除了风靡全球的短视频平台TikTok,字节在海外市场的“明星产品”还有视频剪辑工具CapCut。
两者同为字节跳动旗下产品生态中的一环,用户可以使用TikTok账户登录CapCut,并将视频传至TikTok 和其他社交媒体平台上与朋友分享。这一互相关联的产品矩阵,为字节跳动带来了更多用户留存和实际收益。
图源:Unsplash
去年4月,CapCut引入AI生成模版和特效后下载量激增,收入随之增长,成为2023年上半年全球最赚钱的视频剪辑应用。
Data.ai数据显示,截至去年8月,全球有4.9亿人通过苹果和安卓手机使用CapCut;另据Sensor Tower数据,2023年CapCut应用内购收入增长明显,首次突破1亿美元。
而Sora的诞生,象征着文生视频发展的新一项“里程碑”,也将对CapCut这类视频制作工具造成冲击。
Sora发布次日,美国电脑软件公司Adobe的股价即暴跌超7%;美国图片库、图片素材、图片音乐和编辑工具供应商Shutterstock跌超5%;此前几周才发布了“文生视频”工具Lumiere的谷歌母公司股价下挫1.58%……
实际上,在OpenAI正式发布Sora以前,字节跳动就曾推出文生视频模型Boximator和MagicVideo-V2,只是与Sora差距太大,不具备“可比性”。
字节跳动曾在回应媒体时表示,Boximator是视频生成领域控制对象运动的技术方法研究项目,还无法作为完善的产品落地,距离国外领先的视频生成模型在画面质量、保真率、视频时长等方面还有很大差距。
即便如此,当“谁将成为中国版Sora”成为行业和媒体热议的话题,剪映仍然成为其中一个强有力的竞争者。
而字节内部也在加大对剪映和AI领域结合的投入。今年2月,抖音集团CEO张楠在加入字节跳动10年后,宣布转战剪映。有接近剪映的人士向媒体透露,张楠将亲自带队寻求在AI辅助创作上的突破。
张楠本人也在朋友圈发文表示,“很期待和剪映的小伙伴们一起造梦,与这个AI的时代一起成长,共同绘制出脑海中的奇幻世界。”
事实上,相比其他大厂,字节跳动发力AI的时机已经略显迟缓。2023年春季,百度、阿里巴巴就已分别推出各自的大语言模型文心一言和通义千问,而字节到去年8月才推出了云雀大模型。
字节跳动CEO梁汝波曾在今年1月的年度全员会上表示,字节在AI领域的进展缓慢,直到2023年才开始认真考虑GPT技术,而许多表现出色的大模型创业公司早在2018年至2021年间就已经创立并开始研发产品。
图源:字节跳动官网
有媒体在报道中引述一位接近字节跳动人士的消息指,去年一年,字节跳动创始人张一鸣将全部时间都花在了AI上。但在外界看来,字节系统性布局AI,不过数月时间。
去年11月底,字节进行了一系列业务调整,一方面大规模收缩游戏业务部门“朝夕光年”,一方面成立了新的AI创新业务团队“Flow”,并任命字节跳动技术副总裁洪定坤为技术负责人,字节大模型团队负责人朱文佳为业务带头人,加大对AI业务的投注。
此前,有“App工厂”之称的字节跳动,也曾尝试追赶AI热潮,将AI功能融入产品,并以此升级用户体验、巩固平台的流量优势。
例如,2022年,随着AI绘画爆火,抖音快速上线了AI绘画功能;去年11月,飞书发布了“飞书智能伙伴”等AI产品,在内容创作、内容总结、数据分析等多个场景中,借助AI实现工作提效。
飞书CEO谢欣曾在发布会上表示,未来AI的能力一定会变得非常强大,各行各业都会发生巨大变革。但目前AI能力还很有限,不一定能让每一项任务都如期所愿,“当下更重要的是先让自己做到AI Ready”。
而Flow的成立,则标志着字节针对AI领域的布局开始更趋系统性。据称,在Flow成立时,字节内部开放了大量活水岗位,从飞书、抖音等多个业务条线抽调相关人才,计划未来着力孵化多个AI相关的创新产品。
去年下半年至今,字节先后推出了多模态大模型 BuboGPT、抖音云雀大模型、文生图开放模型SDXL-Lightning,并上线了多款基于AI技术的产品,包括AI对话类产品豆包、Cici,剧情创作平台BagelBell,电商内容创作应用即创,AI聊天机器人构建平台Coze/扣子等。
AI引领的科技变革一日千里。对字节来说,一方面需要面对自身增速放缓的压力,另一方面必须紧跟时代,主动创造更多机会,才能保持竞争地位,因此绝不能在AI时代掉队。
在社交媒体领域,字节跳动需要应对来自Meta、谷歌、Snap等对手的激烈竞争。去年以来,随着ChatGPT带起新一波AI热潮,全球科技巨头都在AI和大语言模型等方面展开重点布局,加大资金投入、大举招聘人才,并高调宣布在AI方面的最新进展。
图源:Unsplash
国内互联网大厂们也在不遗余力地跟上这波AI热潮。从腾讯、阿里、百度、到华为、华为等,纷纷加码投入AI赛道。
2023年3月,360GPT亮相、华为盘古迅速跟进、百度发布文心一言。4月,阿里通义千问接入产品;5月,腾讯混元加入AI竞逐。下半年国内互联网AI队形初成,里面站满了腾讯、阿里、百度、华为、美团、华为等中国大厂。其中,腾讯投资了智谱AI、百川智能、MiniMax、深言科技、燧原科技5家公司;阿里投资了智谱AI、百川智能2家公司,且自己孵化有通义千问;百度投资了西湖心辰,且自己孵化有文心一言;美团投资了智谱AI;另外还有华为盘古、中科院紫东太初、商汤日日新、零一万物等都成为这一领域的主要玩家。
而2024年Sora的横空出世,或许更让字节跳动面临“追赶进度条”的紧迫性。当AI产出的视频内容变得更精确并贴近真实生活,过程也更为高效、便捷,旧有的短视频内容生产模式必将受到冲击,而与此有关的工具、创作者和平台,都将直面新一轮的变革。
事实上,在一些行业,这样的改变已经开始发生。
兼职插画师陆含告诉霞光社,AI对自由职业画师的冲击已经显现。“很多画师平时都会在社交媒体平台大量更新热门内容,来维持更新频率和热度,他们的成长路径更接网红,而平台流量直接和稿费收入有一定关联。”陆含说。
而对不少自由职业画师来说,根据已有作品中人气较高的角色进行插图的二次创作,是一种非常有效的涨粉方式。这样的二创作品,被称为“同人”图,也是AI软件最擅长处理的一类内容。
“跟AI相比,靠人工‘二创’来引流提升粉丝量的效率低得多,圈内不少画师都受到了不小的冲击。毕竟大多数粉丝其实不在乎图是AI画的或是画师手绘,只要好看就行。”陆含说,目前一些游戏公司也已开始倾向使用AI绘图和制作,这意味着对人的工作的需求正在减少,如果公司内部员工可以消化这些工作量,就不再需要外包,直接影响自由画师的收入。
Sora的面世,再一次刷新人们对AIGC发展速度的认知,关于AI对内容制作行业影响的讨论也又一次甚嚣尘上。
短剧导演林平告诉霞光社,一些编剧已经开始尝试使用AI创作剧本,一些制片人也认为到了需要学习AI的时候,“因为这将是未来的趋势”。
图源:Unsplash
林平说,在短剧的拍摄成本构成中,演员、摄像等人力支出,以及置景和场景费等,都占据了支出里的大头。“以我们拍摄的短剧来说,现在一个便宜的特效可能10万,贵的有几十万,大的特效可能需要几十个人来制作。但如果能使用AI制作,不论是资金还是人力投入方面,都会大幅减少。”
“如果AI技术发展成熟,以后拍片子,特效部分可能很大程度可以交给AI生成了,拍摄的时候只要用个绿幕就行。甚至可能不需要演员、摄像或美术,只需要由会操作AI的人根据剧本把它做出来。”林平说。
虽然AI制作内容的进步速度让不少人吃惊,但AI距离真正取代人类内容生产者,还有不少差距。
一名从事神经网络研究的人士向霞光社表示,目前的AI水平还很初级,更像是一个可以快速搜索、查询、统计和筛选的工具。“我认为都是数学,距离强AI还很远。我们可以看到不管是AI生成的图片还是视频,乍一看效果还行,但很多细节是逻辑不通的。例如文字经常是乱码,人和动物的手部计算也很糟糕。”
林平也表示,AI制图对游戏设计等行业的冲击已经显现,但AI生成视频暂时还未波及到短剧制作行业。“Sora才推出不久,而且AI技术还不成熟。作为内容创作者,不管AI怎么发展,很多工作还是需要由人来完成。例如影片剪辑,其中涉及到的不仅是技术操作和场景呈现,还有许多需要依靠人的经验,以及感知和情绪来传递给观众的内容。”
相比早早入局的国际科技巨头,中国人工智能在技术发展层面上仍然存在着相当差距,加之受限于芯片管制算力吃紧,以及大模型训练所需投入过于高昂等因素,也使得中国企业的追赶之路任重而道远。
图源:Unsplash
但伴随全球AI竞争升温,AI应用生态也成为不少大厂展开角逐的重要阵地,而这或许是中国企业可以努力加速赶上的领域之一。
中国有着巨量的市场规模和丰富的数据量,有利于落地多元化的AI应用场景,不少国内大厂也已聚焦AI应用,并将2024年视为AI产品的爆发年。
今年年初,360集团创始人周鸿祎曾在一场公开活动中表示,大模型已经开启新一轮工业革命,不发展是最大的不安全,并预测2024年将成为大模型应用场景之年,出现“杀手级应用”。
百度创始人李彦宏也曾表示,人类进入AI时代的标志,不是产生很多的大模型,而是产生很多AI原生应用。
在这样的背景下,“APP工厂”字节大步迈入AI时代,将交出怎样的一份答卷,值得期待。
文章来自于微信公众号“霞光社”(ID:Globalinsights),作者 “麻吉”
【开源免费】n8n是一个可以自定义工作流的AI项目,它提供了200个工作节点来帮助用户实现工作流的编排。
项目地址:https://github.com/n8n-io/n8n
在线使用:https://n8n.io/(付费)
【开源免费】DB-GPT是一个AI原生数据应用开发框架,它提供开发多模型管理(SMMF)、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL(智能体工作流编排)等多种技术能力,让围绕数据库构建大模型应用更简单、更方便。
项目地址:https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file
【开源免费】VectorVein是一个不需要任何编程基础,任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤,并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。
项目地址:https://github.com/AndersonBY/vector-vein?tab=readme-ov-file
在线使用:https://vectorvein.ai/(付费)
【开源免费】Fay开源数字人框架是一个AI数字人项目,该项目可以帮你实现“线上线下的数字人销售员”,
“一个人机交互的数字人助理”或者是一个一个可以自主决策、主动联系管理员的智能体数字人。
项目地址:https://github.com/xszyou/Fay
【开源免费】kimi-free-api是一个提供长文本大模型逆向API的开渔免费技术。它支持高速流式输出、智能体对话、联网搜索、长文档解读、图像OCR、多轮对话,零配置部署,多路token支持,自动清理会话痕迹等原大模型支持的相关功能。
项目地址:https://github.com/LLM-Red-Team/kimi-free-api?tab=readme-ov-file
【开源免费】VideoChat是一个开源数字人实时对话,该项目支持支持语音输入和实时对话,数字人形象可自定义等功能,首次对话延迟低至3s。
项目地址:https://github.com/Henry-23/VideoChat
在线体验:https://www.modelscope.cn/studios/AI-ModelScope/video_chat
【开源免费】Streamer-Sales 销冠是一个AI直播卖货大模型。该模型具备AI生成直播文案,生成数字人形象进行直播,并通过RAG技术对现有数据进行寻找后实时回答用户问题等AI直播卖货的所有功能。
项目地址:https://github.com/PeterH0323/Streamer-Sales