字节掉队AI时代？

10188点击 2024-03-13 15:04

能否造出中国版Sora？

字节掉队AI时代？

开年Sora的爆火，为全球科技大厂在AI领域的竞逐又投下一颗重磅炸弹。

相关话题的讨论范围早已突破科技圈。当“AI将重塑各行各业，并产生深远影响”成为一项共识，头部大厂正在竞速迈入AI时代。其中，也包括近年跻身全球一线的互联网“新贵”——字节跳动。

2月下旬，字节旗下视频剪辑工具CapCut（剪映海外版），正式开放AI生成视频功能公测。同时，有消息指剪映已在数月前组建封闭团队，秘密研发AI产品，而字节跳动还在秘密研发AI大模型领域的多个产品，涉及多模态数字人、 AI生图、AI生成视频等。

去年底以来，字节跳动的一系列人事和部门调整，已经显露出积极转向AI的战略迹象。

去年11月，字节调集内部资源，成立AI业务团队“Flow”；今年2月，字节核心高管——抖音集团CEO张楠离任，宣布将未来工作重心转向剪映CapCut，为产品创造AI领域的更多想象空间。

当AI技术快速迭代，以Sora为代表的各类大模型变得愈发成熟，对旧有内容生产体系和平台模式的改变，已经初见端倪。相比其他全球一线大厂，字节此前在AI领域的进展一直显得较为低调。

2024年，被不少业内人士视为AI产品的“爆发年”，而字节能否跟上AI时代的步伐，决定了将在其中扮演怎样的角色。

01. Sora爆火，剪映跟上

除了风靡全球的短视频平台TikTok，字节在海外市场的“明星产品”还有视频剪辑工具CapCut。

两者同为字节跳动旗下产品生态中的一环，用户可以使用TikTok账户登录CapCut，并将视频传至TikTok 和其他社交媒体平台上与朋友分享。这一互相关联的产品矩阵，为字节跳动带来了更多用户留存和实际收益。

字节掉队AI时代？

图源：Unsplash

去年4月，CapCut引入AI生成模版和特效后下载量激增，收入随之增长，成为2023年上半年全球最赚钱的视频剪辑应用。

Data.ai数据显示，截至去年8月，全球有4.9亿人通过苹果和安卓手机使用CapCut；另据Sensor Tower数据，2023年CapCut应用内购收入增长明显，首次突破1亿美元。

而Sora的诞生，象征着文生视频发展的新一项“里程碑”，也将对CapCut这类视频制作工具造成冲击。

Sora发布次日，美国电脑软件公司Adobe的股价即暴跌超7%；美国图片库、图片素材、图片音乐和编辑工具供应商Shutterstock跌超5%；此前几周才发布了“文生视频”工具Lumiere的谷歌母公司股价下挫1.58%……

实际上，在OpenAI正式发布Sora以前，字节跳动就曾推出文生视频模型Boximator和MagicVideo-V2，只是与Sora差距太大，不具备“可比性”。

字节跳动曾在回应媒体时表示，Boximator是视频生成领域控制对象运动的技术方法研究项目，还无法作为完善的产品落地，距离国外领先的视频生成模型在画面质量、保真率、视频时长等方面还有很大差距。

即便如此，当“谁将成为中国版Sora”成为行业和媒体热议的话题，剪映仍然成为其中一个强有力的竞争者。

而字节内部也在加大对剪映和AI领域结合的投入。今年2月，抖音集团CEO张楠在加入字节跳动10年后，宣布转战剪映。有接近剪映的人士向媒体透露，张楠将亲自带队寻求在AI辅助创作上的突破。

张楠本人也在朋友圈发文表示，“很期待和剪映的小伙伴们一起造梦，与这个AI的时代一起成长，共同绘制出脑海中的奇幻世界。”

02. 字节AI，反应有点慢

事实上，相比其他大厂，字节跳动发力AI的时机已经略显迟缓。2023年春季，百度、阿里巴巴就已分别推出各自的大语言模型文心一言和通义千问，而字节到去年8月才推出了云雀大模型。

字节跳动CEO梁汝波曾在今年1月的年度全员会上表示，字节在AI领域的进展缓慢，直到2023年才开始认真考虑GPT技术，而许多表现出色的大模型创业公司早在2018年至2021年间就已经创立并开始研发产品。

字节掉队AI时代？

图源：字节跳动官网

有媒体在报道中引述一位接近字节跳动人士的消息指，去年一年，字节跳动创始人张一鸣将全部时间都花在了AI上。但在外界看来，字节系统性布局AI，不过数月时间。

去年11月底，字节进行了一系列业务调整，一方面大规模收缩游戏业务部门“朝夕光年”，一方面成立了新的AI创新业务团队“Flow”，并任命字节跳动技术副总裁洪定坤为技术负责人，字节大模型团队负责人朱文佳为业务带头人，加大对AI业务的投注。

此前，有“App工厂”之称的字节跳动，也曾尝试追赶AI热潮，将AI功能融入产品，并以此升级用户体验、巩固平台的流量优势。

例如，2022年，随着AI绘画爆火，抖音快速上线了AI绘画功能；去年11月，飞书发布了“飞书智能伙伴”等AI产品，在内容创作、内容总结、数据分析等多个场景中，借助AI实现工作提效。

飞书CEO谢欣曾在发布会上表示，未来AI的能力一定会变得非常强大，各行各业都会发生巨大变革。但目前AI能力还很有限，不一定能让每一项任务都如期所愿，“当下更重要的是先让自己做到AI Ready”。

而Flow的成立，则标志着字节针对AI领域的布局开始更趋系统性。据称，在Flow成立时，字节内部开放了大量活水岗位，从飞书、抖音等多个业务条线抽调相关人才，计划未来着力孵化多个AI相关的创新产品。

去年下半年至今，字节先后推出了多模态大模型 BuboGPT、抖音云雀大模型、文生图开放模型SDXL-Lightning，并上线了多款基于AI技术的产品，包括AI对话类产品豆包、Cici，剧情创作平台BagelBell，电商内容创作应用即创，AI聊天机器人构建平台Coze/扣子等。

03. AI产品爆发年，字节加速追赶

AI引领的科技变革一日千里。对字节来说，一方面需要面对自身增速放缓的压力，另一方面必须紧跟时代，主动创造更多机会，才能保持竞争地位，因此绝不能在AI时代掉队。

在社交媒体领域，字节跳动需要应对来自Meta、谷歌、Snap等对手的激烈竞争。去年以来，随着ChatGPT带起新一波AI热潮，全球科技巨头都在AI和大语言模型等方面展开重点布局，加大资金投入、大举招聘人才，并高调宣布在AI方面的最新进展。

字节掉队AI时代？

图源：Unsplash

国内互联网大厂们也在不遗余力地跟上这波AI热潮。从腾讯、阿里、百度、到华为、华为等，纷纷加码投入AI赛道。

2023年3月，360GPT亮相、华为盘古迅速跟进、百度发布文心一言。4月，阿里通义千问接入产品；5月，腾讯混元加入AI竞逐。下半年国内互联网AI队形初成，里面站满了腾讯、阿里、百度、华为、美团、华为等中国大厂。其中，腾讯投资了智谱AI、百川智能、MiniMax、深言科技、燧原科技5家公司；阿里投资了智谱AI、百川智能2家公司，且自己孵化有通义千问；百度投资了西湖心辰，且自己孵化有文心一言；美团投资了智谱AI；另外还有华为盘古、中科院紫东太初、商汤日日新、零一万物等都成为这一领域的主要玩家。

而2024年Sora的横空出世，或许更让字节跳动面临“追赶进度条”的紧迫性。当AI产出的视频内容变得更精确并贴近真实生活，过程也更为高效、便捷，旧有的短视频内容生产模式必将受到冲击，而与此有关的工具、创作者和平台，都将直面新一轮的变革。

事实上，在一些行业，这样的改变已经开始发生。

兼职插画师陆含告诉霞光社，AI对自由职业画师的冲击已经显现。“很多画师平时都会在社交媒体平台大量更新热门内容，来维持更新频率和热度，他们的成长路径更接网红，而平台流量直接和稿费收入有一定关联。”陆含说。

而对不少自由职业画师来说，根据已有作品中人气较高的角色进行插图的二次创作，是一种非常有效的涨粉方式。这样的二创作品，被称为“同人”图，也是AI软件最擅长处理的一类内容。

“跟AI相比，靠人工‘二创’来引流提升粉丝量的效率低得多，圈内不少画师都受到了不小的冲击。毕竟大多数粉丝其实不在乎图是AI画的或是画师手绘，只要好看就行。”陆含说，目前一些游戏公司也已开始倾向使用AI绘图和制作，这意味着对人的工作的需求正在减少，如果公司内部员工可以消化这些工作量，就不再需要外包，直接影响自由画师的收入。

Sora的面世，再一次刷新人们对AIGC发展速度的认知，关于AI对内容制作行业影响的讨论也又一次甚嚣尘上。

短剧导演林平告诉霞光社，一些编剧已经开始尝试使用AI创作剧本，一些制片人也认为到了需要学习AI的时候，“因为这将是未来的趋势”。

字节掉队AI时代？

图源：Unsplash

林平说，在短剧的拍摄成本构成中，演员、摄像等人力支出，以及置景和场景费等，都占据了支出里的大头。“以我们拍摄的短剧来说，现在一个便宜的特效可能10万，贵的有几十万，大的特效可能需要几十个人来制作。但如果能使用AI制作，不论是资金还是人力投入方面，都会大幅减少。”

“如果AI技术发展成熟，以后拍片子，特效部分可能很大程度可以交给AI生成了，拍摄的时候只要用个绿幕就行。甚至可能不需要演员、摄像或美术，只需要由会操作AI的人根据剧本把它做出来。”林平说。

虽然AI制作内容的进步速度让不少人吃惊，但AI距离真正取代人类内容生产者，还有不少差距。

一名从事神经网络研究的人士向霞光社表示，目前的AI水平还很初级，更像是一个可以快速搜索、查询、统计和筛选的工具。“我认为都是数学，距离强AI还很远。我们可以看到不管是AI生成的图片还是视频，乍一看效果还行，但很多细节是逻辑不通的。例如文字经常是乱码，人和动物的手部计算也很糟糕。”

林平也表示，AI制图对游戏设计等行业的冲击已经显现，但AI生成视频暂时还未波及到短剧制作行业。“Sora才推出不久，而且AI技术还不成熟。作为内容创作者，不管AI怎么发展，很多工作还是需要由人来完成。例如影片剪辑，其中涉及到的不仅是技术操作和场景呈现，还有许多需要依靠人的经验，以及感知和情绪来传递给观众的内容。”

相比早早入局的国际科技巨头，中国人工智能在技术发展层面上仍然存在着相当差距，加之受限于芯片管制算力吃紧，以及大模型训练所需投入过于高昂等因素，也使得中国企业的追赶之路任重而道远。

字节掉队AI时代？

图源：Unsplash

但伴随全球AI竞争升温，AI应用生态也成为不少大厂展开角逐的重要阵地，而这或许是中国企业可以努力加速赶上的领域之一。

中国有着巨量的市场规模和丰富的数据量，有利于落地多元化的AI应用场景，不少国内大厂也已聚焦AI应用，并将2024年视为AI产品的爆发年。

今年年初，360集团创始人周鸿祎曾在一场公开活动中表示，大模型已经开启新一轮工业革命，不发展是最大的不安全，并预测2024年将成为大模型应用场景之年，出现“杀手级应用”。

百度创始人李彦宏也曾表示，人类进入AI时代的标志，不是产生很多的大模型，而是产生很多AI原生应用。

在这样的背景下，“APP工厂”字节大步迈入AI时代，将交出怎样的一份答卷，值得期待。

文章来自于微信公众号“霞光社”（ID：Globalinsights），作者 “麻吉”

字节掉队AI时代？

关键词: AI视频 , 剪映AI , 字节AI

AITNT资源拓展

根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考

AI工作流

【开源免费】字节工作流产品扣子两大核心业务：Coze Studio（扣子开发平台）和 Coze Loop（扣子罗盘）全面开源，而且采用的是 Apache 2.0 许可证，支持商用！
项目地址：https://github.com/coze-dev/coze-studio

【开源免费】n8n是一个可以自定义工作流的AI项目，它提供了200个工作节点来帮助用户实现工作流的编排。
项目地址：https://github.com/n8n-io/n8n
在线使用：https://n8n.io/（付费）

【开源免费】DB-GPT是一个AI原生数据应用开发框架，它提供开发多模型管理（SMMF）、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL（智能体工作流编排）等多种技术能力，让围绕数据库构建大模型应用更简单、更方便。
项目地址：https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file


【开源免费】VectorVein是一个不需要任何编程基础，任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤，并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。
项目地址：https://github.com/AndersonBY/vector-vein?tab=readme-ov-file
在线使用：https://vectorvein.ai/（付费）

数字人

【开源免费】Fay开源数字人框架是一个AI数字人项目，该项目可以帮你实现“线上线下的数字人销售员”，
“一个人机交互的数字人助理”或者是一个一个可以自主决策、主动联系管理员的智能体数字人。
项目地址：https://github.com/xszyou/Fay

逆向大模型

【开源免费】kimi-free-api是一个提供长文本大模型逆向API的开渔免费技术。它支持高速流式输出、智能体对话、联网搜索、长文档解读、图像OCR、多轮对话，零配置部署，多路token支持，自动清理会话痕迹等原大模型支持的相关功能。
项目地址：https://github.com/LLM-Red-Team/kimi-free-api?tab=readme-ov-file

无人直播

【开源免费】VideoChat是一个开源数字人实时对话，该项目支持支持语音输入和实时对话，数字人形象可自定义等功能，首次对话延迟低至3s。
项目地址：https://github.com/Henry-23/VideoChat
在线体验：https://www.modelscope.cn/studios/AI-ModelScope/video_chat

【开源免费】Streamer-Sales 销冠是一个AI直播卖货大模型。该模型具备AI生成直播文案，生成数字人形象进行直播，并通过RAG技术对现有数据进行寻找后实时回答用户问题等AI直播卖货的所有功能。
项目地址：https://github.com/PeterH0323/Streamer-Sales