ChatGPT 人工智能 GPT4 伦理 生成式 医疗 监管 安全 机器学习 深度学习 神经网络 计算机视觉 强化学习 模型 算法 应用 开发 研究 工具 平台 框架 数据集 训练 部署 安全 合规 培训 投资 LLM,llm AI,ai,Ai 大模型 大语言模型 制图 生图 绘图 文生图 文生视频 生成式AI AGI 世界模型 sora chatGPT,chatgpt,ChatGpt claude openai Llama deepseek midjourney 红熊猫模型 Red panda,panda Stable Diffusion,StableDiffusion,stable DALL- E 3 DALL E DALL Flux,flux 扩散模型 混元大模型 文心一言 通义千问 可灵 Pika PixelDance 豆包 月之暗面 零一万物 阶跃星辰 搜索增强 MiniMax Talkie Agent prompt fastai LangChain TTS 微调 提示词 知识库 智能体
# 热门搜索 #
搜索
字节掉队AI时代?
7239点击    2024-03-13 15:04

能否造出中国版Sora?



开年Sora的爆火,为全球科技大厂在AI领域的竞逐又投下一颗重磅炸弹。 


相关话题的讨论范围早已突破科技圈。当“AI将重塑各行各业,并产生深远影响”成为一项共识,头部大厂正在竞速迈入AI时代。其中,也包括近年跻身全球一线的互联网“新贵”——字节跳动。 


2月下旬,字节旗下视频剪辑工具CapCut(剪映海外版),正式开放AI生成视频功能公测。同时,有消息指剪映已在数月前组建封闭团队,秘密研发AI产品,而字节跳动还在秘密研发AI大模型领域的多个产品,涉及多模态数字人、 AI生图、AI生成视频等。 


去年底以来,字节跳动的一系列人事和部门调整,已经显露出积极转向AI的战略迹象。 


去年11月,字节调集内部资源,成立AI业务团队“Flow”;今年2月,字节核心高管——抖音集团CEO张楠离任,宣布将未来工作重心转向剪映CapCut,为产品创造AI领域的更多想象空间。 


当AI技术快速迭代,以Sora为代表的各类大模型变得愈发成熟,对旧有内容生产体系和平台模式的改变,已经初见端倪。相比其他全球一线大厂,字节此前在AI领域的进展一直显得较为低调。 


2024年,被不少业内人士视为AI产品的“爆发年”,而字节能否跟上AI时代的步伐,决定了将在其中扮演怎样的角色。 


01. Sora爆火,剪映跟上


除了风靡全球的短视频平台TikTok,字节在海外市场的“明星产品”还有视频剪辑工具CapCut。 


两者同为字节跳动旗下产品生态中的一环,用户可以使用TikTok账户登录CapCut,并将视频传至TikTok 和其他社交媒体平台上与朋友分享。这一互相关联的产品矩阵,为字节跳动带来了更多用户留存和实际收益。 


图源:Unsplash 


去年4月,CapCut引入AI生成模版和特效后下载量激增,收入随之增长,成为2023年上半年全球最赚钱的视频剪辑应用。 


Data.ai数据显示,截至去年8月,全球有4.9亿人通过苹果和安卓手机使用CapCut;另据Sensor Tower数据,2023年CapCut应用内购收入增长明显,首次突破1亿美元。 


而Sora的诞生,象征着文生视频发展的新一项“里程碑”,也将对CapCut这类视频制作工具造成冲击。 


Sora发布次日,美国电脑软件公司Adobe的股价即暴跌超7%;美国图片库、图片素材、图片音乐和编辑工具供应商Shutterstock跌超5%;此前几周才发布了“文生视频”工具Lumiere的谷歌母公司股价下挫1.58%…… 


实际上,在OpenAI正式发布Sora以前,字节跳动就曾推出文生视频模型Boximator和MagicVideo-V2,只是与Sora差距太大,不具备“可比性”。 


字节跳动曾在回应媒体时表示,Boximator是视频生成领域控制对象运动的技术方法研究项目,还无法作为完善的产品落地,距离国外领先的视频生成模型在画面质量、保真率、视频时长等方面还有很大差距。 


即便如此,当“谁将成为中国版Sora”成为行业和媒体热议的话题,剪映仍然成为其中一个强有力的竞争者。 


而字节内部也在加大对剪映和AI领域结合的投入。今年2月,抖音集团CEO张楠在加入字节跳动10年后,宣布转战剪映。有接近剪映的人士向媒体透露,张楠将亲自带队寻求在AI辅助创作上的突破。 


张楠本人也在朋友圈发文表示,“很期待和剪映的小伙伴们一起造梦,与这个AI的时代一起成长,共同绘制出脑海中的奇幻世界。” 


02. 字节AI,反应有点慢


事实上,相比其他大厂,字节跳动发力AI的时机已经略显迟缓。2023年春季,百度、阿里巴巴就已分别推出各自的大语言模型文心一言和通义千问,而字节到去年8月才推出了云雀大模型。 


字节跳动CEO梁汝波曾在今年1月的年度全员会上表示,字节在AI领域的进展缓慢,直到2023年才开始认真考虑GPT技术,而许多表现出色的大模型创业公司早在2018年至2021年间就已经创立并开始研发产品。 


图源:字节跳动官网 


有媒体在报道中引述一位接近字节跳动人士的消息指,去年一年,字节跳动创始人张一鸣将全部时间都花在了AI上。但在外界看来,字节系统性布局AI,不过数月时间。


去年11月底,字节进行了一系列业务调整,一方面大规模收缩游戏业务部门“朝夕光年”,一方面成立了新的AI创新业务团队“Flow”,并任命字节跳动技术副总裁洪定坤为技术负责人,字节大模型团队负责人朱文佳为业务带头人,加大对AI业务的投注。 


此前,有“App工厂”之称的字节跳动,也曾尝试追赶AI热潮,将AI功能融入产品,并以此升级用户体验、巩固平台的流量优势。 


例如,2022年,随着AI绘画爆火,抖音快速上线了AI绘画功能;去年11月,飞书发布了“飞书智能伙伴”等AI产品,在内容创作、内容总结、数据分析等多个场景中,借助AI实现工作提效。 


飞书CEO谢欣曾在发布会上表示,未来AI的能力一定会变得非常强大,各行各业都会发生巨大变革。但目前AI能力还很有限,不一定能让每一项任务都如期所愿,“当下更重要的是先让自己做到AI Ready”。 


而Flow的成立,则标志着字节针对AI领域的布局开始更趋系统性。据称,在Flow成立时,字节内部开放了大量活水岗位,从飞书、抖音等多个业务条线抽调相关人才,计划未来着力孵化多个AI相关的创新产品。 


去年下半年至今,字节先后推出了多模态大模型 BuboGPT、抖音云雀大模型、文生图开放模型SDXL-Lightning,并上线了多款基于AI技术的产品,包括AI对话类产品豆包、Cici,剧情创作平台BagelBell,电商内容创作应用即创,AI聊天机器人构建平台Coze/扣子等。 


03. AI产品爆发年,字节加速追赶


AI引领的科技变革一日千里。对字节来说,一方面需要面对自身增速放缓的压力,另一方面必须紧跟时代,主动创造更多机会,才能保持竞争地位,因此绝不能在AI时代掉队。 


在社交媒体领域,字节跳动需要应对来自Meta、谷歌、Snap等对手的激烈竞争。去年以来,随着ChatGPT带起新一波AI热潮,全球科技巨头都在AI和大语言模型等方面展开重点布局,加大资金投入、大举招聘人才,并高调宣布在AI方面的最新进展。 


图源:Unsplash 


国内互联网大厂们也在不遗余力地跟上这波AI热潮。从腾讯、阿里、百度、到华为、华为等,纷纷加码投入AI赛道。


2023年3月,360GPT亮相、华为盘古迅速跟进、百度发布文心一言。4月,阿里通义千问接入产品;5月,腾讯混元加入AI竞逐。下半年国内互联网AI队形初成,里面站满了腾讯、阿里、百度、华为、美团、华为等中国大厂。其中,腾讯投资了智谱AI、百川智能、MiniMax、深言科技、燧原科技5家公司;阿里投资了智谱AI、百川智能2家公司,且自己孵化有通义千问;百度投资了西湖心辰,且自己孵化有文心一言;美团投资了智谱AI;另外还有华为盘古、中科院紫东太初、商汤日日新、零一万物等都成为这一领域的主要玩家。 


而2024年Sora的横空出世,或许更让字节跳动面临“追赶进度条”的紧迫性。当AI产出的视频内容变得更精确并贴近真实生活,过程也更为高效、便捷,旧有的短视频内容生产模式必将受到冲击,而与此有关的工具、创作者和平台,都将直面新一轮的变革。 


事实上,在一些行业,这样的改变已经开始发生。 


兼职插画师陆含告诉霞光社,AI对自由职业画师的冲击已经显现。“很多画师平时都会在社交媒体平台大量更新热门内容,来维持更新频率和热度,他们的成长路径更接网红,而平台流量直接和稿费收入有一定关联。”陆含说。 


而对不少自由职业画师来说,根据已有作品中人气较高的角色进行插图的二次创作,是一种非常有效的涨粉方式。这样的二创作品,被称为“同人”图,也是AI软件最擅长处理的一类内容。 


“跟AI相比,靠人工‘二创’来引流提升粉丝量的效率低得多,圈内不少画师都受到了不小的冲击。毕竟大多数粉丝其实不在乎图是AI画的或是画师手绘,只要好看就行。”陆含说,目前一些游戏公司也已开始倾向使用AI绘图和制作,这意味着对人的工作的需求正在减少,如果公司内部员工可以消化这些工作量,就不再需要外包,直接影响自由画师的收入。 


Sora的面世,再一次刷新人们对AIGC发展速度的认知,关于AI对内容制作行业影响的讨论也又一次甚嚣尘上。 


短剧导演林平告诉霞光社,一些编剧已经开始尝试使用AI创作剧本,一些制片人也认为到了需要学习AI的时候,“因为这将是未来的趋势”。 


图源:Unsplash 


林平说,在短剧的拍摄成本构成中,演员、摄像等人力支出,以及置景和场景费等,都占据了支出里的大头。“以我们拍摄的短剧来说,现在一个便宜的特效可能10万,贵的有几十万,大的特效可能需要几十个人来制作。但如果能使用AI制作,不论是资金还是人力投入方面,都会大幅减少。”


“如果AI技术发展成熟,以后拍片子,特效部分可能很大程度可以交给AI生成了,拍摄的时候只要用个绿幕就行。甚至可能不需要演员、摄像或美术,只需要由会操作AI的人根据剧本把它做出来。”林平说。 


虽然AI制作内容的进步速度让不少人吃惊,但AI距离真正取代人类内容生产者,还有不少差距。 


一名从事神经网络研究的人士向霞光社表示,目前的AI水平还很初级,更像是一个可以快速搜索、查询、统计和筛选的工具。“我认为都是数学,距离强AI还很远。我们可以看到不管是AI生成的图片还是视频,乍一看效果还行,但很多细节是逻辑不通的。例如文字经常是乱码,人和动物的手部计算也很糟糕。” 


林平也表示,AI制图对游戏设计等行业的冲击已经显现,但AI生成视频暂时还未波及到短剧制作行业。“Sora才推出不久,而且AI技术还不成熟。作为内容创作者,不管AI怎么发展,很多工作还是需要由人来完成。例如影片剪辑,其中涉及到的不仅是技术操作和场景呈现,还有许多需要依靠人的经验,以及感知和情绪来传递给观众的内容。” 


相比早早入局的国际科技巨头,中国人工智能在技术发展层面上仍然存在着相当差距,加之受限于芯片管制算力吃紧,以及大模型训练所需投入过于高昂等因素,也使得中国企业的追赶之路任重而道远。 


图源:Unsplash 


但伴随全球AI竞争升温,AI应用生态也成为不少大厂展开角逐的重要阵地,而这或许是中国企业可以努力加速赶上的领域之一。 


中国有着巨量的市场规模和丰富的数据量,有利于落地多元化的AI应用场景,不少国内大厂也已聚焦AI应用,并将2024年视为AI产品的爆发年。 


今年年初,360集团创始人周鸿祎曾在一场公开活动中表示,大模型已经开启新一轮工业革命,不发展是最大的不安全,并预测2024年将成为大模型应用场景之年,出现“杀手级应用”。 


百度创始人李彦宏也曾表示,人类进入AI时代的标志,不是产生很多的大模型,而是产生很多AI原生应用。 


在这样的背景下,“APP工厂”字节大步迈入AI时代,将交出怎样的一份答卷,值得期待。 


文章来自于微信公众号“霞光社”(ID:Globalinsights),作者 “麻吉”


关键词: AI视频 , 剪映AI , 字节AI
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
AI工作流

【开源免费】n8n是一个可以自定义工作流的AI项目,它提供了200个工作节点来帮助用户实现工作流的编排。

项目地址:https://github.com/n8n-io/n8n

在线使用:https://n8n.io/(付费)


【开源免费】DB-GPT是一个AI原生数据应用开发框架,它提供开发多模型管理(SMMF)、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL(智能体工作流编排)等多种技术能力,让围绕数据库构建大模型应用更简单、更方便。

项目地址:https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file



【开源免费】VectorVein是一个不需要任何编程基础,任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤,并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。

项目地址:https://github.com/AndersonBY/vector-vein?tab=readme-ov-file

在线使用:https://vectorvein.ai/(付费)

2
数字人

【开源免费】Fay开源数字人框架是一个AI数字人项目,该项目可以帮你实现“线上线下的数字人销售员”,

“一个人机交互的数字人助理”或者是一个一个可以自主决策、主动联系管理员的智能体数字人。

项目地址:https://github.com/xszyou/Fay

3
逆向大模型

【开源免费】kimi-free-api是一个提供长文本大模型逆向API的开渔免费技术。它支持高速流式输出、智能体对话、联网搜索、长文档解读、图像OCR、多轮对话,零配置部署,多路token支持,自动清理会话痕迹等原大模型支持的相关功能。

项目地址:https://github.com/LLM-Red-Team/kimi-free-api?tab=readme-ov-file

4
无人直播

【开源免费】VideoChat是一个开源数字人实时对话,该项目支持支持语音输入和实时对话,数字人形象可自定义等功能,首次对话延迟低至3s。

项目地址:https://github.com/Henry-23/VideoChat

在线体验:https://www.modelscope.cn/studios/AI-ModelScope/video_chat


【开源免费】Streamer-Sales 销冠是一个AI直播卖货大模型。该模型具备AI生成直播文案,生成数字人形象进行直播,并通过RAG技术对现有数据进行寻找后实时回答用户问题等AI直播卖货的所有功能。

项目地址:https://github.com/PeterH0323/Streamer-Sales