ChatGPT 人工智能 GPT4 伦理 生成式 医疗 监管 安全 机器学习 深度学习 神经网络 计算机视觉 强化学习 模型 算法 应用 开发 研究 工具 平台 框架 数据集 训练 部署 安全 合规 培训 投资 LLM,llm AI,ai,Ai 大模型 大语言模型 制图 生图 绘图 文生图 文生视频 生成式AI AGI 世界模型 sora chatGPT,chatgpt,ChatGpt claude openai Llama deepseek midjourney 红熊猫模型 Red panda,panda Stable Diffusion,StableDiffusion,stable DALL- E 3 DALL E DALL Flux,flux 扩散模型 混元大模型 文心一言 通义千问 可灵 Pika PixelDance 豆包 月之暗面 零一万物 阶跃星辰 搜索增强 MiniMax Talkie Agent prompt fastai LangChain TTS 微调 提示词 知识库 智能体
# 热门搜索 #
搜索
字节大模型内部赛马,下一个爆款 or 烧钱深坑?
2979点击    2024-10-27 14:24

字节的AI爆款有戏吗?


今年最火的两款全球AI产品,当属视频生成大模型产品Sora和音乐生成大模型产品Suno。


今年4月,经Suno爆改的周杰伦金曲《以父之名》和《夜曲》直接封神,在音乐界掀起了一股不小的波澜。不少人认为,这两条赛道会催生出新的爆款产品,谁能够拿下其中一条赛道,谁就能成为AI行业的王者。


两款AI产品的火爆,迅速点燃了国内大厂对这两条赛道的争夺战。阿里发布了通义万相AI视频服务,字节跳动发布了“PixelDance”,快手发布了视频大模型产品“可灵”,QQ音乐、网易云音乐也发布了AI创作功能,而AI头部公司的Minimax、生数科技、智谱AI也纷纷跟进。


在这两条热门赛道中最不遗余力的当属字节。9月24日,火山引擎在深圳举办AI创新巡展上,发布了豆包视频生成-PixelDance、豆包视频生成-Seaweed两款大模型,意味着字节正式宣告进军AI视频生成赛道。


不仅如此,字节还在音乐生成赛道上,推出了Seed-Music音乐生成模型,并于今年7月推出了发布了全新版本的海绵音乐APP,主打“一键创作你的AI音乐”,这款产品也是字节AI音乐产品的代表作。


至此,字节完成了在AI视频和AI音乐这两条热门赛道上的全布局。火力全开之下的字节,能够得偿所愿吗?


字节AI赛道创业:试错、内部赛马并举


豆包视频生成大模型的发布,是字节在AI领域的一次重磅亮相。


据火山引擎介绍,豆包视频生成模型基于DiT架构,通过高效的DiT融合计算单元,让视频在大动态与运镜中自由切换,拥有变焦、环绕、平摇、缩放、目标跟随等多镜头语言能力。


而在此前视频生成模型大多只能完成简单指令,豆包视频生成模型则能实现自然连贯的多拍动作与多主体复杂交互。例如,后者可以让不同人物完成多个动作指令的互动,使人物样貌、服装细节甚至头饰,在不同运镜下也保持一致,接近实拍效果。


基于豆包视频生成大模型,字节内部也推出了相关的具有AI视频生产能力的产品,主要由两个业务团队在推进,一个是豆包,一个是剪映,可以看做是内部的一场赛马。


豆包对外的产品是豆包APP,剪映则是即梦AI APP,两者的底层技术都是使用的豆包视频生成大模型,即梦使用的是豆包视频生成大模型“PixelDance”。


两款产品虽然都有着视频生成能力,但即梦更具有代表性。


即梦的前身是Dreamina,是原字节跳动中国CEO、转岗至剪映的业务负责人张楠的创业项目。刚上线之时,这仅仅是一个文生图的创作产品。随后,Dreamina瞄上了Sora的潜力,内部基于PixelDance模型开始研发视频生成能力,今年2月,Dreamina的视频生成服务开启对外测试。


今年5月,Dreamina改名即梦,宣布其AI作图和AI视频生成功能全量上线,并在抖音内进行大量投放。张楠更是在朋友圈转发,称即梦刚刚上线,还有很多待优化的地方。



音乐生成方面,海绵音乐APP则是字节的代表,这款产品是字节在AI赛道上试错的一个典型案例。海绵音乐的前身是2022年2月的海绵乐队APP。Tech星球了解到,这是字节内部的一款创业项目,但这款产品诞生之初并不是奔着AI而去,而是服务于汽水音乐和抖音上对音乐编辑有所需求的用户。


到了2022年底,随着国内AI浪潮出现后,海绵乐队才开始转向AI领域,并加入AI作曲能力,但此时的创作能力很一般,“因为此时的字节,并没有成体系的音乐生成大模型,海绵乐队只能靠自己去摸索”,一位曾在海绵乐队工作的员工向Tech星球表示。


2023年6月推出了新版本,主打哼唱成曲和伴奏制作,虽然在AI能力上仍不出众,但对接下来的试错和更新提供了经验。随着豆包音乐生成模型的出现,才让海绵乐队有了一战之力,最终在今年7月,更名为海绵音乐,主攻AI音乐创作赛道。目前,已经开始在各渠道进行投放推广。


需要注意的是,字节的AI产品在这两条赛道上的发展并不是独立,而是相互竞争。豆包、即梦在近期也开始推出音乐生成服务,逐步渗透到AI音乐赛道,“竞争是无可避免的,谁都想成为爆款AI产品,谁都想成为或继续保持在内部的核心位置,这无疑需要AI产品更加具有综合体验”,即梦的一位运营告诉Tech星球。


左手视频,右手音乐


据七麦数据显示,字节视频生成APP即梦自今年8月上线以来,在iOS端的摄影与录像(免费)榜单的排名逐渐上升,两个月时间,已经稳定在前40的名次,安卓端,近30天日均下载量,为22978次。



借助抖音APP以及投放,即梦的视频生成服务逐渐成为不少抖音创作者的首选。但即梦并不满足于此,今年8月,即梦开始在AI短剧领域的创作探索。联合抖音、博纳影业AIGMS制作中心出品并制作《三星堆:未来启示录》。即梦还在抖音内发起了“即梦AI迷你剧场”的活动,支持AI短剧的创作。


截至9月,豆包大模型日均tokens使用量已经超过1.3万亿,相比5月首次发布时猛增十倍,其中不乏即梦所作出的贡献。


在商业模式上,即梦已推出会员体系,有79元单月、69元连续包月和659元包年的基础会员等不同订阅方式。具体来说,基础会员每月可使用505个积分生成约2020张图片或168个AI视频。


有分析人士认为,即梦目前的产品功能、商业模式聚焦于服务UGC(用户生成内容),与抖音的生态融合将是未来的发展重点。


相比于字节在视频生成方面取得的成绩,字节在音乐生成方面,目前仍然是不温不火。七麦数据显示,海绵音乐有着广告投放,但并没有在iOS端,取得排名,近30日日均下载量仅为15次。


音乐行业人士李磊认为,虽然AI音乐很火,但好听的AI歌曲创作多来自于专业人士,普通用户对于AI音乐生成工具的使用门槛和学习成本也有一定的要求,如果工具过于复杂或难以使用,就会影响用户的体验和接受度。而且,用户对AI音乐的接受度也需要时间来培养。


“字节在多个领域都有业务布局,在资源有限的情况下,公司需要在不同业务之间进行资源分配和权衡。AI音乐生成领域虽然具有很大的发展潜力,但在前期需要大量的研发投入和市场推广,相比于更加成熟的AI视频,公司肯定更愿意加大对这一块的力度投入”,一位汽水音乐的运营小可告诉Tech星球。


下一个AI爆款,还是烧钱深坑


不可否认,AIGC(人工智能生成内容)是一个巨大的市场,量子位智库预计,2024年我国AIGC应用市场规模达到200亿。2030年,我国AIGC应用将成为万亿规模市场,五年(2024-2028年)平均复合增长率超过30%。


目前,国内在视频生成模型方面,有优势的是快手和字节跳动,因为二者的业务离视频更近,能够待其视频生成足够优秀之后会快速完成拉新,并带动用户体验提升。


而背靠快手的视频生成AI产品可灵,也成为了字节在AI视频赛道上最有力的竞争者。


可灵的发展速度也很迅猛,今年8月的官方数据显示,可灵累计生成视频数量超过1600万,不到2个月,可灵AI已有超过360万用户,累计生成3700万个视频和超过一亿张图片。


近日,快手副总裁、大模型团队负责人张迪宣布,可灵AI将内测视频人脸模型功能。该功能基于创新的ID保持能力,支持用户自助训练人脸模型,完成训练后,可使用该模型进行5秒至10秒的文生视频。


此外,AI视频生成技术研发成本高和周期长也是一个事实。据界面新闻报道,百度CEO李彦宏称“百度不做Sora”后,有关“中国版Sora到底值不值得做”的话题,在微博、小红书等社交媒体引发众多争论。


李彦宏在内部讲话中称,Sora这种视频生成模型的投入周期太长,10年、20年都可能拿不到业务收益,无论多火爆,百度都不去做。


AI音乐生成方面,版本正在快速迭代,字节仍需快马加鞭。近日,AI音乐创作平台Suno推出的一项创新功能——SunoScenes,允许用户通过上传照片和视频作为提示词,生成与之相匹配的30秒音乐。


而且,音乐数据的版权问题也是一个挑战。获取合法的音乐数据,需要与版权方进行合作,这可能会增加成本和难度。同时,音乐数据的质量也参差不齐,如何筛选和整理高质量的音乐数据用于模型训练是一个重要的问题。


文章来自于微信公众号“Tech星球”,作者“陈桥辉”


关键词: AI , AI产品 , Dreamina , 人工智能
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
AI音乐

【开源免费】suno-api是一个使用监听技术实现了调用suno功能,并封装好API的AI音乐项目。

项目地址:https://github.com/gcui-art/suno-api

2
prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。

项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md

在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0