青山资本张野：在商业和艺术交汇处聊AI音乐

8646点击 2024-05-31 10:29

AI音乐的商业模式，有效但也有限。

两年前，ChatGPT横空出世，颠覆世界认知。今年年初，文生视频大模型Sora发布，全网刷屏。前不久，生成式AI音乐软件Suno V3诞生，音乐创作迎来了“ChatGPT时刻”。

人工智能在以更快的速度闯进人类的世界，当AI的风吹向音乐圈，带走了什么？又留下了什么？

作为投资人，同时也是音乐人，今天，来聊聊AI与音乐。

作为投资人，常被问到“AI音乐的商业模式怎么样？” 我的答案是，有效但也有限

AI音乐不是一个新鲜的词，除了现在说的生成式，其实还有一些辅助创作工具，例如人声分离等。如果回归到生成音乐本身，这个历史也很久了。我上学的时候老师讲现代音乐，就提到上世纪50年代美国教授用数学的形式随机生成音乐，甚至还有猫踩钢琴生成音乐，这是一个概率问题，所有生成技术的底层逻辑都是概率。

前几年国内有一个生成音乐的商业模式。公司像是一个大厂房，格子间里的工作人员，每人一台电脑，一个小的电琴，每人每天要创作几首新歌上传平台，歌曲就像流水线上的商品按照固定的模式生产出来了。人工加水电，每首歌的生产成本几百上千。紧接着的投放也有一套流程，例如一千首歌上传到短视频平台，每个投10元，挑出表现好的继续再投100，再挑再投，直到某一首歌被听到和传播了，获得收益。流量倒入到音乐流媒体平台，平台跟工厂结版稅。他们不需要去辨别一首歌质量的高低，只要其中的某句歌词、某个旋律触动听众，得到传播，不断地循环，商业模式就是有效的。在这个模式下，大量的电子垃圾被生产出来，堆砌到互联网上。AI音乐让这类公司的成本进一步降低了，每首歌从几百块可以降到几块钱，财务模型确实会带来大幅优化。

当然，青山没有投这样的公司。第一，我们追求更高的天花板。从投资视角，我们希望一家企业有机会做的很大，而不仅仅是赚点钱；第二，我们要考虑商业或投资的社会意义。投资这么多年，结果上我们不能说没有瑕疵，但在动机和出发点上，我们一直很在乎社会意义，也一定有除了赚钱以外的考量。

有些人可能会问，上面的商业模式里，AI降低了歌曲的生产成本，但是收入项会增加吗？也就是说AI模仿和学习能力这么强，会更容易产生爆火的神曲吗？这个要从“歌”和“火”两件事看。我认为AI生成一些中国流行乐坛上的火歌是非常容易的事情，每天生成100万、1000万，一定是有一些满足火的条件的，甚至现在就有，这还是概率问题。但是，火这个事很难做到，因为不会被听见。很多人担心AI会产生大量的歌，其实这个事已经持续很多年了。在流媒体平台上，比如QQ音乐、网易云音乐、spotify，每天都有十万以上的新歌被上传。真正被人听到的有几首？可能1000首都不到，99%都被淹没了。如果这个数字变成100万，变成一亿又怎么样，也不会被人听到，不会因为供给增多而拉高需求。

当然，还有另外一种to B的音乐，诸如罐头音乐等，他们的存在不是为了吸引你的注意力，更多的是提供一种情绪氛围。有大量的低成本的视觉内容，以及线下游乐园、商场和餐厅等有类似的需求，这类型的音乐有非常稳定的交易市场和商业业态，它们也不需要精良的制作，我认为AI对这类型音乐的影响是非常直接和迅速的。

AI音乐目前来看受益最大的还是平台，很简单的道理，平台如果不需要每年支付大额的版权费给上游创作者，何乐而不为呢？平台的逻辑简单说是计算下游听众的收听总时长，对应上游版权支付的成本。如果一部分被平台自产的AI音乐替换，就相当于上游支付版权的成本降低了一大块。当然，创作者是一定会反对有人用他们的音乐训练大模型来取代他们，前提是得确切地知道。所以，在整个AI领域，推动训练数据的公开透明化，去溯源和监管训练数据是必须要做的事。平台也需要在这个里面扮演个历史正面的角色。

上面提到了一些有效的商业模式，但我认为总体来看生成式AI在音乐领域的发展依然是有限的。

人工智能本质上就是输入、计算和输出三个环节。计算环节会随着时间发展不断进步，进步的边界人类不一定能够特别清楚的掌握，但但凡是文生，输入环节就始终会受到人类语言的制约。人类大脑皮层70%都是由视觉处理的功能覆盖的，语言诞生的时候就是通过视觉的同构来建立了人类的交流系统。相比视觉，人类语言和听觉的同构性是很差的。而创作音乐是尝试对没有边界和没有格式的声学环境做一个描述，人类语言很难精准表达。这就导致在输入环节的效率非常低，无论是创作时还是修改时，人类的语言描述都很难将内心想要的东西正确传达给计算机。只要是文生，这个颗粒度就无法降得很小。

所以，在计算环节同样进步的情况下，文生图片、文生视频等文生视觉的进步速度会远远高于文生音乐，甚至文生音乐的天花板是极其明显的，因为文对音乐的描述能力太过粗糙。

作为音乐人，常被问到“AI真的可以进行艺术创作吗？” 我的答案是，除非有一天AI产生企图和情感，

不同音乐创作的流程是完全不同的

我最早开始写歌是在90年代，那时候组过摇滚乐队。乐队写歌其实不是一个非常严谨的创作过程，更像是大家一起玩出一首歌来，情绪和灵感的碰撞，每个人贡献其中一部分。

后来我学习古典音乐，音乐创作是相对严谨的。古典音乐的创作通常是由一个人来完成，创作过程是作曲家自己以记录、写谱等视觉呈现出来，乐团的演奏是与其明确对应的，一个周期下来要半年、一年甚至更长。

现在做电子乐，电子音乐的创作又是另外一套流程。电子乐的创作可以是一个人，也可以是几个人，但基本可以完全用软件来创作，当然也可以用硬件来做辅助。整个音乐所具备的要素，无论是旋律、音色、节奏和各种乐器，都被拆解成了一个个可输入和可编辑的最小单元。

进入到电子音乐时代，当音乐被拆解成一个个数字单元，智能音乐、生成音乐就具备了基础。在计算编排方面的能力到了一定程度后，音乐创作自然就会被顺势覆盖。

但是AI创作的音乐可以被称作艺术吗？不止是音乐，AI生成的画作、文学、设计等等，这些能被称作是艺术吗？又该怎样定义艺术呢？

首先，艺术是人类特有的内容形式，其次，一切艺术都该有两个层面，技巧层和内核层。在这两个层面里，内核层是必要条件，技巧层是充分条件。

把音排列组合成旋律和和声，编排上乐器，模拟出人的嗓音，这些是技巧层。

把线条、色彩排列组合成人类喜欢的样子，这是技巧层。

把古文的词汇按规律组合成七言五言，这是技巧层。

内核层是什么？是人类的企图与情感。任何一个艺术作品，都能找到这两种元素。而AI目前，没有企图与情感。

怎样看待AI可能带来的大量“电子垃圾”？

创作者、分发者和受众，到底谁应该为电子垃圾负责，这是一个争论不休的话题。

首先，我认为受众是没有错的。虽然很多人批判观众审美差，所以内容差，但我认为这种说法是站不住脚的。回头看人类历史发展的各个阶段，绝大部分的人都不知道自己要什么。艺术造诣或深或浅的时代、地区，受众都是一样的结构。

其次，我认为分发环节只能遵从客观。从经销商的门店到流媒体，分发渠道发生了剧烈的变化。很多人将过错归于分发环节，批判分发公司不负责任，什么都推。这种质疑也是站不住脚的。试想如果分发公司设置了价值标准，那是不是更加错误？我们不应该要求分发环节去判断，而应该要求它客观公正。按受众结构匹配分发不是过错。

我认为，问题产生的源头在创作环节，这是一个非常主观的并且有明确标准的环节。对于创作者，你要尽你所能，创作精益求精的作品，无关乎硬件和环境，你都要去精雕细琢，不断尝试，这也就是所谓的匠人精神。如果是这样的创作生态，再加上客观公平的分配机制，我相信结果会不一样。

归根到底，工具是为人所用的。职业音乐人是把AI用于收集素材和灵感，还是会把AI简单生成的歌作为自己的歌发行，这是自己的选择。

最后，聊聊AI音乐的未来。

一百多年前拍照是一个很专业的事情，门槛很高。甚至五十年前，拍照依然要学会使用专业的相机，调整光圈等。后来出现了傻瓜相机，再后来智能手机实现了拍照平权，拍照融入了日常生活，每个人都可以随时随地拍照上传社交媒体。这个世界每天产生几十亿甚至上百亿的图片，但结构是非常典型的幂次结构。极少数的明星和网红花了很多时间和心思拍摄的精修图能够被很多人看到，绝大多数的普通人随手一拍发在社交媒体上的被几个几十个熟人看到。

未来的AI内容仍然遵循这一结构。

未来可能每个人都可以用AI生成音乐表达自己的心情，通过终端分享到平台，但是结构不会改变，依然是那些花费更多时间和拥有更多额外条件的人，他们的音乐会被更多人听到，绝大多数人的音乐还是只会在小范围传播，但也挺好，AI给了我们更多选择。

——

无论是投资人还是音乐人的生活，AI都在带来翻天覆地的变化。人总还是怀旧的，看着一代人有一代人的音乐，感谢音乐代替我们表达一代又一代人的叛逆。

从纯自然声响到电声进入音乐领域，再到麦克风让耳语能被听到，又来到数字时代的电子音乐，音乐范式的变革推动音乐核心内容的变化，穷尽一个范式会助推下一个范式的到来，电子音乐时代的AI正扮演着加速器的角色。

至于下一个范式是什么？什么时候到来？

我们无从知晓。

风起时，我们只能听着吹动的响，看扬起的沙，

期待加速到来的明天。

文章来源于“青山资本”，作者“张野”

青山资本张野：在商业和艺术交汇处聊AI音乐

关键词: AI音乐 , AI艺术 , AI内容 , Suno V3

AITNT资源拓展

根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考

AI音乐

【开源免费】suno-api是一个使用监听技术实现了调用suno功能，并封装好API的AI音乐项目。
项目地址：https://github.com/gcui-art/suno-api