5亿估值、2500万用户,Suno CEO专访:Instagram拯救了摄影,我们想用AI拯救音乐

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
AITNT-国内领先的一站式人工智能新闻资讯网站 搜索
5亿估值、2500万用户,Suno CEO专访:Instagram拯救了摄影,我们想用AI拯救音乐
4651点击    2025-01-14 09:33

5亿估值、2500万用户,Suno CEO专访:Instagram拯救了摄影,我们想用AI拯救音乐


2024 年,AI 音乐生成产品 Suno 的成绩很亮眼。


2024 年成功完成了 1.25 亿美元的融资,使其估值达到 5 亿美元;用户数从 1000 万增长到 2500 万。


2024 年 11 月发布了能力更强的 V4 版本,在音质、歌词创作和歌曲结构方面都有显著提升,紧接着,12 月发布了 Android 版的 app。


虽然正在被几家唱片公司起诉侵权问题,但毫无疑问,Suno 和 Udio 会改变音乐的创作模式以及商业模式。


今年 1 月份,Suno CEO Mikey Shulman 接受了知名播客 20VC 的采访,就 Suno 的商业模式、产品规划,以及对于音乐产业的未来进行了畅谈,有不少干货。


一些有意思的点:


  • 音乐是完全主观的体验,Scaling Law 在音乐领域并不像在文本领域那样是解决一切问题的灵丹妙药。
  • 如果我们能让音乐变得更具互动性和参与感,人们就会愿意像为游戏付费那样为音乐体验付费。
  • 最终人们不会关心是什么模型在驱动这个产品,他们只会关心音乐让他们有什么感受。人们使用 Suno 是因为产品更好,而不是因为底层有更大更好的模型。
  • 最重要的其实就是看用户第一天是否碰到付费墙。即使他们最后没有付费,但只要碰到付费墙,就说明他们享受了这 10 到 12 分钟的体验,我就知道我们做对了。
  • 对我来说一个很明显的错误是没有更早脱离 Discord。我没有意识到一个好的 UI 能给用户体验带来多大改变。Discord 对我们的音乐服务来说并不是最佳选择,它更适合 Midjourney 那样的图像产品。
  • OpenAI 给所有 AI 公司带来了一个巨大的困扰——现在所有人都认为空白文本框是正确的交互方式。这对 ChatGPT 来说没问题,但对其他所有产品来说都是错误的。
  • 人们没有意识到流行音乐很大程度上是推荐算法的产物。现在是音乐先在 TikTok 走红,然后在 Spotify 上成名。这其实是算法和人为推广一起作用的结果,不完全取决于音乐本身的质量。
  • 现在的问题是不够多的人能靠音乐谋生。我想到了 Instagram 如何改变了摄影行业。在 Instagram 之前,很少有人能靠摄影谋生。现在因为 Instagram,更多人可以以此为生。


01 

Suno 的目的不是制作音乐,

而是培养音乐人


20VC:我是 Suno 的超级铁粉,这几天已经创作了 25 首歌曲,所以我特别期待今天的对话。我想请你先介绍一下,Suno 究竟是什么,它又不是什么?


Mikey:Suno 的目标是让每个人都能体验音乐的所有乐趣。不仅仅是作为背景音乐来听,而是让用户能够沉浸在创作音乐、分享音乐、编辑音乐的过程中,成为音乐的积极参与者。我常说:我们不是在制作音乐,我们是在培养音乐人。


20VC:你们最初这是个企业 AI 音频工具,跟现在看到的完全不一样。能聊聊这个转变吗?


Mikey:其实我不太愿意说这是个转变。你看,我们一直都清楚音频领域比文本领域落后很多。我们团队都是NLP背景出身,当时觉得做好生成内容会特别难。让我们回想一下 GPT-2 那会儿的情况——没人用 GPT-2 来生成有意思的文本,它就是个理解文本的工具。我们原本以为要在这个阶段停留好几年,直到我们真正掌握如何扩展这些技术。但没想到,我们错了。好的生成能力来得特别快,特别快。这才是真正有意思的地方,所以我们很快就放弃了原来那个理解工具的方向。


20VC:你提到了生成式能力的改进,那你认为 scaling laws 会继续发展下去吗?


Mikey:音乐和文本是完全不同的领域。人们常常会很随意地看待 OpenAI、Anthropic 这些超大规模公司的发展路径,认为音频领域只是落后了几年,觉得扩大规模就能解决所有问题。但实际情况不是这样的。在文本领域,我们追求的是解决客观问题,比如提高 SAT 分数或改进基准测试成绩。


音乐是完全主观的体验,所以单纯扩大规模并不能解决所有问题。因此音乐模型的规模会保持相对较小,我们必须使用其他技术来让这些模型真正具备好的品味。


20VC:所以在音乐领域,我们会看到很多小型模型的存在?


Mikey:我不确定是否会有"很多",但可以肯定的是,规模在音乐领域并不像在文本领域那样是解决一切问题的灵丹妙药。


20VC:在谈到音乐体验时,你之前提到音乐在未来应该更像视频游戏,我觉得这是个很有趣的类比。能详细说说为什么吗?


Mikey:视频游戏的核心特点是互动性、参与感和丰富的体验。独自玩很有趣,和朋友一起玩会更有趣。我认为音乐也应该具备这些特质,所以我想让音乐更像视频游戏。没有人会半心半意地玩游戏,但人们经常把音乐当作背景音乐,只是随意听听。如果我们能让音乐变得更具互动性和参与感,人们就会愿意像为游戏付费那样为音乐体验付费。游戏产业的规模远超音乐产业,甚至超过大多数其他产业,就是因为人们愿意为这种体验花费辛苦赚来的钱。在我看来,音乐的参与感竟然不如 Fortnite,这简直不可思议。


20VC:我昨天在 Twitter 上发表了这个观点:我不认为在未来我们会为访问更新的模型支付更多费用,这只是我们目前所处的发展阶段。在五年后,我们不会为更好的模型支付更多费用,你只会获得 Suno 产品。


Mikey:我非常强烈地认同这一点。我甚至认为你都不会知道背后是什么模型。在某个时候,可能是第四版或第五版之后,将会是最后一次以模型形式发布,之后就只会有产品发布了。虽然现在还没到那个阶段,但最终人们不会关心是什么在驱动这个产品,他们只会关心音乐让他们有什么感受。这其中会涉及很多因素。


20VC:Suno 背后的技术驱动力是什么?


Mikey:你是指模型吗?是的,我们使用的是 transformer 模型。我们一直都很坦诚地说明这一点。我们的竞争优势不在于架构创新,而是在音频表示方法上的创新。音频的 tokenization 是个很有挑战性的问题。我们投入了大量时间专注于解决这个问题,同时借鉴开源文本社区在模型构建和扩展方面的所有经验,这是一个非常有效的方法。


20VC:我想回到你刚才说的"我们不是在降低音乐的价值,而是在提升它的价值"这点。虽然我不是经济学家,但作为一个自称是风投的人——虽然我也不是——当供给增加时,价格就会下降。你们实际上是在让音乐供给变得无限,这难道不会降低价值吗?


Mikey:我认为这确实会降低单个音乐作品的平均价值,但会大大提升音乐对整个社会和每个人的总体价值。这不正是我们想要的吗?我们需要一个更大、更有活力的音乐产业,让更多人参与其中,有更多的互动,而不是让它变成少数人才能接触的珍贵物品——这种限制反而让它失去了价值。


02 

产品的关键指标

是用户第一天是否碰到付费墙


20VC:你们产品最令人称奇的是响应速度,只需 5 秒。我输入"慢节奏的激励性跑步歌曲,男声吉他",5 秒内就得到了惊人的结果。


Mikey:是的,我很庆幸我们使用了 Transformers,这让我们能更快地实现目标。我们能够实际测量这个速度。你说得非常重要,我们一直密切关注用户第一首歌的体验,因为这真的很关键。比如说,我们做过实验,在产品中加入一点人为延迟,就能看到用户满意度明显下降。


20VC:有时候你会看到"后台正在施展魔法"之类的加载提示,这种延迟反而会让人觉得获得了更多价值,这是个有趣的心理现象。


Mikey:是啊,但 10 秒就是比 8 秒差。我们短期内确实达不到 1 秒的响应速度,不过我觉得我们离你说的那个需要故意增加等待时间的临界点还很远。


20VC:什么是衡量成功用户的指标?是创建 3 首歌,还是分享 1 首歌?你是怎么看这个问题的?


Mikey:我们会看几个方面。我觉得最重要的其实就是看用户第一天是否碰到付费墙。即使他们最后没有付费,但只要碰到付费墙,就说明他们享受了这 10 到 12 分钟的体验,我就知道我们做对了。如果用户只是做了一首歌就扔掉再也不回来,说明我们没有给他们带来那种神奇的体验,没有达到目标。所以这是最关键的指标,而且我们看到很高比例的用户第一天就能到达付费墙。


20VC:这可能是个糟糕的用户反馈,但我发现年付的数字会让人感到震惊。当看到 300 美元时会觉得很贵,但如果显示成每月 29.99 美元,反而觉得挺合理的。


Mikey:我们确实希望用户选择年付订阅。从第一天就开始收费是我们的决定,这与硅谷传统的"先免费扩大规模"的思维不同。我们不想成为一个新奇玩具,而是要提供用户真正愿意付费的东西。


最初作为 Discord bot 推出时就采用了现在这样的免费层级。让我们惊喜的是,第一个月就有很多人订阅了,这证明我们确实做出了有价值的东西。这些收入不仅很棒,还帮我们抵消了很多 GPU 成本。


但更重要的是订阅数据的价值。如果完全免费,当用户用完免费额度时,我完全不知道他们是否真的想继续使用。就像在沙漠里迷失方向一样。但有了收费数据,我们就知道哪些用户在遇到付费限制前就订阅了,可以去了解他们经历的"神奇时刻";也知道哪些用户遇到付费墙后离开了,可以去了解为什么没能打动他们。也许免费模式能让我们规模更大,但没有这些数据,产品质量反而会更差。


20VC:说到收入抵消成本,你们现在的GPU支出占比是多少?


Mikey:这绝对是我们最大的支出,大概是工资支出的好几倍。我们有一个大型的研究集群,这些技术在我们创立公司时都还不存在,研究一直是我们工作的重中之重。


20VC: 你觉得这种情况未来会怎么变化?


Mikey:我希望 GPU 价格能降下来,不过我们估计还是会买更多。你要知道,我们需要进行高质量的实验。我们的机器学习团队肯定不会像软件团队那样快速扩张,因为研究这个东西不是靠规模就能解决的,你不能简单地增加人手就能获得相应的产出,这种收益是递减的。所以关键是要让真正有才华的研究人员去专注于对音乐未来真正重要的问题。


03 

应该更早把流量切到官网

而不是 Discord


20VC:关于 Suno,有什么你希望当初做了但没做的事情吗?


Mikey:对我来说一个很明显的错误是没有更早脱离 Discord。我们去年 8 月发布第一个产品,直到 11 月才推出一个非常简单的 web 应用。我完全判断错了,当时我看到 Midjourney 在 Discord 上赚得盆满钵满,就想当然认为我们也会一直用 Discord。


现在看来这个想法大错特错,我没有意识到一个好的 UI 能给用户体验带来多大改变。Discord 对我们的音乐服务来说并不是最佳选择,它更适合 Midjourney 那样的图像产品。


我们 11 月发布的 web 应用功能还完全不如 Discord bot 完整,但令人惊讶的是,仅用了 5 天时间,90% 的流量就转移到了 web 端。就 5 天!这充分说明我之前的判断有多么错误。


20VC:听起来是应该更早做 web 端。但如果更早做 web 端,会不会影响到 Discord 上的用户群体?毕竟你们现在在 Discord 上还有 40 万用户。


Mikey:实际上没人会真正离开 Discord,因为 Suno 在 Discord 上服务的是完全不同的目的。Discord 是我们的社区,是我们与用户交流和获取反馈的极其宝贵资源。但我确实认为,如果早点建立 web 应用,我们能触达更多用户


20VC:你说到了优秀 UI 的重要性,对 Suno 来说,什么是好的 UI?


Mikey:我一直在思考,UI 绝对不能像现在这样。好的 UI 应该让用户做到在旧模式下完全无法实现的事情。比如在传统的数字音频工作站里,要把一首歌改编成完全不同的风格是非常困难的。但如果我发现这确实是用户想要的功能,就应该把它作为核心工作流程来设计。这样的 UI 可以很简单、很优美、很直观,但一定要完全不同于传统方式。


20VC:你如何看待 prompt guides?对于熟练用户来说,他们知道如何具体描述需求,但对其他人来说可能并不那么重要。


Mikey:我必须说,OpenAI 和 ChatGPT 确实很棒,但他们给所有AI公司带来了一个巨大的困扰——现在所有人都认为空白文本框是正确的交互方式。这对 ChatGPT 来说没问题,但对其他所有产品来说都是错误的。我不得不说实话,我要完全否定这个前提。我希望在 6 到 12 个月后,我们都不会再使用"prompt"这个词。应该有更直观的方式来与音乐互动。我们不应该去指导用户,而是应该真正倾听用户的需求。


20VC:我之前和 Balski、Gustavo 交流时,他们说我们会通过 prompt 的质量来衡量候选人的水平,你觉得这种说法对吗?


Mikey:我真心希望这种说法是错的。如果我们只关注输入而不是输出,这就太可惜了。我们难道不应该用音乐的质量,或者他们实际产出的质量来衡量吗?如果需要非常复杂的 prompt 和 1600 次迭代才能完成工作,那是我们产品的问题,而不是候选人的问题。


20VC:你有什么事情希望做了或没做的?


Mikey:说实话,允许远程工作可能是其中之一。这可能是个有争议的观点。


20VC:这其实不算太有争议。我今天早上还在公园里和一位企业公司的 CEO 聊天,她说远程工作正在损害她的公司,但她就是没法让员工回来。


Mikey:我们公司一直是在线下建立的,虽然我们也会为某些人做远程工作的特例,这些特例通常是值得的。但随着公司规模扩大,做出这些特例的判断变得越来越困难。判断力,你也可以说是品味,它的重要性往往被低估了,比技能还重要。我们公司现在比一年前大多了,我已经能看到这个问题变得越来越复杂——到底该为谁做特例?


04 

第一天就收费是增长的重要决定


20VC:你们目前融到了多少资金?


Mikey:超过 1.25 亿美元。


20VC:最近一轮来得很快,这是出于什么考虑?是为了确立市场领导地位还是需要GPU支出?


Mikey:我把资本视为一种武器,仅仅增加 10% 的资本和能带来质变的资金量是完全不同的概念。


20VC:你认为创始人和 VC 的目标是一致的吗?


Mikey:99% 的情况下是一致的。但有些事我希望创业前就知道。比如当 VC 说"我们预留资金以备后续投资",其实就是在说"我要行使 pro rata 权利,这点你无法改变"。在好的情况下他们会继续投资,但在不好的情况下就不会。这种做法被包装成对创始人友好,实际上恰恰相反。


20VC:相比其他生成式AI公司,你们是如何实现收入增长的?


Mikey:关键是重视收入。我们从第一天就开始收费,这可能是个幸运的决定。虽然现在我更关注打造大平台,但收入也很重要。就像 Intel 的案例,有时候确实需要为了新机会牺牲收入,但总的来说,收入增长说明用户愿意为产品付费。如果要量化,我可能会说我关心增长是关心收入的两倍。但在现阶段,我们根本不需要做这种取舍,因为我们只覆盖了很小一部分潜在用户,而且正在开发更多有价值和有趣的体验,这将覆盖更大的受众。如果现在就要在增长和收入之间做取舍,那就说明我做错了。


20VC:你们如何看待 Suno 作为社交网络的发展?我的意思是,很容易想象它会走上 SoundCloud 的路线,拥有个人档案、关注者、点赞等社交互动功能,让平台变得更具社交性,同时用户的状态和档案也会带来社交资本。


Mikey:这确实存在一些这样的可能性。说到 SoundCloud,这不是他们的错,但有两个问题:首先,创作音乐本身就很困难;其次,创作者和消费者之间存在明显的割裂,很难真正互动。


音乐本身就是社交的,但它是什么样的社交?是像 Facebook 那样的社交媒体吗?是像 Instagram 那样有大量点对点互动和长尾效应的平台吗?还是像 Instagram 顶端那样,有人在每个帖子上花费数十万美元,靠此谋生,拥有上亿粉丝?答案是这些都是,而且还不止于此。


Instagram 是个很好的例子。令人惊讶的是,同一个平台既能让我随意给你发些有趣的内容,又能让我们看到那些整天精心打磨内容的专业创作者的作品。为什么音乐不能这样呢?音乐不应该有这种特殊待遇。


20VC:我今天感到非常不安,因为我从未见过世界处于如此动荡的状态。全球冲突和选举正在迅速改变着国家的结构。我真的无法预测劳动力的未来、内容创作的未来、内容分发的未来、信息的未来,现在一切都充满了可能性。


就拿音乐创作来说,人类从远古时代就开始创作音乐,而现在 Suno 能在几秒钟内完成,这既令人惊叹又神奇。但是这种变化实在太快了,让我感到不安。你觉得我应该兴奋还是紧张?你对此有什么感受?


Mikey:我感到非常乐观,让我这样说吧。我想你说的是音乐领域,虽然这些观点在其他领域也适用。在这个问题上有两个阵营:传统行业和颠覆者。有意思的是,双方都会说同样的话:"我们知道AI是不可避免的"。


传统行业这样说是为了避免显得像守旧派或隐士,而 AI 社区说这话则像是在安慰对方:"别担心,我不是来颠覆你的,反正它迟早要来"。但这种说法其实很糟糕,因为双方都在暗示:"既然它注定要来,我什么都不用做了。"这让我很兴奋,因为我觉得我们怎么做才是关键。


20VC:作为 UMG(环球音乐)这样的上市公司 CEO,怎么能说"我们知道它要来了"却不解决创作的核心问题呢?


Mikey:这种情况下,他们可能会说"是的,AI 是创作过程中的重要组成部分",但会回避那些想用这些新工具创作的人的需求。这个问题对我和环球音乐的 CEO 都一样重要:我们可以主动建设一个更大更好的 AI 音乐未来,或者什么都不做,让其他国家的人,在不受美国法律约束、动机也完全不同的情况下,去建立一个糟糕的未来。我能想到很多可怕的场景。


05 

人们喜欢 Suno 是因为产品好,

而不单纯是模型好


20VC:为什么物理学家和经济学家会成为最好的机器学习工程师?


Mikey:这是个很好的问题。作为一家 AI 公司,我们一直在寻找和发掘被低估的人才。让我坦白说,我们给不了像 OpenAI 那样的薪资水平,所以我们需要找到其他理由来说服人才加入我们。


对于经济学家来说,虽然我自己不是经济学家,但他们确实擅长思考自然实验。他们善于从第一性原理进行推理,而不是简单地机械式操作、提升 benchmark 指标。他们更善于思考这些 benchmark 的真正含义,以及如何设计自然实验。因为经济学研究经常在数据匮乏的环境中进行,这些视角非常有价值。


物理学家则更偏向实验性质,他们特别擅长快速进行高质量实验。AI 本质上是一个实证学科,谁能更快地进行高质量实验,谁就能胜出。


20VC:在人才竞争方面,你们如何与OpenAI、Anthropic 这些支付百万美元薪资的大公司竞争?


Mikey:我们确实不支付百万美元薪资。但我们有其他优势。首先是地理位置,我们选择了马萨诸塞州剑桥,而不是硅谷。在剑桥,我们可以说是最酷的 AI 公司。更重要的是,如果你对将模型对齐到人类品味而非客观真理感兴趣,这里是独一无二的选择。


20VC:但人类品味如此主观,你们如何实现这种对齐?


Mikey:这确实很难。我们的优势在于拥有大量用户使用数据,我们可以收集这些数据,进行大量AB 测试。未来这个领域会需要更多个性化。目前我们使用类似 ChatGPT 的 RLHF 技术来适应人类的品味偏好,但完全不确定这是否应该是未来的方向。用于对齐 LLM 的技术是否适用于音乐模型,这个问题也完全没有明确答案。


20VC:大模型提供商会在多大程度上进入应用层?比如说,OpenAI 完全可能进入客服或音乐创作领域。


Mikey:我们经常思考这个问题,但又不得不专注于自己的业务。我认为他们会尝试进入应用层。不确定是否会是音乐领域,客服领域看起来更大。说实话,OpenAI 的目标是建立一个巨大的公司,而通用智能和客服市场都比音乐市场更大。


20VC:不,客服市场没那么大。看看 Zendesk,它不过是一个被私募基金以 100 亿美元收购的公司。


Mikey:未来的客服市场可能远超 Zendesk,特别是如果能实现全自动化。你看看所有这些 BPO(业务流程外包)。我很确信音乐市场的未来也会比现在大得多,但可能 OpenAI 还没意识到这一点。这和我们之前讨论的口味问题是一样的,这本质上是一个产品竞争。


人们使用 Suno 是因为产品更好,而不是因为底层有更大更好的模型。简单来说,我们就是在向人们提供愉悦的音乐体验,单纯的聊天界面并不是终极解决方案。


06 

音乐行业只专注于已有的蛋糕市场,

没想过做大


20VC:我想讨论音乐的未来,也想谈谈产品本身。我要直接问一个问题:关于 RIAA 在 2024 年 6 月提起的诉讼,说你们使用他们的媒体来训练模型,这个诉讼是否有依据?


Mikey:关于诉讼,我必须非常谨慎地选择我说什么和不说什么。我可以告诉你,是的,我们的训练数据中确实有一些受版权保护的作品,但这并不违法,这是行业标准做法,每个AI公司都这样做。这个诉讼其实并不太令人意外,你知道,大多数 AI 公司都会被起诉,音乐行业里的每个人都会被起诉,这是一个诉讼频发的行业。


这种情况在某种程度上让人感到沮丧,因为我认为如果能与现有行业合作,我们可以共同构建一个更大更光明的音乐未来,而不是在对抗中让整个行业的潜力变小。


让我暂时不谈律师,说个经济学的事。80 年代有一篇很有名的经济学论文,研究为什么有些国家发展得好,有些则不然。这篇论文是 Andrei Shleifer 写的,其中一个结论很有意思:他们研究了一个国家里工程师和律师的比例,发现工程师越多,发展越好;律师越多,发展反而越慢。当然,这个结论可能有点过于简单化了。但我想说的是,在这个诉讼发生之前,我们至少在和诉讼方中的一些参与者进行对话。如果我们能够一起合作去构建音乐的未来,每个人都会更快乐。


音乐行业存在一个根深蒂固的固定蛋糕思维,认为市场中只有固定的资金量,大家都在试图为自己不公平地分割这个蛋糕。如果我们能够专注于让蛋糕变大,一切都会变得更容易。


20VC:你提到AI公司面临诉讼是很自然的事情,那么你认为这种冲突最终会如何解决?是通过风投资金支付和解金,还是通过股权分配让传统企业参与?


Mikey:这里存在两种极端思维:硅谷的传统思维是"管你是谁,我就要颠覆你的行业,你拿我没办法",而传统企业的反应则是"我要起诉到你消失为止"。这两种方式显然都是错误的。虽然有人会因为我们在剑桥建立科技公司而批评我们,但这恰恰让我们避免了硅谷那种颠覆思维。Suno 的每个人都深深热爱和尊重音乐,这在文化上非常棒,让我们的团队能够避开对抗思维,更专注于与行业一起建设更好的未来。事实上,已经有很多行业内的传统企业在与我们合作。


20VC:那么你希望那些起诉你们的传统企业应该如何行动?


Mikey:我希望他们能先与我们对话。有些企业确实这样做了,有些没有。把风投资金花在律师费上而不是坐下来讨论合作方案,这看起来很不明智。先起诉后提问显然是个低效的做法。


20VC:作为创始人,当你收到诉讼时会如何应对?我认识一些真的很疯狂的创始人,他们的态度是"去他的",甚至会从这种对抗中获得快感,认为"这说明我在赢","你起诉我就证明你注意到我了"。


Mikey:这种心态确实存在,但我觉得这些人在说谎。如果他们说这是件好事,其实并不准确——也许这是在做对事情的一个信号,但诉讼本身绝对不是好事。至少会耗费金钱和时间。


如果这个诉讼最终打到法庭并且我们输了,显然对公司不利,但不会致命。不过我认为这种可能性很小。我更倾向于思考两个问题:一是各方在这个博弈中真正想要什么,二是什么才是音乐行业的最佳未来。即使你能让 Suno 或类似的 AI 公司消失,这真的是你想要的吗?如果音乐产业能做到和游戏产业一样大,那将会让很多人受益。


07 

现在的音乐是由算法决定的,

很无聊


20VC:为什么流行音乐变得无聊了?


Mikey:哇,这个话题我们可以聊很久。现在的歌曲不仅变短了,而且旋律、和声、歌曲结构都变得高度同质化。有趣的是,音乐在声音效果上其实有很多创新,产生了很多有趣的声音,但这些创新都被限制在同样的歌曲结构里。这些变化主要是由数字制作技术、流媒体平台,以及像 TikTok 这样的平台带来的。


20VC:我们看到像 Olivia Rodrigo 这样的音乐人,现在都在改变歌曲结构来适应社交平台的算法。你怎么看这个现象?这是不是很令人悲哀?


Mikey:确实令人悲哀。不过我认为这种现象本身并不能简单地说是好是坏,它就是客观存在的现实。这些算法确实帮助音乐传播到了比以往更多的受众。


20VC:刚才你提到了音乐发现这个话题,在音乐供应无限的情况下,你如何看待音乐发现的未来?


Mikey:这个问题在某些方面变得更难,在某些方面又变得更容易。人们没有意识到现在的音乐发现已经高度算法化了。你获得的长尾内容可能不是你想要的那么多,当然也可能恰恰是你想要的。


20VC:人们对音乐发现有什么误解?


Mikey:我认为人们没有意识到流行音乐很大程度上是推荐算法的产物。这个问题你应该去问问 Spotify 或 TikTok 的人。我觉得人们可能搞错了因果关系——现在是音乐先在 TikTok 走红,然后在 Spotify 上成名。这其实是算法和人为推广一起作用的结果,不完全取决于音乐本身的质量。


20VC:你们觉得 Spotify 和 TikTok 在音乐发现方面的竞争如何?


Mikey:我认为它们都是这个生态系统中非常重要的部分。


20VC:我认为 TikTok 在短视频发现方面占据优势,而 Spotify 在算法化的每周发现歌单方面更胜一筹,它更偏重传统的列表式推荐,不那么依赖视觉效果。


Mikey:确实如此,但很多流行音乐都是先在 TikTok 上火起来的。


20VC:那 YouTube 和 Spotify 的竞争呢?这是另一场重要的战役,Spotify 正在同时与长视频和短视频平台竞争。


Mikey:从某种程度来说,我希望 Spotify 能胜出,因为这意味着人们对音乐本身的参与度更高。从广告用户平均收入来看,YouTube 的参与度确实更高,这是因为视频本身就更具吸引力。很多时候音乐只是被当作背景音乐来使用,这本身并不是坏事。比如我面试的程序员,几乎 100% 都会在编程时听音乐,但有趣的是,他们的目的恰恰是为了不去注意音乐本身。我认为音乐的潜力远不止于此,不应该仅仅被当作一个需要刻意忽略的背景音。


20VC:关于 Spotify 在视频领域的大力投入,你觉得这会如何发展?


Mikey:我希望人们能从中获得更多参与感。让我换个角度来谈视频这个问题:绝大多数生成式AI视频公司都向我们请求API,希望在他们的 AI 视频中使用 Suno 的音乐,但我们总是拒绝。


20VC:为什么?


Mikey:原因有很多,但主要是因为我们的目标是让音乐对人们更有价值,而仅仅作为视频的背景音乐并不能实现这一点。这不是成本问题,用户完全可以从 Epidemic Sound 获得非常便宜的背景音乐。


08

音乐的未来需要重新思考商业模式

和产品模式


20VC:当我们思考音乐的未来,现在有 Spotify 这样的主要参与者,你理想中的音乐未来是什么样的?


Mikey:我要告诉你我希望看到的是什么:会有更多人参与,会有更丰富的音乐体验。我们不只是想建立一个让现有创作者效率提高 10% 或让音乐制作容易 10% 的公司。如果你想影响十亿人的音乐体验,就必须为十亿人打造产品。首要的是让每个人都能享受创作音乐的乐趣。这与现状有很大的不同,因为现在制作音乐并不是真正令人愉快的事情。它需要投入大量时间,需要大量练习,你需要精通乐器或音乐制作软件。我认为大多数人在创作音乐时并不觉得享受。


20VC:这不是很像跑步吗?跑步很困难,很痛苦,你不会特别享受它,但你依然热爱跑步,而且会随着练习变得越来越好。跑步者都热爱跑步。


Mikey:大多数人因为这些困难就放弃了。你认识的那些跑步者只是一个有偏差的群体样本,他们是爱上跑步的少数人。


20VC:我想回到训练的话题。你之前提到过在有版权的音乐上进行训练,那么什么时候可以开始在 Suno 的音乐上进行训练呢?毕竟你们现在已经有了这么大的音乐库。


Mikey:这是个很大的开放性问题,关键是如何避免在模型中引入大量偏差。我们确实在做一些相关工作,但规模不大。我觉得那些大公司现在都在遇到数据墙的问题,他们在更积极地解决这个问题。就像其他事情一样,让大公司去解决这些棘手的问题对我们来说挺好的,这样我们就能专注于自己的优势。说实话,我希望这个问题最后是别人来解决,而不是我们。


20VC:我们之前聊过,不应该把AI音乐和普通音乐分成两个世界。那从用户体验来说,为什么不能把 Spotify 直接整合到应用里,让两者在同一个主页呢?


Mikey:从用户角度来说,确实如此。如果要去两个不同的地方找内容,这真的很麻烦。我不知道你用 Spotify 时有没有遇到过想要的内容不在上面的情况?


20VC:有一些有声书在 Spotify 上确实还没有,遇到这种情况我就干脆等着好了。


Mikey:这正说明了平台分离会带来很大的摩擦。对普通用户来说,如果有两个独立的音乐世界,这种摩擦会很明显。但我希望不仅仅是内容消费的问题,我们应该有一系列有趣的音乐制作和分享体验,这些不应该与人们在派对、健身、通勤时听的音乐分开。把这些结合在一起,产生的价值会远大于分开的效果。


20VC:我完全同意这种分离会带来摩擦,但这意味着要么你们进入 Spotify,要么 Spotify 进入你们的领域。


Mikey:可能是这两种方式,也可能都不是。我觉得这里有很多可能性,时间会告诉我们哪种方式是对的。


20VC:艺术家们对 Suno 的感受如何?


Mikey:在私下交谈中,绝大多数艺术家都承认他们在使用并喜欢 Suno。真的只有极少数人对此持反对态度,这让我对未来非常乐观。


20VC:有没有可能为创作者开发个性化模型?比如说,如果 Ariana Grande 想与你们合作,提供她的独家内容授权来训练模型,这样她就能在几秒钟内创作无限量的新歌?


Mikey:技术上完全可以,我也很想这样做。但现实是,根据她的合约,她可能根本没有权限这样做。虽然她拥有自己的名字和肖像权,但她并不完全拥有自己的音乐。在我们的产品中,如果你试图创作 Ariana Grande 风格的音乐,系统会立即阻止你——这不是音乐的未来,不是原创音乐。但如果是她本人使用,那就完全不同了。这可以成为她的强大创作工具,让创作团队能听到用她的声音演绎的作品。如果她够开放,甚至可以授权给超级粉丝,让他们创作类似同人小说的音乐作品。这种互动方式比简单的问答环节要有价值得多。


20VC:我很喜欢 Dean Lewis 这样的男歌手唱悲伤歌曲——虽然这可能说明我需要看心理医生。在 Spotify 上点击"go to radio"时会听到很多类似的歌曲,但 Dean Lewis 并不会从这些相似歌曲中获得收益。那么,如果在 Suno 上要求生成类似 Dean Lewis 风格的、由澳大利亚男女歌手演唱的吉他歌曲,并在 prompt 中提到 Dean Lewis,这种情况与 Spotify 的推荐有什么区别?


Mikey:目前我们还不能这样做,但我希望未来在艺人选择加入的情况下可以实现这种模式。关键是,现在的情况是人们愿意付费来创作音乐,这与单纯的听音乐完全是两回事。我认为音乐的未来需要重新思考商业模式,现在的流媒体分成模式是有上限的,所有人都在争夺这个固定的份额。艺人从中获得的收入其实并不多,我们需要探索新的商业模式,让用户能够更直接地与艺人互动。


比如说,假设你特别喜欢萨斯喀彻温省的某个年轻创作者,你可以通过 Patreon 直接支付给他。如果双方都同意,你甚至可以使用他的 AI 模型来创作你自己对他音乐风格的演绎。我们最近与 Timberland 举办的 remix 比赛就收到了大量作品,这让我意识到能够 remix 偶像的音乐是最棒的互动形式,这种体验甚至比在演唱会后台见面更有意义。现有的流媒体分成模式完全无法体现这种互动的价值。


20VC:让我们谈谈与 Timbaland 的合作。这样的行业重量级人物,这种合作是如何形成的?


Mikey:业内任何人都会告诉你,他一直是音乐和技术领域的前沿人物。令人惊喜的是,在我们见面之前他就已经是我们产品的用户了。这种事情是装不出来的。这确实是一个非常棒的合作关系。我们不仅能从合作中学到很多,还能与他一起进行产品开发,让他优先体验新功能。当然,这也为我们带来了业界的认可。


20VC:你认为这是否让传统音乐产业更认可AI技术?


Mikey:是的。更重要的是,当一位已经功成名就、不需要刻意曝光的艺术家公开表示他在使用 Suno 并且觉得很棒,这会给新兴艺术家使用我们技术提供更多信心。


20VC:我直说了,这是付费合作吗?


Mikey:不是现金合作,他是公司的顾问。


20VC:明白了。就像 Calm 做得非常出色的那样。展望未来,在分发和认可度方面,你们会继续发展这样的合作关系吗?


Mikey:当然,这一直是我们想要做的。我们会继续与业内人士建立这样的合作关系,Timbaland 不是第一个,也绝不会是最后一个合作伙伴。


09 

太个性化会让音乐失去社交属性


20VC:让我们谈谈AI在音乐领域最糟糕的未来会是什么?


Mikey:我来说两个特别糟糕的反乌托邦场景。第一个是,某些不受法律约束的境外组织可能会未经授权随意模仿艺术家的声音。比如,他们可以无限制地生成 Ariana Grande 的歌曲,而不给她任何收益。


20VC:这在技术上现在就已经可行了吧?


Mikey:完全可以。我们已经看到了 Drake 和 The Weeknd 的 AI 仿声歌曲事件。这种技术会变得越来越好,使用起来也会越来越容易,这绝对不是一个好的未来。


还有另一个糟糕的场景,就是音乐可能陷入一个局部最优解:变得过度个性化,失去了它本该具有的社交属性。想象一下,你打开手机 app,它知道你的一切——你早上做了什么,昨天和谁发短信,你现在的心情如何,甚至通过 Apple Watch 获取你的心率数据。然后它会持续不断地推送只有你会喜欢的音乐,像毒品一样精准地刺激你的大脑。这种极度反社交的方式实在令人担忧,因为我们会错失音乐带来的更多价值。


20VC:是的,这会完全消除人与人之间的联系。


Mikey:社交和个性化之间确实存在着固有的张力,我们不想把音乐做成一个超小众的领域。


20VC:我之前用 AI 为女朋友创作了一首歌。


Mikey:这太棒了!这比现有的音乐消费方式要更具社交性。现在人们只是听艺术家的音乐,在音乐中看到自己的影子,但无法真正与艺术家互动。你为女朋友创作歌曲是很了不起的事情。有人可能会说,如果你花一万小时学习吉他,就能不借助 Suno 做到这一点。


但是使用 AI 来创作有什么不好呢?这很棒!不过我也不希望音乐创作仅限于此,因为音乐既是社交的,也关乎艺术家的个人表达。很多艺术家甚至不在乎别人对他们音乐的看法,这就是所谓的 AI 艺术。但如果这种类型的流媒体体验让人如同吸毒一样沉迷,忘记一切,那就不够好,也不够有价值。


20VC:你提到了艺术,在进入快问快答环节前,我想引用 Ben Affleck 说过的话——艺术就是知道该做什么,艺术就是知道何时停止。你怎么看这个观点?


Mikey:这让我想起海明威说过的话,好像是关于醉时写作、清醒时编辑之类的。我认为这个领域正在经历自然演变,而且这个趋势正在加速。在未来,品味将变得比技能更重要,因为技术让创作变得更容易。真正被认可的将是那些能够从海量作品中用耳朵分辨好坏的人。


30 年前,人们想成为能够精湛演奏的摇滚明星;15 年前,人们追求成为掌握专业软件的 DJ,虽然不需要花 10 万小时练习乐器那么专业;而现在,人们想成为网红,就是为了出名而出名。在音乐领域,虽然不完全是这样的网红文化,但这种趋势已经显现。看看那些制作播放列表的人,他们只是在编排别人的音乐,本质上是在说"我有好品味,你会想听我的播放列表"。我认为未来就是这样:我有好品味,我能制作好的 Suno 音乐。我不会弹钢琴,不会弹吉他,但我很擅长从 Suno 音乐中挑选并让它听起来符合你的期待,这就让我成为了一个创作者。


10

AGI 不会自己发生,

需要我们去实现它


20VC:你相信什么是大多数人不相信的?


Mikey:大家都认为AI是不可避免的,但我不这么认为。我们需要主动去做它,如果我们只是说它是不可避免的,它不会自己发生。我们需要去实现它。


20VC:你认为我们会经历一个幻灭低谷吗?现在每个人都在期待 AI,但我最近参加了一个全球最大银行和 CEO 们参加的活动,他们发现 AI 的 ROI 并不在那里,完全不如预期。感觉我们正在走向 AI 寒冬。


Mikey:我不确定。我生活在马萨诸塞州剑桥的泡沫中,你生活在伦敦金融圈的泡沫中。这些人可能会感到幻灭,但整个世界会这样吗?我不确定,因为我认为大多数人实际上还没有什么期待。


20VC:作为 Suno 的CEO,你认为最困难的部分是什么?


Mikey:这可能不是 Suno 独有的问题,但最困难的是保持专注。在任何时候,我们都能找到大约 30 件对公司有重要影响的事情可以做,但我们必须从中谨慎地选择 3 件。因为音乐的未来现在是一片全新的未开发领域,我们可以探索很多不同的方向,必须要有所取舍。


20VC:能举个例子说明什么是你想做但为了保持专注而不做的事情吗?


Mikey:比如说,很多人都在要求我们提供 API。我们要做这个业务吗?我不确定。这与我想要构建的音乐未来的愿景并不完全相符。我们始终面临着一个权衡:到底要投入多少精力去构建传统的强大工具,又要投入多少精力去探索创造音乐的新型强大工具。


可能最重要的是,好的判断力比好的技能更重要。因为我们知道如何评估技能,但不知道如何评估判断力。所以现在每个人都在为考试而教学。


20VC:告诉我,在当今世界,什么事情最令你担忧?


Mikey:人们不善于认识问题的一阶效应,反而更容易关注二阶效应。这可能是因为关注二阶效应让人感觉更聪明或更贴近问题,但人们普遍不擅长判断不同效应的实际影响程度。


我在 MIT Sloan 商学院教书,让我举个例子。我们需要制定 AI 政策,比如是否允许学生使用 ChatGPT。很多人说 ChatGPT 会导致教育的终结,但我的回答是:不,ChatGPT 的一阶效应是让每个人都拥有了一个能力中等的导师或助手,这显然对教育是极其有益的。如果无法认识到这一点,我觉得这反映出判断力的问题。


现在说说二阶效应:确实,现在用一个好的 prompt 就能完成所有作业。作为教师,我需要改变教学内容。这很可怕,也需要大量工作。但如果我们不改变教学内容,就无法真正为学生适应真实世界做准备,因为大多数公司都会允许员工在工作中使用 ChatGPT。所以我应该准备学生去适应这种变化。


20VC:什么是你们没有预料到的 Suno 最有趣的使用场景?


Mikey:儿童使用已经成为了一个很普遍的场景,因为孩子们都很喜欢音乐,他们与音乐有着很深的共鸣。我自己使用 Suno 的时间有一半都是和我三岁的孩子一起。

我们发现在 ramp 信用卡支付的 AI 产品中,我们排在前列。很多人在使用它来进行销售冷邮件和市场营销,这些都是全新的使用场景。当有人给你写了一首个性化的歌曲时,你很难拒绝这样的冷邮件,我觉得这种方式非常有效。


20VC:我把我们为 Revolut 的CEO Nick Storonsky 制作的歌曲发给了 Revolut 团队,效果很棒。让我们来到最后一个问题,有什么我应该问你但还没问到的问题吗?


Mikey:我觉得我们之前提到过但被打断了,就是关于音乐的未来应该是什么样子。这个"应该"很重要,因为我们需要去建设它。这是我比任何其他问题都更频繁思考的事情。


我认为好的结果应该是让更多人能够创作更多音乐,让人们有更多时间接触音乐。所有的经济效益都将从这里产生。AI 将是实现这个目标的重要工具,它能让更多人参与创作,帮助我们更好地推荐音乐,甚至能让你为女朋友定制一首符合她品味的歌——这非常重要,因为只有她真正喜欢这首歌才能达到效果。


现在的问题是不够多的人能靠音乐谋生。我想到了 Instagram 如何改变了摄影行业。在 Instagram 之前,很少有人能靠摄影谋生。现在因为 Instagram,更多人可以以此为生。是的,这改变了摄影的基调,也降低了每张照片的价值,但从整体来看,这绝对是一个更好的未来。这就是我想为音乐行业做的事情。


文章来自于“Founder Park”,作者“Founder Park”。


5亿估值、2500万用户,Suno CEO专访:Instagram拯救了摄影,我们想用AI拯救音乐

关键词: AI , suno , AI音乐 , 人工智能
AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
AI音乐

【开源免费】suno-api是一个使用监听技术实现了调用suno功能,并封装好API的AI音乐项目。

项目地址:https://github.com/gcui-art/suno-api

2
AI工作流

【开源免费】n8n是一个可以自定义工作流的AI项目,它提供了200个工作节点来帮助用户实现工作流的编排。

项目地址:https://github.com/n8n-io/n8n

在线使用:https://n8n.io/(付费)


【开源免费】DB-GPT是一个AI原生数据应用开发框架,它提供开发多模型管理(SMMF)、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL(智能体工作流编排)等多种技术能力,让围绕数据库构建大模型应用更简单、更方便。

项目地址:https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file



【开源免费】VectorVein是一个不需要任何编程基础,任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤,并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。

项目地址:https://github.com/AndersonBY/vector-vein?tab=readme-ov-file

在线使用:https://vectorvein.ai/(付费)

3
prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。

项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md

在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0