这AI绝对偷了格莱美奖杯!直接把LLaMA喂成乐坛顶流:开源版Suno来了!

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
AITNT-国内领先的一站式人工智能新闻资讯网站 搜索
这AI绝对偷了格莱美奖杯!直接把LLaMA喂成乐坛顶流:开源版Suno来了!
3508点击    2025-03-27 14:07

家人们震惊了!现在 AI 成精啦,不仅能写能画,现在连唱功都是格莱美级的了!


魅惑空灵电音女声,也太好听了吧!


这AI绝对偷了格莱美奖杯!直接把LLaMA喂成乐坛顶流:开源版Suno来了!


酷佬街头说唱,怎么有一股八方来财的味儿?


这AI绝对偷了格莱美奖杯!直接把LLaMA喂成乐坛顶流:开源版Suno来了!


强混嘹亮欧美女高,像极了阿黛尔~


这AI绝对偷了格莱美奖杯!直接把LLaMA喂成乐坛顶流:开源版Suno来了!


极端的金属核嗓也不在话下!


这AI绝对偷了格莱美奖杯!直接把LLaMA喂成乐坛顶流:开源版Suno来了!


日韩女团风,日韩英三语无缝切换!


这AI绝对偷了格莱美奖杯!直接把LLaMA喂成乐坛顶流:开源版Suno来了!


还有这首 AI 新编版《世界赠与我的》!模仿王菲空灵仙嗓也太到位了吧,完全不一样的旋律,一样的嘎嘎好听,宁静中带一点哀伤的意境拿捏得简直了!


这AI绝对偷了格莱美奖杯!直接把LLaMA喂成乐坛顶流:开源版Suno来了!


模仿碧梨的慵懒声线,确定不是碧梨本人在唱?


这AI绝对偷了格莱美奖杯!直接把LLaMA喂成乐坛顶流:开源版Suno来了!


网友爆改 rap 版 YouTube 亿播神曲《Plastic Love》:


这AI绝对偷了格莱美奖杯!直接把LLaMA喂成乐坛顶流:开源版Suno来了!


YuE(乐):开源版 Suno AI


上述所有让网友跪着听的炸裂神曲,全都出自港科大和音乐圈 DeepSeek —— Multimodal Art Projection(MAP)联手开源音乐生成基座 —— YuE(乐)。


这AI绝对偷了格莱美奖杯!直接把LLaMA喂成乐坛顶流:开源版Suno来了!


  • 论文标题:YuE: Scaling Open Foundation Models for Long-Form Music Generation
  • 项目地址:https://github.com/multimodal-art-projection/YuE
  • Demo:https://map-yue.github.io
  • Arxiv:https://arxiv.org/abs/2503.08638


这个模型可太强啦,直接对标 Suno AI,自春节期间放出以来 GitHub 已飙星 4500+,推特累计浏览上百万次!老外刷着 demo 直接给 Suno 和 Udio 开起追悼会:闭源音乐生成这是药丸!


这AI绝对偷了格莱美奖杯!直接把LLaMA喂成乐坛顶流:开源版Suno来了!


作为第一个开源的全曲级歌曲生成基座,YuE 做到了连 Google 家的 MusicLM、Meta 家的 MusicGen 都做不到的事:不仅能建模长达 5 分钟的歌曲,又能同时生成专业级歌声和伴奏!


这是怎么实现的呢?


YuE 其实是一个双 LLaMA 语言模型架构(下图),因此无痛适配大部分大语言基建,非常容易 scale up。


  • 其中大的 Stage-1 LM 联合建模文本条件和粗粒度音频离散 token 序列。


  • 而小的 Stage-2 LM 基于大 LM 给出的粗粒度离散 token 合成剩余的(残差)细粒度 token。


  • 最后得到的多码本离散音频序列会送入 tokenizer decoder 重建回音频,并送入一个轻型上采样器重构 44.1khz 的音频。


这AI绝对偷了格莱美奖杯!直接把LLaMA喂成乐坛顶流:开源版Suno来了!


在 YuE 之前,主要的学界工作还是把歌声合成(Singing Voice Synthesis)和音乐生成(Music Generation)分开做的,只有像 Suno AI、Udio 这样的闭源玩家们成功探索出来了端到端的歌曲生成,把两种任务合并到一起建模。有个别学界工作会分阶段对人声和伴奏分别建模,但是效果距离商业闭源还是差距较大,也没有开源。这里就不得不提 YuE 的双轨版 Next-Token Prediction(Dual-NTP)策略了。


这AI绝对偷了格莱美奖杯!直接把LLaMA喂成乐坛顶流:开源版Suno来了!


YuE 的 Stage-1 LM 利用声伴分离先验,把人声和伴奏轨在同一个时间步分别用两个 token 建模(上图虚线框),巧妙地实现了歌声合成和音乐伴奏生成的联合建模。这不仅避免了离散 token 的信息损失问题,得以精准捕捉细腻人声,还保证了轨间对齐和端到端。


  • 如果使用 ΔWER 来表示语音内容重构损失,那么利用分离先验得到的人声轨(下左图橙)的损失显著小于合轨(下左图蓝),甚至在极端的金属风格下也能维持较低的语音内容重构损失。
  • 基于 Dual-NTP 训练的 LM 在相同的训练成本下也表现出比 NTP 更低的 loss(下右图橙 vs 蓝)。


这AI绝对偷了格莱美奖杯!直接把LLaMA喂成乐坛顶流:开源版Suno来了!


但为了达成数分钟级的歌曲建模,研究团队又对 Stage-1 LM 提出了另一个改进:结构化渐进生成(Structural Progressive Generation,缩写为 CoT),将歌曲拆分成主副歌段落后,通过文本 token(方形)、音频 token(圆形)在同上下文内交替排布的方式,避免了文本条件控制远程衰减的问题,使得人声轨能在全曲范围内准确跟随歌词控制。


这AI绝对偷了格莱美奖杯!直接把LLaMA喂成乐坛顶流:开源版Suno来了!


消融显示,这种带有文本中间态的 CoT 在 0.5B 下比其它方法(原版、课程学习、ABF)具有更低的 Whisper 转录歌词错误率(橙线),并在 scale up 到 7B 之后得到更显著的收益(蓝线)。受限于 Whisper 的歌声转录性能,20% 的错误率已经接近 groundtruth 原曲的错误率。


这AI绝对偷了格莱美奖杯!直接把LLaMA喂成乐坛顶流:开源版Suno来了!


不仅如此,团队还专门为音乐开发了特有的上下文学习(Music In-Context Learning,Music ICL)。与此前 TTS 领域的续写型 ICL 不同,音乐创作常常要求从一个动机出发向左右两边发展构造成曲,要避免抄袭鼓励创作。为此,Music ICL 将曲中任意 20~40 秒片段的音乐拼接到 CoT 数据开头,并在 Stage-1 LM 退火阶段利用约 2% 的计算量延迟激活这种格式。


团队发现,过早地激活 Music ICL 容易导致捷径学习(Shortcut Learning),让模型成为洗歌机器,对音乐创作能力有损。而延迟激活策略极大地节约了计算量,并且保护了模型的音乐性和创造力。这也带来了本文开头的风格克隆(Style Cloning)、声音克隆(Voice Cloning)、风格迁移(Style Transfer)的相应能力,模仿王菲、碧梨甚至爆改 Rap 版 City Pop。在测试时开启 ICL 和 CFG(Classifier Free Guidance)模式后,模型音乐性暴涨!


这AI绝对偷了格莱美奖杯!直接把LLaMA喂成乐坛顶流:开源版Suno来了!


团队将 Stage-1 LM 扩展到 1.75T token,7B 的规模后,在人类偏好评测中获得了闭源级的音乐性和综合评分。


这AI绝对偷了格莱美奖杯!直接把LLaMA喂成乐坛顶流:开源版Suno来了!


在人声音域上(下图数字越大音域越宽广),YuE 与国际领先的 Suno、Udio 处于同一水平线。


这AI绝对偷了格莱美奖杯!直接把LLaMA喂成乐坛顶流:开源版Suno来了!


在生成时长上,YuE 也位于国际领先水平。


这AI绝对偷了格莱美奖杯!直接把LLaMA喂成乐坛顶流:开源版Suno来了!


抄袭检测显示,即使提供训练集内样本,YuE 的查重率甚至低于学术数据集 GTZAN 的同流派内不同曲目相似度,更是远低于人类翻唱、改编曲目。


这AI绝对偷了格莱美奖杯!直接把LLaMA喂成乐坛顶流:开源版Suno来了!


不仅如此,YuE 还有非常不错的 embedding 质量。作为一个生成模型,它的单轨无条件模式可用于抽取全曲级 embedding,而且表征质量和 SOTA 表征学习模型处于同一水平,甚至在调性识别上还超过了最新自监督学习 SOTA MuQ。这下确认 YuE 唱歌不会跑调啦!


这AI绝对偷了格莱美奖杯!直接把LLaMA喂成乐坛顶流:开源版Suno来了!


还等什么,快来玩玩看吧~


  • 项目地址:https://github.com/multimodal-art-projection/YuE
  • Demo:https://map-yue.github.io
  • Arxiv:https://arxiv.org/abs/2503.08638
  • B 站讲解:https://b23.tv/YaYtvVi


交互式 Demo(非官方):


  • https://huggingface.co/spaces/fffiloni/YuE
  • https://yueai.app/zh/playground
  • https://yueai.ai


文章来自于“机器之心”,作者“机器之心”。


这AI绝对偷了格莱美奖杯!直接把LLaMA喂成乐坛顶流:开源版Suno来了!

关键词: AI , AI音乐 , YuE , 开源音乐模型
AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
声音克隆

【开源免费】MockingBird是一个5秒钟即可克隆你的声音的AI项目。

项目地址:https://github.com/babysor/MockingBird

2
无人直播

【开源免费】VideoChat是一个开源数字人实时对话,该项目支持支持语音输入和实时对话,数字人形象可自定义等功能,首次对话延迟低至3s。

项目地址:https://github.com/Henry-23/VideoChat

在线体验:https://www.modelscope.cn/studios/AI-ModelScope/video_chat


【开源免费】Streamer-Sales 销冠是一个AI直播卖货大模型。该模型具备AI生成直播文案,生成数字人形象进行直播,并通过RAG技术对现有数据进行寻找后实时回答用户问题等AI直播卖货的所有功能。

项目地址:https://github.com/PeterH0323/Streamer-Sales