国内首个音乐版「ChatGPT」来了！Sora同款架构，唱作技巧全面发展，还剧透了全新MoE大模型

9536点击 2024-04-03 14:17

AI音乐大模型最近有多火，不用多介绍了吧？

不过，海外版应用别的先不说，奇奇怪怪的中文AI发音就能把人难受死……

好在卷应用嘛，国产大模型厂商没在怕的，这不，国产版音乐“ChatGPT”这就来了~

这情感表现力，是有那么点竞争短视频神曲的潜质了。

国内首个音乐版「ChatGPT」来了！Sora同款架构，唱作技巧全面发展，还剧透了全新MoE大模型

如此作品，背后作者正是刚刚开放邀测的国产AI音乐生成大模型「天工SkyMusic」。

4月2日，昆仑万维官宣，「天工SkyMusic」基于昆仑万维「天工3.0」超级大模型打造，即日起面向社会开启免费邀测。

本轮测试已开放1000个免费名额，面向行业媒体、专家，以及感兴趣的音乐从业者开放。

据官方消息称，昆仑万维「天工SkyMusic」首日预约申请已有几十万。

已经有网友玩上并po出了作品：

「天工SkyMusic」也是目前国内唯一公开可用的AI音乐生成大模型。

昆仑万维工程师透露，「天工SkyMusic」是昆仑万维情感AGI研究方向上的重要成果：

智力固然重要，但情感是我们能够被称之为人的关键。

我们发现相比文本和图片，音频内容是理解人类情感最好的方式，而音乐又是人类情感表达最充沛、最不受地域和文化限制的内容载体。

采用自研类Sora模型架构

来看具体技术细节。

「天工SkyMusic」采用音乐音频领域类Sora模型架构：

Large-scale Transformer 负责谱曲，来学习 Music Patches 的上下文依赖关系，同时完成音乐可控性；

Diffusion Transformer 负责演唱，通过LDM让Music Patches被还原成高质量音频，使得「天工SkyMusic」能够支持生成80秒44100Hz 采样率双声道立体声歌曲。

这套模型架构在处理视频、音频和音乐领域效果极佳。昆仑万维团队还计划在后续逐步迭代和添加新的能力，让模型具备多模态的情感理解与表达能力。

国内首个音乐版「ChatGPT」来了！Sora同款架构，唱作技巧全面发展，还剧透了全新MoE大模型

「天工SkyMusic」具有以下五大特点：

高质量AI音乐

「天工SkyMusic」能够生成80秒44100Hz采样率双声道立体声AI歌曲，并可根据用户输入的歌词风格生成对应歌曲风格。

人声以假乱真

人声合成是AI音乐生成中最重要、最能体现生成效果和品质的维度。「天工SkyMusic」的AI人声合成能够达到业内顶尖的SOTA水平，尤其是中文发音清晰、无异响，演唱效果显著好于国外产品。

歌词段落控制

「天工SkyMusic」能够通过歌词来控制歌曲，让生成的歌曲可以明确分辨出不同歌词段落的情绪变化，体现出主歌和副歌、前奏和主歌的段落差异。

多种音乐风格

「天工SkyMusic」支持说唱、民谣、放克、古风、电子等多种音乐风格，用户在创作音乐时，可以通过参考音频制定想要的音乐风格。

音乐智能表达：歌唱技巧学习

「天工SkyMusic」同时能够学习如颤音、歌剧、吟唱、男女对唱，自动和声等多种歌唱技巧，让用户创作的歌曲得到更恰当的情感表达。

基于「天工3.0」大模型打造

在「天工SkyMusic」背后，有一点值得关注的是，昆仑万维同时剧透了自家MoE大模型「天工3.0」的最新信息：

4月17日，「天工3.0」将正式开启公测，并同步开源。

「天工3.0」是4000亿级参数MoE混合专家模型，是全球模型参数最大、性能最强的MoE模型之一。

国内首个音乐版「ChatGPT」来了！Sora同款架构，唱作技巧全面发展，还剧透了全新MoE大模型

官方表示，相较于上一代「天工2.0」MoE大模型，「天工3.0」在模型语义理解、逻辑推理、以及通用性、泛化性、不确定性知识、学习能力等领域都拥有显著的性能提升，其模型技术知识能力提升超过20%，数学/推理/代码/文创能力提升超过30%。

同时，「天工3.0」新增了搜索增强、研究模式、调用代码及绘制图表、多次调用联网搜索等能力，并针对性地训练了模型的Agent能力，使得「天工3.0」能够独立完成规划、调用、组合外部工具及信息，以精准高效地完成产业分析、产品对比等各类复杂需求。

「天工3.0」也是全球首个多模态“超级模型”（Super Model），集成了AI搜索、AI写作、AI长文本阅读、AI对话、AI语音合成、AI图片生成、AI漫画创作、AI图片识别、AI音乐生成、AI代码写作、AI表格生成等多项能力，堪称大模型时代的“超级应用”。

更多剧透，我们分成四个方面来看：

逻辑推理能力更强

逻辑推理能力的提升对于大模型解决复杂问题至关重要，「天工3.0」的数学与推理能力均提升超过30%，强大的逻辑推理能力使其能够在实际应用中更加准确和高效地处理信息。

例如，在「天工3.0」AI搜索的研究模式中，模型能够围绕用户的某个简单指令进行相关问题的延伸，并实时判断该段落信息是否需要联网搜索，能够实现如对某个行业进行细致的拆解分析，总结相关事件、拆解产业链地图等复杂功能，并以结构化或思维导图的形式进行最终展示，让模型更“聪明”。

语义理解能力更强

「天工3.0」能够更好地理解和处理用户自然语言Query中的复杂语义信息，包括隐喻、多义词等。

例如，在「天工3.0」AI搜索的增强搜索中，模型能够针对用户的复杂Query进行拆解、细化、并进行追问、信息理解与补全，使其在自然语义理解方面性能更强，面对不确定性知识时表现更好，能够更精准、高效地满足用户需求。

专项Agent训练，应对复杂需求能力更强

大模型时代，AI Agent（智能体）已经成为大模型技术的主流落地方向。

「天工3.0」针对模型独立规划、调用、组合外部工具及信息的能力进行了专项训练，使其能够独立生成并调用代码，完成包括产业研究、产品横评、信息分析、图片生成、图表绘制等多种复杂用户需求，并成为具备多个领域专业知识和能力的全能专家，以强大的语义理解及逻辑推理能力对用户需求进行深度理解，并把任务拆解成细分环节，发到不同的最优模型去处理，最大程度提升模型性能。

同时，针对B端用户，「天工3.0」也在知识库能力、任意工具调用能力、复杂角色指令追寻能力等领域进行了全面升级，企业用户可以通过上传知识文档构建专属知识库及Agent，并实现自动调用制定工具、完成复杂指令遵循Agent构建等实用能力。

内容创作能力全面升级

内容创作能力一直是「天工」系列大模型的强项，在上一代「天工2.0」大模型的基础上，「天工3.0」更是进行了全面的内容创作能力升级，其不仅能实现AI音乐生成、AI语音、AI对话、AI二次元漫画生成等强大的内容创作能力，更是通过专项Agent训练实现了在对话中结合文本需求实时生成图片、结合文本需求实时内容分析及图表构建等能力，成为真正能搜、能写、能读、能聊、能听、能说、能画、能看、能唱的超级模型。

昆仑万维董事长兼CEO方汉对此表示，“超级模型”是大模型时代发展的必然，未来，行业内将出现不止一个“超级模型”，昆仑万维也将持续朝着这一方向不断努力，持续为用户提供更智能、更高效、更可靠的人工智能服务。

国内首个音乐版「ChatGPT」来了！Sora同款架构，唱作技巧全面发展，还剧透了全新MoE大模型

All in AGI与AIGC

自2023年确定“All in AGI 和 AIGC”战略后，在AIGC应用领域，昆仑万维已围绕自研「天工」系列大模型，推出了一系列前沿AI产品：

2023年8月，昆仑万维推出国内第一款AI搜索产品天工AI搜索。

9月，昆仑万维推出多模态大模型Skywork-MM，在多模态大语言模型测评MME中综合得分排名第一。

10月，昆仑万维开源百亿级大语言模型天工Skywork-13B系列。

12月，昆仑万维发布国内领先的AI Agent开发平台天工SkyAgents。

2024年2月，天工基座大模型更是迎来了推出以来的最大版本更新天工2.0，成为国内首个搭载MoE架构并面向全体C端用户免费开放的千亿级参数大语言模型AI应用。

再加上最新亮相的天工SkyMusic，基于天工系列大模型，昆仑万维已构建起AI大模型、AI搜索、AI音乐、AI 社交、AI动漫、AI游戏等AI业务矩阵，是国内模型技术与工程能力最强、布局最全面的人工智能企业之一。

这样的成绩单之下，此番「天工3.0」究竟会带来怎样的体验，值得期待。

我们也将第一时间测评体验，你有什么想测试的，不妨在评论区告诉我们~

文章来自微信公众号“量子位”，作者:量子位

国内首个音乐版「ChatGPT」来了！Sora同款架构，唱作技巧全面发展，还剧透了全新MoE大模型

关键词: 天工SkyMusic , 音乐版chatGPT , AI作曲 , AI音乐 , AI音乐生成器

AITNT资源拓展

根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考

cursor

【免费】cursor-auto-free是一个能够让你无限免费使用cursor的项目。该项目通过cloudflare进行托管实现，请参考教程进行配置。
视频教程：https://www.bilibili.com/video/BV1WTKge6E7u/
项目地址：https://github.com/chengazhen/cursor-auto-free?tab=readme-ov-file

AI代理

【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务，如比较价格、添加购物车、回复各种社交媒体等。
项目地址：https://github.com/browser-use/browser-use

AI漫画

【开源免费】ai-comic-factory是一个利用AI生成漫画的创作工具。该项目通过大语言模型和扩散模型的组合使用，可以让没有任何绘画基础的用户完成属于自己的漫画创作。
项目地址：https://github.com/jbilcke-hf/ai-comic-factory?tab=readme-ov-file
在线使用：https://aicomicfactory.app/

AI音乐

【开源免费】suno-api是一个使用监听技术实现了调用suno功能，并封装好API的AI音乐项目。
项目地址：https://github.com/gcui-art/suno-api

智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的（AI Agents）项目。用户创建的智能体能够自动执行各种任务，从而让AI有步骤的去解决实际问题。
项目地址：https://github.com/Significant-Gravitas/AutoGPT

﻿【开源免费】MetaGPT是一个“软件开发公司”的智能体项目，只需要输入一句话的老板需求，MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色，包括产品经理 / 架构师 / 项目经理 / 工程师，MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址：https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

知识库

【开源免费】FASTGPT是基于LLM的知识库开源项目，提供开箱即用的数据处理、模型调用等能力。整体功能和“Dify”“RAGFlow”项目类似。很多接入微信，飞书的AI项目都基于该项目二次开发。
项目地址：https://github.com/labring/FastGPT

RAG

【开源免费】graphrag是微软推出的RAG项目，与传统的通过 RAG 方法使用向量相似性作为搜索技术不同，GraphRAG是使用知识图谱在推理复杂信息时大幅提高问答性能。
项目地址：https://github.com/microsoft/graphrag

【开源免费】Dify是最早一批实现RAG，Agent，模型管理等一站式AI开发的工具平台，并且项目方一直持续维护。其中在任务编排方面相对领先对手，可以帮助研发实现像字节扣子那样的功能。
项目地址：https://github.com/langgenius/dify

【开源免费】RAGFlow是和Dify类似的开源项目，该项目在大文件解析方面做的更出色，拓展编排方面相对弱一些。
项目地址：https://github.com/infiniflow/ragflow/tree/main

【开源免费】phidata是一个可以实现将数据转化成向量存储，并通过AI实现RAG功能的项目
项目地址：https://github.com/phidatahq/phidata

【开源免费】TaskingAI 是一个提供RAG，Agent，大模型管理等AI项目开发的工具平台，比LangChain更强大的中间件AI平台工具。
项目地址：https://github.com/TaskingAI/TaskingAI

AI搜索

【开源免费】MindSearch是一个模仿人类思考方式的AI搜索引擎框架，其性能可与 Perplexity和ChatGPT-Web相媲美。
项目地址：https://github.com/InternLM/MindSearch
在线使用：https://mindsearch.openxlab.org.cn/

【开源免费】Morphic是一个由AI驱动的搜索引擎。该项目开源免费，搜索结果包含文本，图片，视频等各种AI搜索所需要的必备功能。相对于其他开源AI搜索项目，测试搜索结果最好。
项目地址：https://github.com/miurla/morphic/tree/main
在线使用：https://www.morphic.sh/