解密中国首个“音乐版Sora” | 中国AIGC产业峰会

12585点击 2024-05-01 19:50

文生图、文生音频、文生视频、AI搜索引擎……大模型在多模态的进程可谓是愈演愈烈。

而聚焦在国内，有这么一家公司在AIGC大热潮的前后，单是“首个”就占了四席：

发布中国首个开源文本大模型
国内首个对标ChatGPT的双千亿级大模型
中国首个AI搜索
国内首个在线提供服务的MoE大模型

不卖关子，这家公司正是昆仑万维，并且就在最近，它还解锁了“中国首个音乐SOTA模型——天工音乐大模型”。

那么昆仑万维在多模态大模型的道路中是如何演进的？为何能够如此精准的先迈出每一步？

在本次中国AIGC产业峰会上，昆仑万维董事长兼CEO方汉回答了一切。

解密中国首个“音乐版Sora” | 中国AIGC产业峰会

为了完整体现方汉的思考，在不改变原意的基础上，量子位对演讲内容进行了编辑整理，希望能给你带来更多启发。

中国AIGC产业峰会是由量子位主办的行业峰会，20位产业代表与会讨论。线下参会观众近千人，线上直播观众300万，获得了主流媒体的广泛关注与报道。

话题要点

天工3.0发布，全面超越MoE大模型Grok-1
天工3.0在多轮搜索、搜索“研究模式”、智能体方面能力提升
中国首个音乐AIGC的SOTA模型
……

以下为方汉演讲全文：

天工3.0正式发布

我今天的演讲主题是“天工多模态大模型的演进落地”。

大家知道昆仑万维是从2022年12月发布了中国首个开源文本大模型，在2023年4月17日「天工1.0」发布，2023年8月23日发布了国内首个AI搜索产品——天工AI搜索。

解密中国首个“音乐版Sora” | 中国AIGC产业峰会

在今天，我们发布了「天工3.0」，这是中国首个在音乐AIGC领域达到SOTA的模型，同时我们将开源4000亿参数全球最大规模的MOE大模型，并且开始启动公测。

首先，「天工3.0」目前性能已经全面超越3140亿参数的MOE大模型Grok-1，是全球第一，这两个大模型目前都是开源的。

解密中国首个“音乐版Sora” | 中国AIGC产业峰会

我们可以看到在MMbench和MMbench-CN这两个测试集中，我们在性能指标上已经全面超越GPT-4V，综合排名全球领先。

解密中国首个“音乐版Sora” | 中国AIGC产业峰会

「天工3.0」目前在模型技术支持能力上提升超过20%，在数学、推理、代码、文创能力上提升超过30%。

通过专项的Agent训练，可以应付复杂的需求能力，在内容创作能力上全面升级，目前是能搜能写能读能聊能说能画能听能唱，在多模态能力上非常全面。

下面可以看到，「天工3.0」在多轮搜索与综合工具的调用能力上有了大幅提高。

例如，搜索“成都迪斯尼怎么去”大家知道，“成都迪斯尼”是个梗，我们能够准确识别出来“成都迪斯尼”是成都的一个小区，同时，大模型把“成都迪斯尼”的攻略生成出来之后，还会把它总结成一个攻略。

再比如，在问天气怎么样的时候，大模型会把上海的天气以卡片的形式展现给用户，最后生成相对应的图片。

再来看一下「天工3.0」在搜索能力上的“研究模式”，大家可能知道，学生在阅读文献的时候，需要总结大纲，再自己画脑图。

在以前这类工作非常烦琐，现在我们可以自动对搜索内容进行总结、自动生成大纲、拷贝到PowerPoint，就能自动生成PPT，同时最后再自动生成脑图。这对所有的研究工作者非常有帮助。

下面我们看一下「天工3.0」在智能体方面的进展，大家可以很方便地通过非代码的形式生成智能体，我们看现在生成的智能体在使用之后，可以生成一个关于特斯拉和小米SU7车型对比的表格，而且是多模态的生成，这个非常方便。

首个音乐AIGC的SOTA模型

目前，昆仑万维以AI大模型为底座，已经拥有AI社交、AI游戏、AI搜索、AI大模型、AI音乐、AI视频等六大业务矩阵。

我再给大家分享一下多模态大模型天工SkyMusic，这是目前首个音乐AIGC的SOTA模型。给大家听一下案例，这是庞博（喜剧明星）利用天工AI音乐创作的一首歌曲。

我们天工SkyMusic与SONO V3的版本对比，首先，在人声&BGM音质、人声自然度、发音可懂度等领域都有明显地提升。

我们这个技术模型的架构是类似Sora的DiT架构，目前数据集已经将近2000万首音乐，这才能在音乐指标上可以超过SUNO，达到目前的SOTA，也就是技术指标第一。

解密中国首个“音乐版Sora” | 中国AIGC产业峰会

我们独家优势在于根据示例音源生成音乐的能力，而不是根据标签来生成音乐。

根据示例音源生成音乐的能力可以让很多专业创作者用自己的一段小旋律生成完整的音乐，同时在人声合成方面支持单一语种方案输出能力，目前已经支撑粤语、四川话、北京话、上海话等多个方言。

最后，我们生成更具辨识度的自然人声，大家都知道如何区分每个歌手的人声，在合成上是有比较大的技术难度，我们目前基本上可以根据输入的语音达到更好的克隆。

目前天工SkyMusic音乐创作能力，首先，能够极大降低音乐创作门槛，人人皆可以歌明志。

大家可以看到，今天在我们公测的天工SkyMusic的功能下方，网友们创作的歌曲非常多，创作形式也非常多样。

之前制作一首歌的成本非常昂贵，因为首先要有音乐的基础能力，才能去作曲、才能编曲，还要有乐队帮助你去演奏合成，最后还得有专业的演唱能力，才能完成一首歌的制作。

通过天工SkyMusic，一个人只要花几分钟时间可以完整创作出一首可以发布的歌曲，这样极大降低了音乐创作门槛。让每个人可以创作出自己的歌曲。

同时，极大降低了音乐创作成本，对于全体内容行业来说是一个福音。大家知道，在各行各业使用音乐的地方非常多。

之前都有着比较昂贵的授权费用，在今天可以让各行各业使用的所有通过AI生成，成本可以迅速从几万块钱降到几分钱。

最后，我们也证明了中国研发可以在垂直领域做到全球的SOTA，这也是非常有意义的。大家知道，SOTA这个词是“State of the art”，当前技术指标第一的意思。

OpenAI为什么现在是全球估值最高的大模型企业？

因为在文本大模型以及视频生成大模型方面，它一直是全球的SOTA。对于中国公司来说，能否在垂直领域取得SOTA，也是你的企业能够获得技术红利的一个重要因素。

最后我跟大家分享一下，昆仑万维的使命与目标，是实现通用人工智能，让每个人更好地塑造和表达自我。

解密中国首个“音乐版Sora” | 中国AIGC产业峰会

为什么我们把这个分成了两段？

实现通用人工智能就是对标AGI，我们坚信通过文本大模型和多模态大模型不断演进，一定会实现通用人工智能；但与此同时，我们也可以通过AIGC能力的不断拓展，让每个人更好地塑造和表达自我。

我们可以看到从文本生成到图像生成，再到音乐生成以及视频生成，AIGC技术的演进能够让全世界创作内容的成本极大降低，从而打破强势文化利用资源来达到的垄断地位，让每个少数族群都能够创作属于自己的内容，实现真正的文化平权。

这也是我们作为一家在全球几十个国家都拥有业务的全球互联网平台企业所希望看到的一个愿景。

本文来自微信公众号“量子位”

解密中国首个“音乐版Sora” | 中国AIGC产业峰会

00:34

关键词: sora , AI音乐 , 天工音乐大模型 , 音乐大模型

AITNT资源拓展

根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考

AI代理

【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务，如比较价格、添加购物车、回复各种社交媒体等。
项目地址：https://github.com/browser-use/browser-use

AI音乐

【开源免费】suno-api是一个使用监听技术实现了调用suno功能，并封装好API的AI音乐项目。
项目地址：https://github.com/gcui-art/suno-api

智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的（AI Agents）项目。用户创建的智能体能够自动执行各种任务，从而让AI有步骤的去解决实际问题。
项目地址：https://github.com/Significant-Gravitas/AutoGPT

﻿【开源免费】MetaGPT是一个“软件开发公司”的智能体项目，只需要输入一句话的老板需求，MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色，包括产品经理 / 架构师 / 项目经理 / 工程师，MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址：https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

AI搜索

【开源免费】MindSearch是一个模仿人类思考方式的AI搜索引擎框架，其性能可与 Perplexity和ChatGPT-Web相媲美。
项目地址：https://github.com/InternLM/MindSearch
在线使用：https://mindsearch.openxlab.org.cn/

【开源免费】Morphic是一个由AI驱动的搜索引擎。该项目开源免费，搜索结果包含文本，图片，视频等各种AI搜索所需要的必备功能。相对于其他开源AI搜索项目，测试搜索结果最好。
项目地址：https://github.com/miurla/morphic/tree/main
在线使用：https://www.morphic.sh/

无人直播

【开源免费】VideoChat是一个开源数字人实时对话，该项目支持支持语音输入和实时对话，数字人形象可自定义等功能，首次对话延迟低至3s。
项目地址：https://github.com/Henry-23/VideoChat
在线体验：https://www.modelscope.cn/studios/AI-ModelScope/video_chat

【开源免费】Streamer-Sales 销冠是一个AI直播卖货大模型。该模型具备AI生成直播文案，生成数字人形象进行直播，并通过RAG技术对现有数据进行寻找后实时回答用户问题等AI直播卖货的所有功能。
项目地址：https://github.com/PeterH0323/Streamer-Sales