要用 Mamba 做可以在任何地方运行的实时智能系统。
Mamba 这种状态空间模型(SSM)被认为是 Transformer 架构的有力挑战者。近段时间,相关研究成果接连不断。而就在不久前,Mamba 作者 Albert Gu 与 Karan Goel、Chris Ré、Arjun Desai、Brandon Yang 一起共同创立的 Cartesia 获得 2700 万美元种子轮融资。
Cartesia 创立于 2023 年。该团队在相关博客中写到,他们的使命是「构建具有长记忆能力的实时智能,无论你身在何处都能运行。」而其中一部分目标便是「把(Mamba)这些前沿模型带给我们的客户,帮助他们构建实时 AI 应用的未来。」
Albert Gu 的推文
Cartesia 是斯坦福人工智能实验室(Stanford AI Lab)多年来在 SSM 上研究成果的结晶,算得上是学术界到产业界成果转化的又一典范。该团队写到:「在过去四年中,我们构建了 SSM 背后的理论,并对其进行了扩展,让其可在文本、音频、视频、图像和时间序列数据等多种模态下达到 SOTA 的结果。」
消息发布后,人们纷纷点赞,包括 Hugging Face 联合创始人 Thomas Wolf 以及 Vercel CEO Guillermo Rauch。
Transformer 的最大痛点就是线性注意力机制,这导致模型在处理长文本时计算量暴增,比如上下文增加 32 倍时,计算量将增加 1000 倍。Mamba 通过引入「SSM」,成功将计算量增长从平方级降至线性,不仅能处理百万级 token 的长序列,还实现了 5 倍的推理吞吐量提升。
「SSM」的突破让 Mamba 在语言建模方面的效果尤为出色,甚至能击败 Transformer。但从 Cartesia 的产品来看,Mamba 的主要作者 Albert Gu 首先把宝押在了文本转语音上。
他们将 Cartesia 的使命定位为打造具有长期记忆能力、可以在任何地方运行的实时智能系统。
Cartesia 的官方博客写道:「基于 Transformer 架构的模型仍有重要局限,它们一次只能处理和生成很短的信息(几分钟的音频或几秒钟的视频),无法高效地保持交互状态,在大多数硬件上实时运行的成本也太过昂贵。」而能将长序列数据压缩成固定大小的状态的 S4 和 Mamba 架构正好是这些问题的「特效药」。
基于这样的理念,Cartesia 在今年推出了第一个产品 Sonic。这是一个可部署在移动设备上的文本转语音模型,并提供 API 服务。
除了基础的文本转语音功能,Sonic 还支持声音克隆,并允许用户调节语速、情感、发音和口音等参数。
Sonic 目前支持 15 种语言,还可以按性别调整男性、女性和中性三种选项:
Cartesia 选择了「最快、质量最高」作为 Sonic 的宣传语:它可以在仅 90 毫秒内(大约是眨两次眼睛的时间)流式输出第一个音频字节,完美适用于实时和对话式体验。
机器之心也尝试了一下,Sonic 的速度确实是「超音速」级的,有点偏科,更擅长英语「母语」,中文的 AI 味仍然很重。
不过,从个人创作者和初创公司到大型企业,已有数千名客户在使用 Sonic,主要用于数字人和游戏场景。
例如,AI 模型平台服务商 Cerebrium 将 Sonic 集成到了 AI Avatar 中,通过 Mistral-7B 提供对话能力,配合 Tavus 的动画技术,实现了实时人机互动。在游戏领域,Sonic 与 Ego 合作,为 NPC 角色注入了独特的声音个性。
从免费到企业级,Cartesia 提供多层定价方案:免费版可使用 1 万字符;专业版 5 美元 / 月,支持 10 万字符;创业版 49 美元 / 月,可用 125 万字符;扩展版 299 美元 / 月,提供 800 万字符额度;企业版则完全定制化。各版本的系统同时能处理多少个语音生成任务从 1 到 15 不等,超出字符限制后可按量计费。
为音频和视频等富媒体信号构建长上下文生成模型一直面临着控制性差、容易出现偏差的挑战。在过去几个月,Cartesia 创建了一个新的 SSM 多流架构,可以在多个不同模态的数据流上并行,进行持续推理和生成。
Cartesia 在博客中称,「在这个新 SSM 架构基础上,我们训练了一个端到端的语音生成模型,它可以对文本进行精细控制以防止幻觉,同时保持端到端生成的超高真实感。这比之前的端到端音频生成架构有了根本性的改进,克服了处理复杂、冗长和重复的文本时遇到的困难。
以下是一些「卖家秀」:
提示词:你在以下时间有空吗?上午 10:00、10:05、10:10、10:15、10:20、10:25、10:30、10:35、10:40、10:45、10:50 或 10:55?
提示词:How much wood could a woodchuck chuck if a woodchuck could chuck wood? A woodchuck would chuck as much wood as a woodchuck could chuck if a woodchuck could chuck wood.
这个新模型(Sonic Preview)同样也可以试玩,在未来几周内将开放 API 服务。
Sonic Preview 目前还未开放除英语外的其他语种。不过,据我们在官方提供的 Playgound 中实测,Sonic Preview 的表现一般,「买家秀」和「卖家秀」差得还是有点大。至于博客中写的「超高真实感」嘛,可能还需继续努力。
Cartesia 虽然才刚刚建立,但已经有了 30 余位员工和多位顾问。该公司的网站写到:「我们的创始团队是在 Stanford AI Lab 互相认识的 PhD,我们在这里发明了状态空间模型 (SSM),这是一种用于训练更高质量、更高效的大规模基础模型的基本新原语。」
下面我们将简单介绍 Cartesia 的一些主要创始成员。
Albert Gu,从 Stanford AI Lab 毕业的博士生之一,现在不仅担任 Cartesia 首席科学家,同时也是卡内基・梅隆大学的助理教授。他还入选了《时代》杂志 2024 年 AI 领域百大影响力人物榜单。
2023 年,他在自己的博士学位论文中提出了 S4 架构(Structured State Spaces for Sequence Modeling),之后他与 Tri Dao 合作的 Mamba 便是在这一架构基础上的进一步泛化。
Karan Goel 目前正在 Stanford AI Lab 就读博士,导师为 Chris Ré 教授;此外,他的学术生涯中还得到了多位名师指导,其中包括李飞飞、Emma Brunskill、Jure Leskovec 和 Sidhartha Sinha 等多位斯坦福教授。
Goel 的研究方向非常广泛,包括模型审计方法(Robustness Gym、Mandoline)和模型稳健性(Model Patching)、机器学习交互式数据系统(Meerkat)、序列建模新原语(S4)以及序列模型在音频生成(SaShiMi)、图像和视频分类(S4ND)、时间序列预测和医疗应用(GERD Diagnosis)中的应用。
Christopher Ré,Stanford AI Lab、基础模型研究中心和机器学习研究组副教授。Cartesia 的其他所有联合创始人都是他的学生。
Ré 是 AI 领域的最知名的研究者之一,其主导或参与的研究成果包括 Flash Attention、曾发表于 Science 封面的 Evo、NeurIPS 2023 Spotlight 论文 HyenaDNA、ICLR 2023 Spotlight 论文 Ask Me Anything 等等许多。
Arjun Desai 也是 Stanford AI Lab 一位在读博士生。Akshay Chaudhari 和 Chris Ré 都是他的导师。其研究重点是信号处理和机器学习,以及如何为医疗和科学领域的应用构建可扩展的部署和验证系统。
Brandon Yang 也曾在 Stanford AI Lab 从事过博士研究,但中途离开学术界进入职场。之后先后在多家公司和团队从事开发工作。2016 年,他参与创立了生产力平台公司 Cadence 并担任 CEO。之后又回到 Stanford AI Lab 担任过一段时间的研究助理,在 Emma Brunskill 的指导下参与了生成对抗树搜索研究,并在吴恩达的指导下研究开发了一些用于医学问题的机器学习算法和数据集。
这段经历之后,他又先后在 deeplearning.ai、谷歌、Snorkel AI 等公司工作。可以说具有非常丰富的学术界和产业界经历。
除了以上的联合创始团队,Cartesia 还吸纳了另一些研究者和开发者的加入。
Cartesia 的技术团队
Cartesia 也有一个相当厉害的顾问团队。
参考链接:
https://x.com/_albertgu/status/1867276846917906592
https://www.cartesia.ai/blog/seed
文章来自微信公众号“机器之心”
【开源免费】MockingBird是一个5秒钟即可克隆你的声音的AI项目。
项目地址:https://github.com/babysor/MockingBird
【开源免费】Fay开源数字人框架是一个AI数字人项目,该项目可以帮你实现“线上线下的数字人销售员”,
“一个人机交互的数字人助理”或者是一个一个可以自主决策、主动联系管理员的智能体数字人。
项目地址:https://github.com/xszyou/Fay
【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。
项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md
在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0
【开源免费】VideoChat是一个开源数字人实时对话,该项目支持支持语音输入和实时对话,数字人形象可自定义等功能,首次对话延迟低至3s。
项目地址:https://github.com/Henry-23/VideoChat
在线体验:https://www.modelscope.cn/studios/AI-ModelScope/video_chat
【开源免费】Streamer-Sales 销冠是一个AI直播卖货大模型。该模型具备AI生成直播文案,生成数字人形象进行直播,并通过RAG技术对现有数据进行寻找后实时回答用户问题等AI直播卖货的所有功能。
项目地址:https://github.com/PeterH0323/Streamer-Sales