a16z 给一 5 人团队种子轮投了 4000 万美金，Stability AI 已实现 3 位数增长

6583点击 2024-12-10 16:26

Stability AI 可能会成为 AI 领域又一个很有意思的案例，4 月份前 CEO 因被投资人指责在领导力和财务方面混乱而辞职，导致整个公司处于破产收购边缘。

当时据说其收入还不到 500 万美金，但每个季度的亏损就超过了 3000 万美金，因此很多投资人都放弃了公司。但是6 月份 Stability AI 迎来了新的 CEO Prem Akkaraju，经过 6 个月的努力，Akkaraju 最近声称，Stability AI 已实现了 3 位数增长，并且已经不再有任何的负债，同时之前放弃了 Stability 的投资人都回来了，可以说是非常了不起。

Akkaraju 说 Stability AI 之前非常糟糕，糟糕到比之前苹果在 1997 年离破产只有 90 天还要糟糕，几乎接近破产。现在，不仅重新拿了新的融资，之前抛弃了 Stability 的 Coatue 和 Lightspeed 都重新回到了董事会，并且再次对其进行了投资（投资金额据说在 8000 万美金）。

此外，Stability 的投资人和董事会里还加入了 Facebook 前总裁 Sean Parker 和著名导演卡梅隆，其中 Sean Parker 担任执行董事长，Sean Parker 与 Akkaraju 的配合可以说打的非常漂亮。虽然 Akkaraju 没有透露具体的收入细节，但是他说公司现在的业务重心是 API 和许可服务，这让整体收入实现了 3 位数的增长。

Akkaraju 之前在一家叫 Weta Digital 的公司，这是一家视频特效公司，曾参与了多部漫威电影以及卡梅隆（James Cameron）执导的《阿凡达》电影的制作。

他在今年 6 月被正式任命为 CEO 之前就开始参与稳定公司的工作，在与投资人达成交易和摆脱稳定公司所有债务的过程中，他给卡梅隆打了电话，最后卡梅隆加入了公司董事会。

Stability AI 这半年的转型被一些投资人称为是一个奇迹，Greycroft 的一位投资人称，只有抓住别人看不到的机会才能获得超额回报，但他也没有透露这个别人没有看到的具体机会是啥，或许后续 Stability AI 的发展会透露更多关于这一段的转型经历。

另外，在我很看好的语音 AI 这块，继 Hume AI 之前推出共情 AI 语音接口以及 OpenAI 等大模型推出高级语音模式后，这个领域又迎来了一个新的重量级玩家，a16z 直接在种子轮投了 4000 万美金，估值 2 亿美金。

而其团队目前只有 5 个人，它声称要打造一个情感通用智能（EGI）：创造一种人类与AI之间自然、个性化且深度互动的连接。我们相信我们的使命是让AI真正关心人类，优先考虑共情和情感连接，而不是单纯追求超级智能。

这就是由前 OpenAI ChatGPT 高级语音共同创造者之一 Alexis Conneau 出来做的语音情感 AI 产品 WaveForms AI， WaveForms AI 在官方网站上说：

端到端音频语言模型让我们更接近与人工智能进行无缝、类人交流的梦想。音频模型现在已经能够实现实时、情感共鸣且沉浸式的语音交互。

WaveForms AI 的诞生是为了将这一愿景推向更远，并释放音频智能的全部潜力。我们的使命既简单又雄心勃勃：我们将解决语音图灵测试，并推动人工智能迈向能够激发灵感和连接人心的沉浸式体验。

Alexis Conneau 说，声音是人性和情感真正鲜活的地方，它以一种文字永远无法做到的方式传递深度、细微差别和人类互动的真实性。通过声音，我们不仅仅是交换词语——我们分享意义、共鸣和连接，创造出深具人性化的纽带。

与文本到语音系统不同，音频 LLM 能够原生处理音频输入和输出。这使它们能够捕捉声音的情感细微差别，实时响应，并以复杂的情感作出回应。通过理解对话的完整上下文，其模型将创造出前所未有的更有意义、更具影响力、更富有情感力量的体验。

a16z 给一 5 人团队种子轮投了 4000 万美金，Stability AI 已实现 3 位数增长

因此 WaveForms AI 要创造 AI 智能的一个新维度：音频智能。通过为 AI 注入社会情感层面，将使其更接近于人类的根本特质：我们的情感、关系以及彼此互动的方式。

创立 WaveForms AI 的 Alexis Conneau 之前是 OpenAI GPT4-o 高级语音模式神经网络的共同创造者之一，另一位联合创始人 Coralie Lemaitre 来自 Google，现在也是他的妻子；CTO Kartikay Khandelwal 之前则领导了 PyTorch 的 AI 生态，除此之外还有两位员工。

Alexis Conneau 说他的新公司将帮助人们用耳朵 "感受人工智能"，他认为在未来，与 AI 对话将成为与各种技术互动的一种更常见的方式，这可能包括与汽车对话、与电脑对话。因此 WaveForms 的目标是提供 "情感智能 "AI，为这一切提供便利。

他提到之前 ChatGPT 语音模式的区别，旧的语音模式只是将语音翻译成文本，然后通过 GPT-4 运行，再将文本转换回语音。但在高级语音模式中，GPT-4o 实际上是将语音分解成标记（每秒的音频大约等于三个标记），并直接通过音频专用模型运行这些标记，这也是高级语音模式能够实现如此低延迟的原因。

我们经常提到的一个说法是，音频 LLM 模型可以“理解情感”。就像基于文本的 LLM 是基于在成堆的文本文档中发现的模式一样，音频 LLM 也是通过人类说话的音频片段来做同样的事情。人类会将这些片段标注为 "悲伤 "或 "兴奋"，这样 AI 模型在听到你说这些话时就能识别出类似的声音模式，甚至能用自己的情感语调做出回应。因此，与其说它们“理解情绪”，不如说它们系统地识别出人类与这些情绪相关联的音频特质。

Alexis Conneau 的这个想法我比较认同，他说像 OpenAI 和其它大模型核心是在让 AI 更聪明，但是他的目标是让 AI 更有人性，也就是让 AI 更好的与人交流，人们会选择对他们来说最愉快的交流方式。

Alexis Conneau 是前 OpenAI 联合创始人兼首席科学家 Ilya Sutskever 招过来的人，他们在很多理念上比较类似，Alexis 说 Ilya Sutskever 经常和他谈论“感受 AGI”，也就是用直觉来评估我们是否已经达到了超智能人工智能。

a16z 在其博客里说，现在是时候将情感智能引入人工智能了。在很多领域，AI 的推理能力非常重要，但是在其它一些领域，情商与智商同样重要，为了创造最身临其境、最像人类的体验，我们需要让人工智能真正感觉像是在与人交谈，这包括让人工智能发出声音。

语音 AI 领域的应用，我们从 ElevenLabs 的快速增长《语音 AI 2 年 8000 万美金 ARR 估值 30 亿，又一法律 AI 估值 10亿美金了》，以及通过语音听各种娱乐内容的类播客产品做到 1 亿美金 ARR《腾讯参投的音频版 Netflix 快速崛起，1.5 亿美金 ARR 估值超 10 亿美金》，就能看到这块的需求是多么的庞大，而最近 ElevenLabs 更是自己下场做各种应用场景。

文章来自于“投资实习所”，作者“ StartupBoy”。

a16z 给一 5 人团队种子轮投了 4000 万美金，Stability AI 已实现 3 位数增长

关键词: Ai , a16z , Stability AI , SD

AITNT资源拓展

根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考

cursor

【免费】cursor-auto-free是一个能够让你无限免费使用cursor的项目。该项目通过cloudflare进行托管实现，请参考教程进行配置。
视频教程：https://www.bilibili.com/video/BV1WTKge6E7u/
项目地址：https://github.com/chengazhen/cursor-auto-free?tab=readme-ov-file

免费使用GPT-4o

【免费】ffa.chat是一个完全免费的GPT-4o镜像站点，无需魔法付费，即可无限制使用GPT-4o等多个海外模型产品。
在线使用：https://ffa.chat/