Stability AI 可能会成为 AI 领域又一个很有意思的案例,4 月份前 CEO 因被投资人指责在领导力和财务方面混乱而辞职,导致整个公司处于破产收购边缘。
当时据说其收入还不到 500 万美金,但每个季度的亏损就超过了 3000 万美金,因此很多投资人都放弃了公司。但是6 月份 Stability AI 迎来了新的 CEO Prem Akkaraju,经过 6 个月的努力,Akkaraju 最近声称,Stability AI 已实现了 3 位数增长,并且已经不再有任何的负债,同时之前放弃了 Stability 的投资人都回来了,可以说是非常了不起。
Akkaraju 说 Stability AI 之前非常糟糕,糟糕到比之前苹果在 1997 年离破产只有 90 天还要糟糕,几乎接近破产。现在,不仅重新拿了新的融资,之前抛弃了 Stability 的 Coatue 和 Lightspeed 都重新回到了董事会,并且再次对其进行了投资(投资金额据说在 8000 万美金)。
此外,Stability 的投资人和董事会里还加入了 Facebook 前总裁 Sean Parker 和著名导演卡梅隆,其中 Sean Parker 担任执行董事长,Sean Parker 与 Akkaraju 的配合可以说打的非常漂亮。虽然 Akkaraju 没有透露具体的收入细节,但是他说公司现在的业务重心是 API 和许可服务,这让整体收入实现了 3 位数的增长。
Akkaraju 之前在一家叫 Weta Digital 的公司,这是一家视频特效公司,曾参与了多部漫威电影以及卡梅隆(James Cameron)执导的《阿凡达》电影的制作。
他在今年 6 月被正式任命为 CEO 之前就开始参与稳定公司的工作,在与投资人达成交易和摆脱稳定公司所有债务的过程中,他给卡梅隆打了电话,最后卡梅隆加入了公司董事会。
Stability AI 这半年的转型被一些投资人称为是一个奇迹,Greycroft 的一位投资人称,只有抓住别人看不到的机会才能获得超额回报,但他也没有透露这个别人没有看到的具体机会是啥,或许后续 Stability AI 的发展会透露更多关于这一段的转型经历。
另外,在我很看好的语音 AI 这块,继 Hume AI 之前推出共情 AI 语音接口以及 OpenAI 等大模型推出高级语音模式后,这个领域又迎来了一个新的重量级玩家,a16z 直接在种子轮投了 4000 万美金,估值 2 亿美金。
而其团队目前只有 5 个人,它声称要打造一个情感通用智能(EGI):创造一种人类与AI之间自然、个性化且深度互动的连接。我们相信我们的使命是让AI真正关心人类,优先考虑共情和情感连接,而不是单纯追求超级智能。
这就是由前 OpenAI ChatGPT 高级语音共同创造者之一 Alexis Conneau 出来做的语音情感 AI 产品 WaveForms AI, WaveForms AI 在官方网站上说:
端到端音频语言模型让我们更接近与人工智能进行无缝、类人交流的梦想。音频模型现在已经能够实现实时、情感共鸣且沉浸式的语音交互。
WaveForms AI 的诞生是为了将这一愿景推向更远,并释放音频智能的全部潜力。我们的使命既简单又雄心勃勃:我们将解决语音图灵测试,并推动人工智能迈向能够激发灵感和连接人心的沉浸式体验。
Alexis Conneau 说,声音是人性和情感真正鲜活的地方,它以一种文字永远无法做到的方式传递深度、细微差别和人类互动的真实性。通过声音,我们不仅仅是交换词语——我们分享意义、共鸣和连接,创造出深具人性化的纽带。
与文本到语音系统不同,音频 LLM 能够原生处理音频输入和输出。这使它们能够捕捉声音的情感细微差别,实时响应,并以复杂的情感作出回应。通过理解对话的完整上下文,其模型将创造出前所未有的更有意义、更具影响力、更富有情感力量的体验。
因此 WaveForms AI 要创造 AI 智能的一个新维度:音频智能。通过为 AI 注入社会情感层面,将使其更接近于人类的根本特质:我们的情感、关系以及彼此互动的方式。
创立 WaveForms AI 的 Alexis Conneau 之前是 OpenAI GPT4-o 高级语音模式神经网络的共同创造者之一,另一位联合创始人 Coralie Lemaitre 来自 Google,现在也是他的妻子;CTO Kartikay Khandelwal 之前则领导了 PyTorch 的 AI 生态,除此之外还有两位员工。
Alexis Conneau 说他的新公司将帮助人们用耳朵 "感受人工智能",他认为在未来,与 AI 对话将成为与各种技术互动的一种更常见的方式,这可能包括与汽车对话、与电脑对话。因此 WaveForms 的目标是提供 "情感智能 "AI,为这一切提供便利。
他提到之前 ChatGPT 语音模式的区别,旧的语音模式只是将语音翻译成文本,然后通过 GPT-4 运行,再将文本转换回语音。但在高级语音模式中,GPT-4o 实际上是将语音分解成标记(每秒的音频大约等于三个标记),并直接通过音频专用模型运行这些标记,这也是高级语音模式能够实现如此低延迟的原因。
我们经常提到的一个说法是,音频 LLM 模型可以“理解情感”。就像基于文本的 LLM 是基于在成堆的文本文档中发现的模式一样,音频 LLM 也是通过人类说话的音频片段来做同样的事情。人类会将这些片段标注为 "悲伤 "或 "兴奋",这样 AI 模型在听到你说这些话时就能识别出类似的声音模式,甚至能用自己的情感语调做出回应。因此,与其说它们“理解情绪”,不如说它们系统地识别出人类与这些情绪相关联的音频特质。
Alexis Conneau 的这个想法我比较认同,他说像 OpenAI 和其它大模型核心是在让 AI 更聪明,但是他的目标是让 AI 更有人性,也就是让 AI 更好的与人交流,人们会选择对他们来说最愉快的交流方式。
Alexis Conneau 是前 OpenAI 联合创始人兼首席科学家 Ilya Sutskever 招过来的人,他们在很多理念上比较类似,Alexis 说 Ilya Sutskever 经常和他谈论“感受 AGI”,也就是用直觉来评估我们是否已经达到了超智能人工智能。
a16z 在其博客里说,现在是时候将情感智能引入人工智能了。在很多领域,AI 的推理能力非常重要,但是在其它一些领域,情商与智商同样重要,为了创造最身临其境、最像人类的体验,我们需要让人工智能真正感觉像是在与人交谈,这包括让人工智能发出声音。
语音 AI 领域的应用,我们从 ElevenLabs 的快速增长《语音 AI 2 年 8000 万美金 ARR 估值 30 亿,又一法律 AI 估值 10亿美金了》,以及通过语音听各种娱乐内容的类播客产品做到 1 亿美金 ARR《腾讯参投的音频版 Netflix 快速崛起,1.5 亿美金 ARR 估值超 10 亿美金》,就能看到这块的需求是多么的庞大,而最近 ElevenLabs 更是自己下场做各种应用场景。
文章来自于“投资实习所”,作者“ StartupBoy”。