Z Potentials|冷月,00后打造AI语音平台Fish Audio,半年增长500万美元ARR,打造永不背叛AI语音陪伴

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
AITNT-国内领先的一站式人工智能新闻资讯网站 搜索
Z Potentials|冷月,00后打造AI语音平台Fish Audio,半年增长500万美元ARR,打造永不背叛AI语音陪伴
4248点击    2025-06-05 17:19

Z Potentials|冷月,00后打造AI语音平台Fish Audio,半年增长500万美元ARR,打造永不背叛AI语音陪伴


从电话录音机到播客,从语音助手到虚拟主播,语音技术在过去几十年里经历了从“工具型服务”向“内容型产品”的演化。大模型的快速崛起让语音技术的发展进入了一个新的跃迁周期,人们对语音产品的期待从听懂”内容“逐渐跃迁到听懂”情绪“。情感语音合成、语音驱动角色等新场景不断涌现,AI使语音技术不再只是配音的工具,而正在成为交互入口与内容表达的核心媒介。


在这个变革拐点上,一方面,各类开源语音模型在快速迭代,另一方面,寻找一个落地场景,让模型的技术与用户场景更贴合,成为产品落地的重要问题。其中,“语音陪伴”这一场景仍是一块待深耕的蓝海,它不仅考验模型对人类情感的理解能力,更考验这种人机交互模式背后信任感的构建。


本期我们采访了 Hanabi AI 的创始人冷月,他曾是英伟达的研究员,也是一位深耕开源的00后开发者。Hanabi AI 的代表产品 Fish Audio 是一个出色的 AI 语音合成平台,能够支持多语言文本转语音和高精度的声音克隆。在短短几个月内,Fish Audio 经历了从0到400万美元营收的高速增长,成为AI语音赛道中最受关注的产品之一。在这场访谈中,我们将跟随冷月的讲述,一起理解 Fish Audio 的创建初衷、技术策略,其背后的团队文化,以及他们如何理解“AI语音”的未来形态。让我们进入这场语音与人、模型与团队之间的深度对话。Enjoy!


Z Potentials|冷月,00后打造AI语音平台Fish Audio,半年增长500万美元ARR,打造永不背叛AI语音陪伴


01 从少年编程者到AI创业者:打造可信赖的语音陪伴AI


ZP:请先简单介绍⼀下自己的背景,如求学,刚开始工作时的经历、成长和映射到现在的价值观等?


冷月:我2023年从马里兰大学毕业,然后全职加入英伟达。做 Vision Foundation Model 相关的研究,其中主要的部分是语言模型。在英伟达期间,我也学习到了很多宝贵的经验,包括如何在大规模的集群上面做训练和推理,大规模的数据清洗等。我们团队完成了英伟达内部的 billion-level 的图像数据的抓取,以及相关模型的训练。去年7月,我从英伟达离职,全职来创办现在的公司(Hanabi AI),我们的产品叫做 Fish Audio。


但其实更早之前,我就已经开始做开源了。因为我的父母都从事软件相关的工作,所以我从小学就开始编程,高中开始做开源做图像识别的相关工作。同时,我自己也接单做一些小的平台,大概做到了20-30万美金的年收入,也认识了现在的几位核心工程师,其中两位是从那个时候起就和我一直合作到现在的。


在广州外国语学校读完高中后,我就来到了美国的马里兰大学读计算机科学专业。但坦白讲,本科的工学学习对我而言比较简单,所以我就花了更多的时间在开源的工作上。三年前,我开始对语音合成和语音克隆产生兴趣。因为我本人是二次元的爱好者,通过看番、虚拟主播等,我也和朋友想去研究如何去克隆一个动漫里的角色的声音。我和几位朋友一起深入研究了这个方向,参与开源了 So-VITS-SVC,也为 GPT-SoVITS 的早期版本提供了训练资源。当时我们的算力有限,很多训练都是在我家里的4090 们上完成的。


Z Potentials|冷月,00后打造AI语音平台Fish Audio,半年增长500万美元ARR,打造永不背叛AI语音陪伴


我们逐步从早期的变声器模型出发,开始探索如何让模型做出更自然、细腻的情感表达,这也促使我们设计了结合语义建模的小型语言模型,比如 Bert-VITS2 等。在预算紧张、资源有限的情况下,我们还是取得了一些突破性的成果。


大约在两年前,我也遇到了个人的一个转折点。当时我被在一起六七年的女朋友绿了,这也奠定了我之后想做 AI 的基础——我开始思考人与人之间的连接是否真的可靠。相比之下,我认为人和AI的关系是可以更稳定、更值得信赖的,尤其在开源模型和权重的保障下,AI 没有背叛你的动机,可以成为更可靠的陪伴因此从2023年起,我开始思考如何构建一个真正的 AI 陪伴类产品,比如一个虚拟男友/女友,一个赛博父母等等。


我们发现,当时语言模型的发展已具备一定能力,但语音合成技术仍非常薄弱。市面上的相关开源产品体验都不尽如人意。于是我们决定去深入了解这个领域并推进相关技术的发展。


我们选择做一个面向 C 端用户的产品,而不是单纯提供 API。这是出于两方面的考虑:一方面我们认为,只有通过与用户紧密交互,我们才能获得真实的反馈(比如点赞、踩、下载等数据),借此进一步来向着用户满意的方向去训练和优化模型。在强化学习上我们投入了不少精力。


另一方面,作为一家 AI 初创公司,我们认为同时布局应用层和底层模型是更优路径。单纯做 API 层风险太大,容易被竞品模仿;而只做底层模型也容易被客户替代。我们参考了许多公司的做法,例如 OpenAI 的 ChatGPT 和 Midjourney 的 TOC 模式,最终我们决定更聚焦于面向消费者的语音陪伴产品,同时也会为各种各样的应用开发者开放 API。


02 团队成员的能动性是最强的底层架构


ZP:这是您的第一次创业,那您会如何定义自己作为一个创业者的角色,以及如何定义您的团队?


冷月:虽然我之前做过很多个人项目,但这次确实是我第一次真正意义上的创业。在这个过程中,我也走过了很多创业者都会经历的坑,比如与联合创始人理念不合、团队成员的变动,或者在早期融资阶段缺乏经验等。对我而言,这是一个逐渐成长的过程,我也更明白怎么去甄别并选择合适的合作伙伴和投资人。


关于我们的团队,我一直都是很感激的。我们团队成员的工程能力很强,执行力非常高,主观能动性也很强。通常只需要在任务工具上确定好,大家就会去稳步执行。每周一次的同步一般就足够保证整体的进度。


除此之外,无论是做数据还是模拟相关,团队里的大家都非常努力。大多数人都是奔着打造 AI 陪伴类产品的目标来的。在早期阶段,甚至连工资都发不出的时候,大家也依然选择留下来。


ZP:您认为是团队的什么特质带来了这样的技术突破?您如何定义团队里每个人的角色?


冷月:我认为团队最关键的特质是 passion 和 mission-driven 的心态。我们这边的成员大多都有明确的使命感,很多人都来自开源社区,他们加入我们,并不是单纯为了完成某个任务,而是在做一件自己真正热爱的事情。大家普遍很“卷”,不仅愿意花时间,还会不断推敲:一个东西到底哪里可以更好,怎么才能做到自己心中理想的状态。


我们的团队每个人都有自己的特点以及对应独立负责的模块。比如说,我们把一个功能需求拆解后放到 Linear 任务系统中,谁认领了,就从头做到尾。我认为这种工作方式对于公司未来的扩张特别重要:因为当一个人能完全负责一个板块,他就对其中的 bug、边界问题负有全责,不可能推诿。反过来,如果他在执行中遇到困难,也可以主动寻求团队或社区的帮助。这种机制让我们的开发协作非常高效,最大限度地减少了不必要的沟通成本,也极大增强了执行力。


ZP:您在本次创业⾯临过什么样的挑战?


冷月:如果要说最大的挑战,我认为应该是在2023年年底那段时间。那时我刚从英伟达离职三四个月左右,虽然我在专注于模型的开发工作,但我们在融资和联合创始人上一直没有匹配上特别合适的人选。最初我希望能有人分担商业化的部分,这样我就能更专注于模型,但后来我意识到,作为一名创始人,不能把自己不擅长的事情完全交给别人来完成。即便找了合伙人,这个模式也应该是互补而不是完全替代。


那段时间对我来说确实是非常艰难的:信用卡债务的压力很大,计算资源紧张等等。但我们团队的大家都咬牙坚持了下来。到了今年年初,我们开始加快产品化的进程,业务逐步成型,收入也随之增长,公司的发展终于进入了相对正向的轨道。


ZP:也想请你分享一下融资上的一些进展,比如 HF0 孵化器的相关经历?


冷月:其实说来也巧,我们在加入 HF0 前几天刚刚完成了另一轮融资。当时有朋友强烈推荐我们去申请 HF0,我们其实早在去年就尝试过,但没有成功。今年我们再次申请,在等待结果期间,因为考虑到即将开营,所以就决定先结束了另一笔融资。


幸运的是,HF0 的申请也最终通过了。因此在很短时间内,我们连续完成了两笔融资。HF0 出来之后,我们的 traction 得到进一步验证,营收在短短两三个月内从零增长到约400万美元,增长非常迅速。基于这样的增长,我们的估值也顺势提升,随后又完成了新一轮融资。


再后来,在参加完HF0 相关活动后仅两周时间内,我们便暂时关闭了上一轮融资。我们认为下一代模型(S1)发布之后,将可能对整个市场产生较大影响,因此我们希望在那之后再开启新一轮融资,以期获得更合理的估值和战略空间。


Z Potentials|冷月,00后打造AI语音平台Fish Audio,半年增长500万美元ARR,打造永不背叛AI语音陪伴


03 Fish Audio:打造一个未来的内容基础设施和新一代娱乐平台


ZP:您是否经历过某个时刻,彻底刷新了对AI和⼈类交互的理解?


冷月:我觉得很难说有一个具体的时间点,但确实有一个小插曲让我对语音交互有了更深的思考。我们团队有一位非常核心的成员,是我们运营团队的负责人,当时他正在谈恋爱,现在已经结婚了。那段时间,我们开始思考“煲电话粥”这个很多情侣之间都非常常见,包括我自己以前也经历过的事情,它背后更深的含义。我忽然意识到语音不仅仅是文本的另一个模态,它是一个完全不同的媒介。人在通话时,往往不需要特别集中注意力,说话是非常自然、甚至是反射性的行为。


也正因为如此,语音不会像文字或图像那样与其他应用“抢夺屏幕时间”。比如,当你在刷抖音的时候要同时看微信、回飞书,是非常耗费精力的;但如果只是和亲密的人挂着电话,即使没有实质内容,反而不会觉得累。这是一种完全不同的交互形态。所以我们决定要从这个认知出发,进一步让语音更加可控,情感更加丰富,延迟更低,价格更低,变得更易获取。


ZP:您如何⽤⼀句话定义fish audio?这是⼀家怎样的公司?它解决的核⼼问题是什么?希望能够实现什么样的最终愿景?


冷月:如果用一句话来概括我们的愿景,那就是:让 AI voice actor 变得 accessible。我们希望每个人都能访问到一个和人类水平媲美的AI voice actor。我们相信这可以释放巨大的创作潜能,既能帮助AI公司去提供服务,也能让各种各样的专业用户更高效地完成他们的内容创作。


ZP:对于“AI 为人类提供陪伴”这件事,你看到的潜在性的结构性的机会是什么?


冷月:我自己观察,现在市面上最火的几款 AI 社交产品,说句“暴论”,我认为其实并不能真正称得上是“AI 在做社交”。真正的社交,应该是嵌入到用户自身的社交网络中去的。但目前大多数所谓的 AI Companion,更像是一种角色扮演式的 Chatbot——它与现实生活之间唯一的连接,只有用户手机上的那块屏幕。所以从这个角度来看,我们认为这里其实存在很大的结构性机会。


ZP:当前市场上很多AI公司聚焦于⽂本、图像⽣成,⽽fish audio更专注于“更像⼈”、“语⾳合成技术”,你是如何设想并开发产品的?经历了那些开发的⼼路历程?


冷月:我认为有意思的一个点在于现有产品的体验不够好,是大家一开始都没意识到做出好语音这件事这么复杂。比如,人们在用文字聊天时的表达方式,和用语音消息时的语气、节奏是不一样的;而通话场景,又和语音消息完全不同。


所以我们在做模型的时候,会专门区分不同语音交互场景,针对性地设计 benchmark、主观评测和人类偏好评估,去验证模型在每一种场景下是否真的有进步。


ZP:目前 fish audio 产品的主要功能有哪些?


冷月:目前我们的产品大致分为两大块。第一块是我们主要的收入来源,占整体营收的 70% 左右,面向的是全球的内容创作者,主要集中在北美、日本等国家。他们用我们的平台来生成视频配音、Podcast、有声书,甚至是广告内容。第二块是 API 服务,约占整体 30%。我们有很多企业客户,包括 AI Companion 开发商、内容创作平台、客服中心等。


ZP:请您分享⼀下我们产品的主要⽤⼾群体,他们的特征和未被满⾜的需求?


冷月:一个非常典型的用户痛点,就是现有的 AI 语音生成体验,仍然像是在“抽卡”


比如用户写了一段文本,他脑海中可能已经有了那段话应该以什么语气、重音、情感来表达的印象。但模型生成的语音往往“方向是对的”,但总感觉哪里不对劲。这时候用户就只能不断“刷新”,像抽卡一样反复尝试,直到凑出一个满意的版本。我们有客户做有声小说时反馈说,大部分内容模型都能一次生成通过,但总有几段非常情绪细腻的句子,他们要反复生成几十次,甚至上百次,才能“抽”出满意的结果。


我们觉得这是一个很迫切的需求——如果我们要让 AI达到甚至超越人类水平,那么他一定要执行人类的指令,而不是只是基于文本去生成。所以我们过去一年在 open-domain instruction 上做了大量的研究和训练。我们即将在 6 月初发布的 S1 模型,将首次实现这一能力的全面落地——用户可以通过自然语言直接指令模型生成具体语气、角色、情感、节奏和背景,真正实现语音控制的自由度。


ZP:很多人认为,自从 Eleven Labs 出现后,TTS 技术已经达到了效果的“天花板”。你是否认同这样的说法?


冷月:我其实不太认同。Eleven Labs 的模型,尤其是他们的 multilingual 版本,整体上还是偏传统结构,并没有突破性技术上的变化。甚至在最近,比如这几天刚发布的 MiniMax 模型,在主观听感评测上已经在多个维度超越了它。我们自己也做了系统的评估,把我们的模型、Eleven Labs 的 TTS,以及其他主流系统统一生成了大样本,让团队打分排出主观排序——除去这两天新出的 MiniMax 模型还没来得及测,目前我们在内部评分中是第一。


整体来说,我们认为 Eleven Labs 在声音的自然性方面做了一些“reward hacking”的事情。它们的语音听上去起伏丰富,初听非常自然,但实际上这些起伏往往是“装饰性”的,并没有与语义和情绪精准对应。你会感觉它“像人说话”,但当你认真思考为什么它要在某个地方强调、为什么这里停顿,就会发现其实是随机的,缺乏语用逻辑。所以从这个角度来看,距离真正像人类一样表达的 TTS,还有不小的差距。


ZP:技术上,我们具体做了哪些技术研发,带来了语⾳和情感理解能⼒的突破?以及它们如何为我们的交互体验提供了真实感和可控性?


冷月:从早期做 Bert-VITS2 时我们的思路是拆分音色、语义、语调,用小模型分别建模,但后来我们意识到这是错的。在我们拥有足够的算力和数据的情况下,我们应该把这个模型做得更大,让它更好的去从完整的建模整个语音信息。所以后来我们做了几件事:


第一是模型结构上的集成建模。我们不再人为解耦,而是让一个统一模型同时建模语音、歌声、伴奏等全部元素。这确实带来了稳定性挑战,因此我们设计和优化了架构及训练方案,采用大模型负责预测语义层的信息,小模型负责预测声音层面的token,并让它们端到端训练,实现完整的端到端建模。


第二是将训练数据规模扩展到千万小时级别,确保模型能覆盖足够多的说话风格和场景组合。我们在此基础上做出了去年的 Fish Speech 1.5 开源模型,曾是当时开源领域的 SOTA。


当然,端到端的强耦合也带来了稳定性问题,这在业内是个普遍挑战。很多公司选择通过限制音色、做强微调来规避这些问题。而我们投入了大量精力做了强化学习优化,在不解耦的前提下大幅降低错误率,提升了跨场景的稳健性。


此外在数据角度,我们还自建了一个超大规模的 open-domain 语音数据集,既包括人工标注,也包括机器标注内容,数据覆盖了语义、场景、情绪、重音、说话人等多维标签。通过这个数据集我们构建了自己的语音识别系统,用它反向生成大规模语料。我们现在整个训练和清洗的流程中,所有的模型都是我们自主研发的。


ZP:即将发布的新一代模型有哪些具体突破?


冷月:这次 S1 模型在架构上和上一代保持一致,真正的突破主要在两方面:


一是数据结构更加多样、更具控制维度。我们整合了大量通过语音识别反推生成的标注数据,包含语气、说话人、情感、节奏等维度,进一步丰富了训练语境。


二是强化学习带来了对控制意图的高响应能力。S1 模型已经可以根据用户指令,在合成语音中精准实现指令控制,比如:“这里高兴一点”、“这里强调一下”、“这里停顿一下”,甚至是“高兴里夹带一点愤怒”这种复合情绪也可以实现。这种能力是对传统“语音生成黑箱”的一次重大突破。


从我们的内部 benchmark 来看,S1 的表现已经在多个维度上超越了主流竞品。


Z Potentials|冷月,00后打造AI语音平台Fish Audio,半年增长500万美元ARR,打造永不背叛AI语音陪伴


ZP:我们的产品和技术,⼜具体带来了什么样的⽤⼾数据、商业化数据的增⻓?【商业化】


冷月:刚刚提到在过去这段时间里,我们的营收从零增长到了约 400 万美元,目前月收入已达到约 500 万美元级别。与此同时,我们的月活跃数从一月初的 5 万增长到现在的 40 万左右。


除了这些标准化的市场指标外,我们其实也更关注一些能真实反映用户体验的内部指标。比如我们会追踪用户“重新生成语音”的频率,以及“是否导出音频”的概率。我们认为,如果用户选择导出,说明这一段语音已经进入了他们的工作流程;如果用户频繁点击重新生成,说明他们对合成效果不满意。这些指标对我们优化模型和验证版本效果是否提升至关重要。


ZP:从⻓期看您本次创业的的愿景和使命是什么?以及在这个愿景下产品会做哪些调整和完善?


冷月:我们的核心愿景是让 AI 配音达到并最终超越人类水平,实现真正意义上的语音民主化。我们希望在今年年中, S1 配合一些大语言模型的辅助——或者未来的S2——能够达到人类配音演员的水平,在年末能超越99%的人类配音演员。 我们觉得到那一步,就算是实现了 AI 或者语音的民主化:人们再也不需要通过有一个非常长期的训练和学习过程,才能掌握这样的一门专业技术。这对独立游戏开发者、播客主、自媒体创作者等个人创作者来说,会是一次彻底的门槛降低。


从整个Hanabi AI 来说,我们会在几个月后开始着重研发下一代的陪伴类产品,这也是我们绝大部分的核心创始成员的大家的共同追求。


ZP:三到五年后,如果 Fish Audio 成为一家具有广泛影响力的公司,您希望它在社会中扮演什么样的角色?


冷月:在两个层面:


对内容创作者而言,Fish Audio 能成为降低门槛、提高效率的工具。他们不再需要昂贵的录音棚、反复修改的配音流程,只需要一个输入,就能获得理想的输出。


对配音演员而言,Fish Audio 是协作伙伴。长期配音带来的生理损耗和压力是很多专业配音演员难以承受的。我们未来会支持版权音色注册与分成机制,让配音演员保留自己巅峰时期的声音,并获得长期收益。


在我们看来,Fish Audio 会逐步发展为一种内容基础设施,支撑不同创作平台和内容形态;同时,它也会是一个真正意义上的新一代 AI 娱乐平台


文章来自于“Z Potentials”,作者“Z Potentials”。


Z Potentials|冷月,00后打造AI语音平台Fish Audio,半年增长500万美元ARR,打造永不背叛AI语音陪伴

AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
AI工作流

【开源免费】n8n是一个可以自定义工作流的AI项目,它提供了200个工作节点来帮助用户实现工作流的编排。

项目地址:https://github.com/n8n-io/n8n

在线使用:https://n8n.io/(付费)


【开源免费】DB-GPT是一个AI原生数据应用开发框架,它提供开发多模型管理(SMMF)、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL(智能体工作流编排)等多种技术能力,让围绕数据库构建大模型应用更简单、更方便。

项目地址:https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file



【开源免费】VectorVein是一个不需要任何编程基础,任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤,并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。

项目地址:https://github.com/AndersonBY/vector-vein?tab=readme-ov-file

在线使用:https://vectorvein.ai/(付费)

2
声音克隆

【开源免费】MockingBird是一个5秒钟即可克隆你的声音的AI项目。

项目地址:https://github.com/babysor/MockingBird

3
微调

【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台,可以对大语言模型(LLM)和多模态图文模型(VLM)进行预训练和轻量级微调。XTuner 支持多种微调算法,如 QLoRA、LoRA 和全量参数微调。

项目地址:https://github.com/InternLM/xtuner

4
无人直播

【开源免费】VideoChat是一个开源数字人实时对话,该项目支持支持语音输入和实时对话,数字人形象可自定义等功能,首次对话延迟低至3s。

项目地址:https://github.com/Henry-23/VideoChat

在线体验:https://www.modelscope.cn/studios/AI-ModelScope/video_chat


【开源免费】Streamer-Sales 销冠是一个AI直播卖货大模型。该模型具备AI生成直播文案,生成数字人形象进行直播,并通过RAG技术对现有数据进行寻找后实时回答用户问题等AI直播卖货的所有功能。

项目地址:https://github.com/PeterH0323/Streamer-Sales