
图片来源:Youtube
Mati Stanizewski,ElevenLabs首席执行官兼联合创始人。本次方案为a16z合伙人Jennifer Li与Mati在2025年11月4日进行的讨论,深入探讨了该团队如何以闪电般的速度运送研究级人工智能——从文本到语音和完全授权的人工智能音乐到实时语音代理,以及为什么语音是下一个人机交互界面。
Jennifer Li:我很荣幸欢迎我们的首位演讲者——ElevenLabs联合创始人兼首席执行官Mati。Mati,很高兴你能来到这里。
Mati Staniszewski :非常感谢邀请我来这里。很高兴见到大家,早上好。
Jennifer Li:刚才的欢迎音乐是ElevenLabs生成的吧?
Mati Staniszewski :确实如此。我们在音频领域持续拓展。最初从语音技术起步,随后构建了语音助手的编排体系,如今更开发出完全持牌的音乐模型,能够创作精彩绝伦的音乐作品与之相辅相成。
Jennifer Li :太棒了。我们稍后会详细探讨这些内容。我有幸从ElevenLabs创立之初就结识你们,并在过去三年里成为合作伙伴,见证了你们从产品发布到新产品线和模型,如您刚才提到的文本转语音、语音转文本模型的全面落地,后来又拓展到音乐、音效领域,如今更推出了AI助手平台。我非常好奇:首先,这三年来的产品迭代速度仍令我惊叹,但更想问的是——面对如此密集的产品路线图,你们如何同时保持速度与品质?
Mati Staniszewski :首先,我们合作已近三年,听到这些赞誉固然欣喜。但大家可能不知道合作初期基础设施团队仅有三名成员。如今我作为EleveLabs创始人,我们钟爱数字11——公司基础设施团队也恰好有11人。
但我想首先强调的是,我认为最关键的是,我结识了最聪明的联合创始人Piotr。他作为研究核心人员,不仅创建了众多模型,更汇聚了语音领域顶尖研究人才,共同打造出首个能深度理解上下文的文本转语音模型——它能精准转化情感语调,并捕捉声音特征。由此我们实现了声音风格、年龄、性别、方言等要素的精准融合。如今研究团队已将技术拓展至语音、文本、音乐等领域。这构成了我们的技术基石,而快速迭代的组织架构——尤其在AI领域瞬息万变的背景下——正是由众多小型团队共同支撑。目前我们拥有约20个产品团队,每个团队规模在5到10人之间,他们拥有完全的自主权可以推进产品发布。当然,这种模式有时会带来工作重复或团队进度不一的问题。但积极的一面是,每个团队的主人翁意识极其强烈。因此,人们知道交付和发布产品是他们的责任,这使我们能够极其快速地推进工作。我们将工作划分为两大创意领域:其一是面向媒体娱乐领域创作者的创意平台,提供旁白、配音及音频后期制作服务;其二是智能助手领域,致力于在客户体验到沉浸式媒体的全流程中,重塑语音助手与对话式助手的交互体验。
Jennifer Li :很好。ElevenLabs的名称中带有实验室字样,与许多其他大型实验室非常相似,这意味着你们在进行自主研发和模型开发的同时,也在打造这20款产品。你们如何平衡这两方面的工作?既要持续推进模型研究,又不能延误产品发布?
Mati Staniszewski :这确实是个难题。相信在座许多人也面临同样的困境:当你无法确定研究创新是否会取代刚刚开发的产品时,该如何推进产品建设?我们早期也遇到过类似情况。简单举个例子:当时模型运行时,用户最常提出的请求是能否实现语速调节——希望增加滑块来调整音频生成速度和语速。但我们坚决反对这种设计思路,因为我们不希望添加任何滑块或开关按钮,我们不愿沦为上一代编辑套件的翻版。因此选择在研究层面解决问题——让系统根据语音特征智能判断最佳语速,我们为此抗争了足足九个月,却未能在研究层面解决。后来产品团队以极简方案攻克难题,赢得了所有用户认可。如今我们的决策原则是:若研究工作预计超过三个月,产品团队即可自由添加新模型或扩展功能。当然有时时间线难以预测,但我们内部研究团队的基本指导原则是:本季度希望交付哪些项目?哪些属于长期计划?对于长期项目,能否利用其他工作填补时间差并优化方案?
Jennifer Li :我猜测首先需要确认研究投入能否满足时间线要求,然后再与产品团队协调——这很有道理,毕竟大家都在迁往旧金山,进行面对面协作并集中办公。ElevenLabs一直采用全球化建设模式,人员分布更广泛,但在伦敦、华沙、旧金山、纽约等地设有中心。您如何看待这种全球扩张模式与本地化建设模式的权衡?
Mati Staniszewski :没错,我和创始人Michael(波兰籍)最初在华沙和伦敦两地开展工作。如果我们当时只立足欧洲,ElevenLabs可能根本不会存在——这确实是个特殊案例。但在波兰,如果你看波兰语配音的外国电影,所有角色——无论男女——都会由同一个角色配音。毫无情感起伏,语调千篇一律——你能想象那效果有多糟糕。时至今日,绝大多数内容仍在沿用这种方式。
Jennifer Li :我在中国长大时也有过类似的经历,许多西方电影都被配上了单调的中文配音。
Mati Staniszewski :太糟糕了。这正是公司创立的契机。我们最初立足欧洲,但很快意识到:若想解决当时的研究难题,必须全球招募顶尖人才。不能局限于旧金山或西海岸,必须遍寻欧洲、亚洲的精英加入团队。于是我们全面推行远程办公模式,开始物色人才。在工程团队组建方面,我们也坚决摒弃传统招聘方式——不再依赖LinkedIn和背景审查,而是探索全新的招聘路径,这带来了许多精彩的聘用案例。例如我们曾招募一位拥有顶尖开源文本转语音模型的工程师,他当时在呼叫中心担任接线员以维持生计,如今他已成为团队中数据处理领域最杰出的研究员之一,这种模式后来持续延续。
当然,早期团队高度分散。当规模超过30人后,我们意识到新成员需要物理空间与他人共处,才能更深入融入企业文化,理解公司所有产品动态。于是我们建立了伦敦、华沙和旧金山的枢纽办公室,让员工能面对面协作。这就是我们融合两种模式的方式:职业生涯早期的新人,我们会优先安排到枢纽办公室工作,使其深度融入公司;习惯远程工作的员工完全可以继续远程,但随时欢迎来枢纽办公室加入我们。这种模式运作得非常成功。目前,我们在公司某些岗位持续招募非常规背景的人才,并将他们与传统背景的员工融合,后者能为前者提供指导。例如在销售领域,我们也进行了类似尝试,这种组合效果显著。
Jennifer Li :核心启示在于:人才无处不在,关键在于你投入多少精力去发掘。
Mati Staniszewski :在欧洲同样如此——美国有个有趣现象:人们对工作充满热忱。若在社交场合谈论工作,你会发现多数人乐在其中。但在欧洲,我并未感受到这种氛围。文化差异确实存在,但欧洲同样存在一群真正追求事业的人。只是他们缺乏能施展才华的企业平台。因此我认为,我们团队中来自欧洲的成员是最积极进取、充满激情的一群人,能拥有他们实属幸运。
Jennifer Li :确实如此,我接触过其中几位,他们工作态度极其严谨,职业操守无可挑剔。你们还保持着扁平化的组织架构,让员工承担大量实际责任。能否谈谈这种模式背后的考量?另外听说你们还实行无头衔制度?
Mati Staniszewski :是的,我们几年前就取消了头衔制度,至今运行良好。我认为这种模式确实有效——不过许多人工智能公司其实早已采用类似做法,比如工程部门普遍采用"技术人员"的称谓。在市场拓展领域,我们也直接称"市场拓展人员"而非"销售副总裁"之类的职位。所以这其实是相当普遍的模式。但我们采取的是小团队模式,通常只有5到10人。我们明确规定:每个新组建的团队有六个月证明价值的时间。若能证明价值,团队就能留存并继续运作。关键在于,从加入那一刻起,你就能对公司产生影响。因此在团队中,你可能承担任何角色。资历长短不会决定你在层级中的位置。只要足够聪明、敏捷且充满热情,就能快速提升自我——这点确实很有帮助。同时,这为对外沟通提供了统一标准:外界看到ElevenLabs时,都清楚我们是负责市场拓展的团队,无需过多解释定位问题。这种架构让我们在与众多合作伙伴及客户沟通时,他们都清楚自己始终能获得最优秀的人才。同时我们也能派遣成员参加各类会议和活动,完全不受职位层级限制。
我认为扁平化结构的精妙之处不仅在于我们当前的积极运作方式,更在于它为各分支部门提供了高效的领导机制。因此,研究、创意工作、代理业务、市场拓展、自助服务和销售都由领导层主导。当然,这只是领导层级。在其之下,全球范围内采用的是相当扁平的小团队运作模式。但关键在于让线索能承载团队间的复杂性。当发现跨团队存在价值时,应主动促成建议交流。因此选拔能跨团队沟通的人至关重要,同时让团队专注核心事务。有趣的是,当将某人加入所有放开权限的频道并赋予透明权限时,他们反而因阅读所有消息而频繁分心。虽然可以选择不看,但人们往往还是会看。因此需要限制访问权限来强制集中注意力,这种方法确实有效。所有这些细节都至关重要,且效果显著。
Jennifer Li :或许我们也能借鉴这些经验。现在转换话题。你身处创意工作前沿,目睹艺术、音乐、广告等领域开始采用AI工具。最初并非如此,当时存在大量抵触情绪。如今我们看到创作者正积极适应并欢迎生成式AI工具的应用,包括AI音频技术。你在市场支付机制和创意产业合作方面做了许多明智之举——毕竟这些行业确实需要我们。记得你曾反复强调必须找到合作方式,同时持续观察市场演变。那么问题在于:如何在技术萌芽期适应这些变化并建立行业合作?又如何克服其中的挑战?
Mati Staniszewski :我认为首要之务是深入行业内部,花时间理解他们的核心诉求与激励机制。当然这有时很棘手,你可能会陷入盲目崇拜。我们曾有幸与Jared合作过他那些杰出的作品,并从他那里学到关键要点:哪些环节适合引入AI,哪些环节需要保留人工操作,AI究竟能发挥多大作用。我认为这是所有行业合作中至关重要的部分。
就我们而言,正致力于探索如何在语音领域实现这一目标——借助该技术,未来配音行业将呈现何种面貌?其次,要覆盖所有应用场景,必须拥有海量声音资源——涵盖不同语言、口音和风格。因此我们创建了声音市场平台:用户可在此创作并分享声音素材,每当素材被使用时即可获得收益。如今我们拥有近万种声音资源,已向社区成员返利1000万美元。其中不乏精彩故事:早期某位西班牙语配音者以浑厚嗓音录制时,技术奇迹让同一人声能以相同质感呈现30种语言版本。如今虽已扩展至70种语言,但最初仅有30种。当时西班牙语声音加入时并未在西班牙流行,反响平平。后来在英语国家意外走红——正是这个声音,我们保留了它的低沉特质,如今已成为所有应用场景中最受欢迎的免费声音。隐藏信息功能方面,各位均可注册我们的语音市场平台,或许还能赚取收益。
我认为第二要务在于探索如何凝聚行业力量,实现协同颠覆而非孤军奋战。关于唱片公司合作模式,我仍在探索最佳互动方式——我们正与Merlin、Cobalt等四大唱片公司合作,将其音乐资源引入音乐模型。通过授权方式实现合作,既能生成内容又能授予商业权利,确保各方权益得到充分保障。这个过程并不艰难,我们花了18个月才敲定有效的合作协议。最终的关键在于设置强制机制或强制时间节点,找到有效的触发点——比如确定行动时机,明确是协同推进还是各自为战。这些强制机制确实增强了紧迫感,虽然我们需要多次调整触发点,但整体推进效果显著。其次,达成妥协绝非易事。不过在我们的案例中,与唱片公司合作时,我们保护了他们关切的核心利益——他们同样重视如何持续为旗下艺人创造价值。为此我们投入大量时间与成员沟通,阐述技术发展前景及未来数年趋势,这极具成效。通过精准解析技术原理、展示应用案例,有效避免了"人工智能有害"这类先入为主的负面认知。
Jennifer Li :或许可以关联到之前的问题:在探索这个领域时,您如何看待引进能够领导这些职能的合适人才?这些领域大多是未知的领域,需要探索如何驾驭。您在引进合适人才方面看到哪些成功案例?
Mati Staniszewski :对于完全陌生的领域——比如法律领域就是典型例子——我们通常会引入至少一两位深耕该领域的人员,他们过去曾与相关方长期保持全职合作。但同时我们会结合大量咨询专家,针对具体议题提供专业支持。以音乐领域为例,我们与多位音乐律师保持紧密合作,他们不仅提供跨领域咨询,更因熟知行业所有参与者,有效充当了双方的桥梁,使我们能用共同的语言沟通。这种模式确实极具价值。
Jennifer Li:是的,他们对人才有着非常明确的偏好——既要具备足够的风险承受能力,又要理解商业机遇,从而在每个领域都能引导正确的行动链条。我对此深感着迷。
Mati Staniszewski :完全同意。法律领域确实如此——我知道你们中许多人正努力寻找首位法律顾问,或为我们配备多名法律顾问。这是最棘手的招聘岗位之一,因为你需要在自己知之甚少的领域进行招聘。最初几位法律顾问明显不胜任,我们便分道扬镳。后来聘请的第三位成员虽来自多家财富500强企业,却从未涉足初创领域或风险投资。结果是每场讨论都充斥着风险警示,我们想做的任何事都会被贴上风险标签。这种合作模式非常棘手——你既要理解风险,又要接受风险建议,比如"这里是我们该划定的边界"。但当时所有决策都事后才明晰。如今我们聘请了曾在多家企业任职的顾问且不挖角。他们对风险评估的理解更透彻——不仅能协助识别风险,更能提供行业标杆参考。其他公司这样做,我们也应考虑采用。他们真正成为我们的风险共担伙伴,带来了巨大转变。
Jennifer Li :确实如此。ElevenLabs最初定位为创作者品牌,服务范围从个人创作者到构建商业生态的创作者群体。但如今你们在企业级市场取得显著突破——不仅从AI智能助手平台起步,更在文本转语音及文本模型领域取得进展。这种转型如何实现?要知道许多优秀的消费级创作者品牌正是在此环节遭遇滑铁卢。但你们至今的转型过程相当顺利。
Mati Staniszewski :我们初创时就收到大量企业客户主动咨询,当时采用经典产品驱动增长模式。记得a16z团队加入时,我们最初的理念是:必须成为工程驱动型公司,拒绝传统销售人员,要让工程师承担销售职能。我们确实雇佣了一名传统销售人员和一名非传统销售人员(即工程师),并要求他们承担销售职责。但正如你能想象的,这种模式在此特定场景下并未奏效。不过我们吸取了教训,如今采取的是两者结合的模式,销售占80%,工程占20%,仍保留部分工程角色。但关键在于深度理解客户需求,与他们紧密协作获取反馈。这种合作模式反过来启发了我们在产品研发方向的实际行动。
Hippocratic公司的Munjal Shah正是如此。他们是医疗健康领域最早期的卓越应用案例之一,通过创建智能代理系统接听医院来电并安排预约。更进一步,该系统还能主动外呼患者提醒服药或就诊提醒。要实现这些功能,系统架构必须从单一基础模型转向融合语音转文本DLM与文本转语音技术,实现协同运作。随后需要构建集成方案并实际部署。这曾是2023年的重点领域之一。但我们发现这一模式在众多客户及客户体验场景中反复出现,因此决定加大投入以优化整体协同机制。我们不再局限于文本转语音功能,而是整合研究成果,使整个系统组合运行得更加流畅。
但企业级应用的核心在于构建系统内的知识库集成。需要协助客户将这些知识库部署到电话服务商(如Twilio)或SIP排名系统中——如何通过模板化方式实现更便捷的部署?当然最大的痛点在于——这最常见的问题:演示很容易,但如何真正投入生产?如何测试?如何版本控制?如何长期评估监控?如何根据结果持续优化?这些都是关键环节。
Mati Staniszewski:所有这些工作的根基在于——我们来之前和Matt聊过——必须确保基础架构的稳固性,包括安全性、合规性,以及支撑客户依赖的其他基础设施。这正是ElevenLabs希望彰显的核心价值:使用我们的软件时,您将始终获得可靠保障,达到99.99%甚至99.999%的可用性(尽管在AI领域实现后者颇具挑战)。这就是我们的目标。当然,PLG与销售最明显的区别在于:识别合适客户的周期要长得多。我认为内部团队的热忱态度颇具观赏性——许多成员此前并未接触企业级场景。而公司另一边的人则持怀疑态度,他们不愿转向企业市场,不愿等待六个月或十二个月才能看到成果。在早期阶段,我们需要屏蔽他们接触这些信息,让他们相信我们,相信我们能做到,相信这会奏效。但他们确实非常怀疑。当然,12个月后证明了方案的有效性。不过这段时期最难的,就是如何让所有人始终保持步调一致。
Jennifer Li :完全正确。我观察到很多公司,尤其是在转向企业级产品发布模式后,往往会放缓节奏——开始优先响应客户需求,甚至延迟产品发布。非常感谢您,这是否意味着产品发布周期被延迟?您是否也观察到这种现象?还是说你们仍能保持良好平衡——既能快速推出演示版、概念验证和早期预告,又能最终交付稳定可靠的产品?
Mati Staniszewski :这涉及两方面:首先是团队架构差异,其次是外部产品结构差异。针对外部产品结构,我们追求极致快速交付。但面向企业客户时,稳定性与可靠性至关重要。因此我们明确划分Alpha版本与非Alpha版本的界限,并在此过渡期内推进迭代。通过与客户及合作伙伴的协作,他们可自主决定是否优先获取Alpha版本。当他们选择使用时,我们会明确标注这是alpha版本,可能存在不稳定性。这样他们就有选择权,而我认为这种选择权正是最重要的杠杆。关键在于是否主动选择。有些合作伙伴在创新实践中表现卓越,德国电信(Deutsche Telekom)就打造了突破性的播客体验。他们通过早期模型测试,将文本转化为笔记本式大型语言模型播客,用户可自由选择德语或英语的优质配音。
其次是团队架构问题。直到团队规模超过百人后,我们才开始在公司内部划分"产品市场匹配前"与"产品市场匹配后"的项目。后者属于长期项目。在产品市场匹配前阶段,需进行大量测试评估,仅在产品真正准备就绪时才部署。你的使命是持续交付产品,直到确认达到产品市场契合点。通常我们给予6个月的验证期,若未能达标则终止该产品。过去我们确实以这种方式淘汰过产品。但核心要义在于:在确认存在庞大潜在用户群体前,我们将持续迭代优化。
Jennifer Li :我曾目睹过这些艰难抉择的当下,但事后证明放弃某些产品是正确决定。这正是我最关注的问题。我的合伙人Martin Casado常说企业要经历三个阶段:产品阶段、销售阶段和规模化阶段。既然你经历过这些阶段,作为CEO最艰难的转型是什么?
Mati Staniszewski :其实有很多小转折。当然,我的联合创始人始终在我身边,我们相识十五年,高中起就是挚友。能拥有这样的搭档,我实在太幸运了。当然,还有你、Jennifer以及所有合伙人协助我们完成这些转型,这实在令人惊叹。但最近让我顿悟的是——如今我们已是350人的公司。这意味着市场团队及其激励机制已发生巨大变化。回过头来看才明白:创业初期大家全凭热情工作,只做他们认为对公司最有利的事。
随着市场拓展团队扩大,我们意识到激励机制对构建这台"机器"至关重要。当团队转型时——那些参与构建机器的人员逐渐成为机器的一部分——激励机制最终会驱动行为,而这些行为可能与你的初衷略有偏差。若不明确界定,某种程度上,配额与佣金本质上是战略的滞后指标,而战略本应引领未来发展。因此必须找到两者协调之道——确保配额佣金与战略目标紧密贴合,将偏差控制在最小范围。对我而言,最大的领悟在于:公司规模扩张的背后,存在着基于佣金制度形成的固化行为模式。而要真正解决这个问题,我们必须坦诚相告——即使佣金标准看似合理,若你认为存在问题,请随时反馈。让我们共同探讨并调整方向。
现在我们实行独家销售制度,所有销售团队若遇到定价表中可能存在竞争性的交易——比如他们认为可以压低价格赚取更高佣金,但内心觉得这样不对——最好来找我们。我们会继续给予佣金,但取消交易并设置防护措施。最近就发生过这样的案例。我们的基础级竞争对手曾试图授权演示我们的模型。按常规激励机制,本应促成交易。所幸我们没有这么做。
Jennifer Li :这点也说得清楚。内部工作做得很好。您分享的这些经验教训实在令人惊叹,非常感谢您与我们分享。让我们为Mati献上热烈的掌声。
原视频:ElevenLabs CEO: Why Voice is the Next AI Interface
https://www.youtube.com/watch?v=ZqCEHR4wjxg
编译:Ginger Jin
文章来自于“Z Potentials”,作者“a16z”。
【开源免费】FASTGPT是基于LLM的知识库开源项目,提供开箱即用的数据处理、模型调用等能力。整体功能和“Dify”“RAGFlow”项目类似。很多接入微信,飞书的AI项目都基于该项目二次开发。
项目地址:https://github.com/labring/FastGPT
【开源免费】VideoChat是一个开源数字人实时对话,该项目支持支持语音输入和实时对话,数字人形象可自定义等功能,首次对话延迟低至3s。
项目地址:https://github.com/Henry-23/VideoChat
在线体验:https://www.modelscope.cn/studios/AI-ModelScope/video_chat
【开源免费】Streamer-Sales 销冠是一个AI直播卖货大模型。该模型具备AI生成直播文案,生成数字人形象进行直播,并通过RAG技术对现有数据进行寻找后实时回答用户问题等AI直播卖货的所有功能。
项目地址:https://github.com/PeterH0323/Streamer-Sales