HeyGen 创始人万字访谈：没有自研大模型，AI 视频公司如何做到 3500 万年收入？

8746点击 2024-07-17 20:47

AI 视频生成公司 HeyGen 最近完成了 6000 万美元的 A 轮融资，公司估值已达 5 亿美元。此次融资由 Benchmark 领投，Conviction、Thrive Capital 和 Bond Capital 参与。截至目前，HeyGen 已累计筹到 7400 万美元。

在 HeyGen，用户可以快速创建被称为 Avatar 的虚拟形象，它们能用用户的声音说话，还能把说出来的话直接翻译成 175 种语言或方言。

去年 4 月，HeyGen 官方分享了他们用 178 天实现 0 到 100 万美元 ARR 的历程。在过去一年多的时间里，他们的 ARR 从 100 万增长到超过 3500 万美元，并且自 2023 年第二季度以来一直保持盈利状态。目前，HeyGen 已拥有包括麦当劳、Salesforce、多国政界人士等在内的超过 4 万名付费客户。

本文整理自 HeyGen 创始人 Joshua Xu 与硅谷知名投资人 Sarah Guo 的两次对谈，分别发布于 Sarah 的播客 No Priors 和财务服务公司 Pilot 官网。

HeyGen 创始人万字访谈：没有自研大模型，AI 视频公司如何做到 3500 万年收入？

Joshua Xu 于 2020 年创立 HeyGen，此前的六年中，他在 Snapchat 担任工程负责人，参与过包括广告技术、推荐系统和 AI 相机在內的一系列工作。

Sarah Guo 是 Conviction 的创始人，Conviction 也是 HeyGen 的早期投资方。她同时是 AI 科技创投播客 No Priors 的联合主持人。

两次对话中，Joshua 聊了聊 HeyGen 的技术与模型，分享了现有模型的一些意想不到的商业应用案例，向听众复盘了 HeyGen 的产品、市场策略以及他关于 PMF 的思考，强调快速迭代和客户反馈的重要性。

Sarah 则从投资人的角度分享了她选择与 HeyGen 合作的原因，谈到初创公司在自筹资金与融资之间应该如何选择，聊到在 2024 年，如何打造像 HeyGen 一样成功的 AI 产品。他们还讨论了 AI 视频的滥用和造假问题、视觉生成 AI 的未来和潜在应用场景。

01 创业源起：

HeyGen 想成为新的相机

Sarah Guo：你创办了 HeyGen，它现在已经被数百万人使用过。能讲讲创办它的故事吗？

Joshua Xu：我们在大约三年半之前开了公司。这之前，我在 Snapchat 工作了大概六年半。我之前在卡内基梅隆大学读机器人技术，2014 年加入 Snapchat，最开始负责 Snapchat 广告排名和推荐，最后两年在做 Snapchat 的 AI 相机，Snapchat 用了大量 AI 技术来增强相机体验。2018 年，Snapchat 发布了婴儿滤镜和迪士尼风格滤镜，那是我第一次看到计算机能够生成现实中不存在的东西。我当时非常迷这个技术，感觉它可能会改变人们创作内容的方式。Snapchat 是一家相机公司，每个人都通过手机相机生产内容。但我们想取代相机，因为我们认为 AI 可以创造内容，可以成为新的相机。HeyGen 的目标让每个人都能轻松讲自己的视觉故事。

Sarah Guo：其实我还是经常用相机。对你来说，取代相机意味着什么？为什么我们需要这样做？

Joshua Xu：我一直在移动相机领域工作，开发了很多软件和技术，让人们更容易、更方便地用手机相机拍照。但是今天其实还有很多人不知道怎么用相机拍出好东西。如果 HeyGen 能取代相机，就意味着我们能消除讲视觉故事和生产视觉内容的阻碍，这会帮我们在整个内容生产领域迈出一大步。

Waseem Daher：我知道你们一开始做的是虚拟 Avatar，用户可以拍自己的视频，然后把它变成一个接受文本输入的 Avatar，这个 Avatar 可以用你的声音说话，做很多有意思的事。你们是怎么决定从 Avatar 开始的？

HeyGen 创始人万字访谈：没有自研大模型，AI 视频公司如何做到 3500 万年收入？

2 年前的 HeyGen Avatar

Joshua Xu：最开始，我们试着解构整个视频制作的过程。视频制作主要分为「相机」和「编辑」两部分。「相机」更多关于原始素材，它是关于人类的代言人——Avatar。编辑更多是关于 B 卷素材的，添加不同的 bgm、转场、动画等等。我们通过客户反馈了解到，编辑其实并不太费钱，因为它是一个比较标准的服务，但相机的费用很高。

想象一下，如果一个公司的 CEO 想录制一些内容，可能需要提前两周时间来安排，要找摄影团队，找摄影棚。两分钟的视频可能需要录 20 分钟，因为得花时间记住脚本。这是阻碍很多企业制作新内容的关键点。所以我们从替代这个过程的环节入手，制作 Avatar 来替代视频制作中的拍摄部分。

Sarah Guo：怎么判断 Avatar 的质量够不够好？你怎么看 HeyGen 现在生成内容的质量？我一直觉得它是质量的标杆。

Joshua Xu：质量一直是我们产品、业务和技术的核心。我有条隐形的质量线，比如阈值是 90，低于 90 的东西对客户来说基本上不可用，因为不能真正替代他们现有的生产流程。我们专注于让视频生成质量超过这个阈值。我认为现在的 Avatar 技术已经达到了这个水平，所以我们能真正帮助人们替代真实的相机，释放很多创意过程，帮助人们扩大内容生产的规模。当然，还有很多提升空间，比如生成全身的虚拟形象、把所有的特效和动画都放进视频里等等。

Sarah Guo：即将发布的新功能里，你最感兴趣的是什么？

Joshua Xu：我们的技术和产品路线图上有很多令人兴奋的东西。我特别期待全身 Avatar。以前的技术都集中在上半身，生成手势和身体动作很难。但很多学术研究已经证明这是可行的，我们只需要完成最后一公里。另一个让我特别兴奋的新功能是实时视频 Avatar，尤其是在 GPT-4o 出现之后，它大大提高了与文本和语音的实时交互性能。HeyGen 的 Avatar 可以成为这些应用的可视化层。

Sarah Guo：现在客户在全身动作上有什么需求吗？

Joshua Xu：我们觉得不同的使用场景对质量的要求是不一样的。比如，教育和学习内容更像是一个人给很多人讲课，在这种情况下，质量的要求相对低，因为静态的虚拟 Avatar 会显得很专业。但如果是高端的营销内容，比如广告创意，就需要非常动态的效果，因为这样更吸引人，投资回报率更高。我认为实现全身渲染技术会提升 Avatar 和视频的互动性和真实性，可以开拓更多营销和销售应用场景。

Waseem Daher：就像新闻节目之类的内容，通常会有主持人走来走去的镜头。这些标准镜头如果有全身渲染技术，就可以应用在各个领域。

02 视频仍是异步生成，

五年内有望实时生成

Waseem Daher：现在已经有很多人在不同场景中用 HeyGen，比如营销和销售，有些人用它来开内部研讨会或者做学习培训。你觉得未来会怎样发展？这种技术的最终形态是什么？每个人都会有一个可以代替他们开视频会议的「分身」吗？或者只是用于娱乐？你怎么看这种技术的演变？

Joshua Xu：我认为有很多可能性。我们目前正在解决的问题是内容创建的入口点，所有内容都是从相机开始，然后人们会进行大量的编辑。我们可以清楚地看到一条路，人们可以把生成的所有素材组合起来，用 AI 编辑来生成最终的视频版本。再进一步，有可能推动技术进步，我们有可能会创造更好的生成视频的实时体验，这可能会替代我们现在的很多实时对话，特别是结合了 GPT-4 和多模态实时传输技术之后。

Sarah Guo：我们现在还在 2024 年的异步视频创作阶段*。现在大家是怎么用 HeyGen 的？你最喜欢的使用场景有哪些？

*注：异步视频创作指视频录制和播放不在同一时间进行。

Joshua Xu：我把 HeyGen 的使用场景分为三类：创作、本地化和个性化。用户可以从我们的 Avatar 库中选择角色，或者创建自己的数字分身，然后选择模板或输入脚本来生成视频。这种方式适合用来做产品介绍、教程视频、销售培训等领域的内容。我们还可以把现有视频内容转换成超过 175 种不同的语言，包括方言。

用户还可以用 HeyGen 大规模地个性化视频消息。现在 HeyGen 有很多非常有创意的使用场景。

我们是一个非常开放的平台，我最喜欢的使用场景之一是最近跟麦当劳的合作。他们推出了一个甜美的活动，让人可以用不同语言给家人发消息。我只想强调一点，AI 是为所有人服务的，无论是奶奶还是孙子都能用。

HeyGen 创始人万字访谈：没有自研大模型，AI 视频公司如何做到 3500 万年收入？

McDonalds 最近推出了一个 AI 驱动的营销活动 Sweet Connections，你可以给你的奶奶录制一条信息，并通过 HeyGen 将信息翻译成奶奶的母语。

Waseem Daher：这种生成大量个性化内容的能力，会怎样影响人们制作和使用视频的方式？

Joshua Xu：我认为这将会从根本上改变人们思考如何发展业务、如何沟通、如何进行营销和销售。我们生活在一个以视频为主的世界，每个企业都想做更多的视频，但是现在视频瓶颈是成本，需要花好几周甚至好几个月的时间。如果人们能生成吸引人且真实的视频内容，他们就会做更多视频，用视频来拓展业务。

我相信我们可以生成高度个性化的视频，特别是通过虚拟形象来提供非常动态和高质量的内容。我举个例子，很多 AI 生成技术不仅仅是为了节省成本和时间，更重要的是，它们可以解锁新的用户案例，让他们做到以前做不到的事，我认为这是今天很多业务的关键点。

Waseem Daher：你怎么看实时和异步视频技术的发展？现在很多技术都侧重异步应用，比如语音模型就是先生成本文再转成语音。我们什么时候能实现实时或接近实时的视频？这些技术会被用在哪些场景？

Joshua Xu：我从两个方面看这个问题。首先，实时的 Avatar 对话现在已经是可能的了，可以在 HeyGen 上直接体验。我们正在准备一次更新，让它变得更快。

它可以成为你虚拟的 AI 助手，帮你接电话或者做别的事。我认为技术一直在朝这个方向发展。

两年后，我们可能会看到很多异步生成的 Avatar 能够实现实时传输。我还认为，在未来五年内我们能实时生成整个视频，那时候生成的视频不是传统的视频格式了，而是一种新格式。

比如，现在我们都逛 Instagram，我们可能会看到同一个品牌推荐的不同广告，但这些广告实际上都是事先准备好的 MP4 文件，但在未来可能不需要这些文件了。如果我喜欢牛油果，我会看到有牛油果的可口可乐广告，你可能会看到别的。这在今天是不可能的，因为制作视频成本很高，但未来我们可以根据用户的特点实时生成广告，这会成为一种新范式，未来的视频播放器可以根据用户的特性实时生成内容，以最佳方式传递给用户。

Sarah Guo：一个有趣的类比是，YouTube 可能是今天最大的学习平台之一，但人们在上面看的视频都是统一、不变的。如果有个性化的学习和教育肯定会效果更好，但目前制作个性化视频的成本太高。你说的这些感觉像是未来教育的一个很不同的机会。

Joshua Xu：是的，我们这有一个典型的案例。阳狮集团 (Publicis Groupe) 生成了超过 10 万个感谢视频，发送给他们全球的员工，视频被本地化成不同的语言，个性化地加入了他们的名字和加入公司的原因，感谢大家过去一年的努力。在这之前，他们只能发送一个一模一样的视频，可能是 CEO 或执行团队录的，但现在就可以大规模地个性化。

03 HeyGen 的技术路径：

两步走生成视频

Waseem Daher：你提到了一些像 GPT-4 的技术，但你们也开发了自己的模型。你们目前用的是什么技术？你们怎么看待自己用的技术栈？它是怎样演变来实现全身渲染或其他新功能的？

Joshua Xu：我们有三个模型，分别是文本、语音和视频。

在文本生成方面，我们跟 OpenAI 的 ChatGPT 合作，它是我们内部编排引擎的「大脑」。

语音引擎方面，我们跟 OpenAI 和 EventLab 合作，但整个视频技术栈都是我们自己开发的，包括 Avatar 创建、视频渲染和视觉生成。我觉得，随着时间推移，技术趋势正在向多模态、多媒体模型发展。一个全身生成视频的挑战是怎么把语音与手势动作结合在一起，这需要一起训练语音模型和视频模型，这样才能在模型底层建立连接。以前这是很难做到的，因为我们必须单方面训练 TTS 模型，然后把它输出输入到视频模型里。但通过多模态训练，这完全可能实现的。

Sarah Guo：Sora 现在还不对开发者和用户开放，但已经有世界级的文生视频模型，它们不是生成虚拟 Avatar。你们的这项技术与 Sora 有什么不同？

Joshua Xu：我们创办 HeyGen 的初衷是帮助企业解决视频制作的问题。企业在找什么？他们需要高质量、可控性和一致性。那么我们要怎么实现这些目标呢？技术路径是什么？可能有两种方法。一种是像 Sora 那样，直接从文本生成视频，一次性生成整个视频。

我们在 HeyGen 一直坚持的是第二种方法：把整个视频分解成不同的部分，大部分是 A 卷和 B 卷*，分别代表不同的元素，比如配音、音乐、过渡等。我们逐个解决这些部分的问题，然后用编排引擎把它们组装成最终的视频。

*译者注：在视频制作中，A 卷是主要内容，如主体画面，B 卷是辅助画面，用于补充和丰富视频内容。

我们觉得这种技术路径更能保证质量，同时给我们更多灵活性和能力来搭建系统。特别是在商业环境中，有些东西最好还是别用 AI 生成，比如 logo 和字体，这些都需要非常精准。其实，我们把 Sora 视为合作伙伴，也是因为我们能把它集成，让它作为一个组件生成内容，然后把这些内容输入我们的编排引擎里。

HeyGen 创始人万字访谈：没有自研大模型，AI 视频公司如何做到 3500 万年收入？

Waseem Daher：从研究的角度来看，构建模型时，有什么困难或挑战吗？

Joshua Xu：与其他模型不同，构建视频模型并把美学融入 AI 模型很难。视频生成不仅仅要解决数学问题，还要创造出用户喜欢和欣赏的东西。一个在性能指标上优化得很好的模型，不一定能生成出更好的视觉效果。这让评估变得很难，但也非常重要。我们一般很难通过传统的评估方法判断效果，只能依靠产品信号来判断哪个模型更好，比如 A/B 测试，因为只有客户能做出判断。这个过程在数学上是不可微分的，所以我们必须建立一个用来收集、分析和反馈数据的系统，把这些数据反馈到模型训练中，不断改进。

Waseem Daher：这种方法是你在 Snapchat 用过的，还是在 HeyGen 的背景下发展出来的？

Joshua Xu：我认为两者非常像，特别是在我们开发相机软件的时候。怎么知道哪个参数效果更好呢？可以提出一些客观的指标，比如亮度和分辨率。但很多时候我们发现，高分辨率并不意味着图像质量更好。比如 iPhone 的分辨率并不总是最高，但它拍出的照片是大多数人喜欢的。早期在 Snapchat 学到的教训在 HeyGen 也适用。

Sarah Guo：你们在研究视频技术等方面的新功能时，是更多参考学术界的研究，还是根据客户的问题来决定？

Joshua Xu：我觉得这是一个结合的过程。另外，我还想补充一点：要深刻理解模型的局限性，试着找到用户需求和技术能力之间的平衡。所有 AI 模型都有一定的局限性。关键是要考虑怎样设计产品才能在避开这些局限的同时放大模型的优势，来客户提供出色的产品体验。这对发现新的创作体验领域非常重要。

举个例子，像视频翻译技术，它就跟传统的配音不一样，它保留了用户的自然声音和面部表情，是一种全新的内容翻译方式。其实支撑视频渲染的是一个唇部同步模型。我们找到了一种方法，把这些技术与语音和 ChatGPT 的翻译结合在一起，打造出一种全新的视频和内容本地化体验。

Sarah Guo：很多人指出滥用他人的虚拟形象和声音进行深度伪造很可怕。你怎么看待安全性和滥用的问题？

Joshua Xu：首先，我们的平台上禁止出现任何政治相关的内容。HeyGen 的政策严格禁止创建未经授权的内容，我们非常重视平台的内容滥用问题。

我们的安全措施包括非常先进的用户验证，比如即时视频确认、动态口令和快速人工审核，所有新内容都要经过审核。信任和安全对我们的业务至关重要，我们正在与行业伙伴合作，开发工具、探索最佳实践，来对抗虚假信息和 AI 安全问题。我们把安全视为内容创建过程的一部分，在 HeyGen 的每个创建步骤都会基于安全考量。

Waseem Daher：你谈的是如何防止负面影响，但如果从积极的方面来看，比如竞选公职时，或许可以给每个选民发送一段个性化的视频消息，谈论他们关心的问题，直接发到他们的邮箱。可以想象，未来这种技术会被用在超个性化的政治竞选中，只要能避免深度伪造的负面影响就行，这项技术确实很有价值。

04 成功的秘诀是

80/20 原则快速迭代

Waseem Daher：我想问问 Joshua，选择用 AI 以及选择公开而不是秘密开发 HeyGen，对你来说是显而易见的选择吗？

Joshua Xu：我觉得这个要追溯到早期。首先，我们是第一次创业，以前都是做学术研究的，对市场推广不太了解。我认为一开始，我们应该从公众社区中学习，同时也算是对社区的回馈，所以早期我们就分享了从 0 到 100 万的故事：AI 创业，我们如何在 7 个月内达到 100 万美元收入。我们也确实从社区中，从其他创始人和开发者那里学到了很多东西。

尤其是在 AI 爆发的今天，有很多东西可以开发，很多事情都在变化，不仅是与客户的互动方式在变，软件业务和市场都在变。因此，我们会向用户和社区分享我们的进展，这给了我们很多力量和灵感。在初期找到 PMF 很难，我们也希望能回馈社区。

Waseem Daher：Sarah，这会对你有吸引力吗？我记得你投资得挺早的。

Shara Guo：这些是在公司找到初步的 PMF 之后的事，我确实读了 Joshua 发布的关于从 0 到 100 万的文章。对投资人来说，见创始人一次面是很好的，但花 50 分钟了解对方并不够，所以有一些关于人们行为的长期数据也非常有用。我认为这对雇主品牌也是好事。如果人们看到你的创业历程，向你学习过或被你启发过，他们更有可能想加入你们。

Waseem Daher：Joshua，你提到快速行动是关键，我觉得很明显，这个团队确实行动迅速。你们的秘诀是什么？有哪些策略？你们是如何建立一个高效、高速迭代的团队和文化的？

Joshua Xu：首先，我们每周都进行一次迭代。我认为这是自 18 个月前推出产品以来一直在做的事情。每周迭代和发布确实很有挑战性，但我们严格遵守这个发布计划。通常，我们的理念是保持团队精简，专注于最重要的事。我们只有 40 多人，真的要专注于业务中最重要的部分。另外，就像你提到的，我们建立了一种鼓励快速行动的文化，团队中的每个人都应该以解决问题为目标。

我们在 HeyGen 强调的是迭代式地做产品。我们有一个 80/20 原则。通常，当我们面对问题时，我们会问自己，有没有一个解决方案可以快速解决 80% 的问题？

答案通常是肯定的，那么我们会先发布这个 80% 的解决方案，可能只需要一两天时间。然后我们再回头看看，剩下的 20% 是否仍然是优先事项？如果是，我们会再次应用 80% 原则，这样就能再解决 16% 的问题。

最开始我们担心这样能不能交出最高质量的结果。但我发现，迭代其实是交出高质量成果的最佳方式。因为如果连续三到四次应用这个原则，最终会达到 99% 的解决效果。我们在春季计划、功能测试等每一件事上都用了这个原则，它同样也适用于招聘、市场策略和基础研究。

最后一点也很重要，那就是专注于最重要的事。初创公司通常资源有限，团队规模小，没办法处理所有事情，所以要找出对客户最重要的三件事，全力以赴地推动它们。

Shara Guo：能介绍一下现在 HeyGen 的规模吗？

Joshua Xu：我们目前有 40 多人，但我们已经服务了超过 4 万名付费用户。有意思的是，这些客户并不是那些早期接触 AI 的高科技公司，而是包括从欧洲制造商、小企业、全球非营利组织到财富 500 强公司在内的传统行业公司，而我们正在解决的正是他们的问题。

Waseem Daher：相当于每个员工服务 1000 个客户，这个指标很厉害。你们现在正在招聘吗？

Joshua Xu：当然，我们的各个团队都在招聘，主要招产品设计、工程师、AI 研究员和市场推广等。

Waseem Daher：你们是怎么知道你们达到了 PMF 的？是有某个瞬间让你们意识到，还是一个渐进的过程？

Joshua Xu：一旦你找到了 PMF，客户会告诉你，你会感受到强烈的市场需求。最开始我们没有先开发产品，而是先验证了 AI 视频生成的概念。我们在 Fiverr 上发布了一些视频，没告诉观众这些是 AI 生成的，然后发现这确实可行，我们才开始开发产品。我们也试过很多其他不成功的东西。PMF 更像是一门艺术，而不是科学。

我们开发了一个框架，试图证明某事不可行，而不是证明它可行。从这个角度思考，很多行动会变得不同，每次测试都是为了证明某事不可行，从而优化测试过程。

05 别纠结套壳，

关键是怎么粘住客户

Waseem Daher：你们怎么看竞争？我知道 HeyGen 主要瞄准一些营销领域。还有其他公司可能也在瞄准类似或相关的市场，包括一些顶级投资人的公司。你们会觉得市场足够大，大家都能分一杯羹吗？还是怎么认为的？

Joshua Xu：首先，竞争是令人兴奋的。我觉得这对整个行业都有好处，大家可以互相学习，互相推动，共同进步。从我的角度来看，竞争的关键是要考虑最终谁受益。其实，最后受益的不是我们自己，也不是投资人，而是用户。所以我们专注于怎样让客户满意，因为他们才是决定竞争胜负的关键。

AI 现在显然发展迅速。我觉得快速行动是初创公司的唯一优势。你会看到，行业里的大公司都想努力赶上，在尝试做 AI 应用和大型模型。我们必须在这些大公司搞清楚怎么创新之前，领先一步。

对于初创公司来说，我们也在思考长期价值和商业模式的护城河是什么。比如说，是网络效应吗？是市场策略带来的吗？还是通过不断改进 AI 模型实现的？不同的业务可能有不同的答案。对于我们来说，我们需要建立一个平台，能够涵盖很多使用场景，吸引大量用户，并为他们建立一个品牌中心。

Waseem Daher：我觉得很多人可能会认为，差异化在于底层技术更好，比如有些模型能生成更好的结果。但你说得对，关键是如何让它更有黏性，如何真正嵌入到客户的工作流程中，即使其他模型变得更好，客户仍然愿意使用我们提供的解决方案。Sarah，从投资人的角度，你怎么看差异化问题？比如有些人说「某个东西只是 ChatGPT 套壳」。

Shara Guo：我是个非常关注早期阶段的投资人。大多数投资人可能会告诉你，他们投资看重团队、好的市场或者特定的投资理念，到后期还会有人看重势头。但对我来说，最重要的是团队，我认为团队是一切。市场和技术可以变化，但优秀的创始人可以改变市场的形态。

Joshua 就是那种罕见的既懂研究，又能在机器学习领域创新，同时还有产品导向、用户导向、高速执行和长期战略思维的创始人。这些品质很难同时在一个创始团队中找到。

我其实关注这个领域已经有一段时间了，所以我对竞争对手很熟悉。从公司核心特质的角度来说，我认为 HeyGen 是这个领域中是唯一一个产品体验真正达到了消费者质量的公司。如果你只有 60 秒时间来吸引某人的注意力，产品体验必须很好。与那些自上而下销售的产品不同，它们虽然有很好的商业模式，但体验质量不一定高。不同的市场有不同的进入策略，但我认为底层用户喜爱度是一个难以复制的优势。

去年夏天投资时，我们认为 HeyGen 处于一个早期的拐点。相比于其他团队，我们相信 HeyGen 的团队、战略愿景和势头。

Waseem Daher：Sarah，你怎么看 AI 公司的最小可行产品 (MVP) 和早期市场策略？我认为这也是 AI 公司和传统 SaaS 公司之间的一个有意思的区别。

Shara Guo：早期阶段的 AI 公司可能需要先达到一定的质量标准，客户才会用。不同客户群或不同用户对质量的要求也不同。优秀的产品团队可以调整产品的其他部分，而不仅仅是模型本身，让它们在某种程度上符合用户的期望。

这个产品是否足够好？能否优雅地处理失败？随着产品的改进，能否吸引更多用户？很多公司在早期阶段会遇到「先有鸡还是先有蛋」的问题。他们知道怎么改进产品，但需要先拿到数据。要有一定的创造力，才能高效地得到样本数据。

人们常说某些东西只是 ChatGPT 套壳。我认为，开软件公司仍然有很多难点，核心技术绝不是唯一的难点，它只是其中之一。

诚实地面对不同用户的质量要求非常重要。比如，HeyGen 的用户现在会用 Avatar 进行财报发布和视频翻译，我原以为这在 2024 年不会发生。两三年前我开始关注这些技术时的反应是，这太奇怪了，我不相信人们会用这个。但当人们愿意为此付费时我很困惑，我其实不会希望一个 AI 版本的 Sarah 来到这个世界上。但我意识到，如果它能代替昂贵的视频制作，那么对个人创作者、中小企业的内部沟通和外部营销来说，使用这种技术的敏感度就会降低。

因此，有时候我们得从某个地方开始，然后观察技术的进步。即使今天它看起来很糟糕，但明天可能就会更好。如果你的团队能对技术进步做出明智的决策，并推动它超出某些客户的期望，就是一个巨大的优势。

06 要不要融资，

取决于公司目标而不是收入

Waseem Daher：你们是怎么认识的？是 Sarah 主动联系 Joshua 的吗？还是 Joshua 先联系的 Sarah？

Shara Guo：我每周都给 Joshua 发送一段我的 AI 视频，好像真的很勤奋。但其实我们是在多伦多的一次活动里认识的。我记得 Joshua 当时在和跟我合作的另一位创始人 Linda 讨论市场挑战。我见到 Joshua 时觉得他很不错，觉得他在做的事开始有效果了。感谢 Joshua 让我们有机会合作。

Joshua Xu：我想补充一点，我是 Sarah 的 No Priors 播客的长期粉丝。我只是想多了解她。

Waseem Daher：看来你的社交媒体策略奏效了，你的内容创作者身份给你带来了很多合作机会。

Shara Guo：是的，这正是我们希望的。

Waseem Daher：人们喜欢故事，而这是将品牌融入故事的一种方式。HeyGen 从一开始就有收入，我之前读到的是 2022 年 3 月的 ARR 大约是 100 万美元，到 2022 年 10 月大约增加了十倍，到 2023 年大约是 1800 万到 2000 万美元。有收入对业务战略有什么影响？显然，这并没有阻止你们融资，但 Joshua，你们有没有考虑过自筹资金？你们是怎么决定让 HeyGen 成为一家被风险投资支持的公司？

Shara Guo：我可以插一句，Joshua 在我们见面时并没有筹钱，所以我很感谢他让我参与进来，因为我觉得他当时更专注于业务。

Waseem Daher：对，这正是我的意思。你们做了一个能产生收入的东西，能保持盈利，有机增长，但你选择了不同的路。我认为这是正确的决定。但我很好奇是什么促使你们做出这个决定，你们是怎么考虑的？

Joshua Xu：我们并没有从是否自筹资金或风险投资的角度考虑。我认为我们主要考虑的是业务的下一个里程碑是什么，我们要做什么，然后要弄清楚需要做点什么才能实现它。

不同阶段的公司情况非常不同。在改进 PMF 时，我们专注于客户，了解客户最重要的需求，并保持精简。后来，当我们达到初步的 PMF 时，比如 ARR 达到了几百万美元，我们在努力弄清楚整个市场策略，思考如何扩大规模，我还记得我们见到 Sarah 时，规模还不到现在的 10%。投资人能提供不同的资源，资金是一方面，帮助和建议也很重要，因此我们选择了 Sarah，因为她在市场策略方面能给我们很多支持。

后期我们需要深入研究，提升模型和用户体验，这时候可能就需要更多资源，更多 GPU 算力。我们没有把收入看作主要的里程碑，我们一直希望的是实现关于视觉故事的目标。我认为我们现在只完成了 5% 的旅程，还有很多视频创作的创新可以用新的 AI 技术实现，我们需要投入更多资源来投资这些新技术。所以，归根结底，这取决于我们想要实现的里程碑和实现它需要什么。

Waseem Daher：Sarah，你怎么看那些已经有收入的公司？他们应该自筹资金还是应该融资？你觉得有哪些选项？

Shara Guo：首先我认为 HeyGen 会成为一家很有潜力、被 VC 青睐的公司。但认真地说，我父母的公司是一个自筹资金的网络基础设施公司，最后成功上市了。我提到这个是因为他们没有筹到风投资金，我们试过，但失败了。那时候公司里全是工程师，没有市场人员，也没有讲故事的能力。他们最后在收入达到 3000 万并盈利时筹到了成长型股权资金。这与早期创业非常不同。

我认为有很多不同的方法来建公司，但这确实影响了我作为投资人的看法。我认为团队要做所有的工作，但拥有一些高质量的人脉可以对决策产生重大影响。Joshua 之前提到，考虑你想实现什么，然后决定是否需要资金。我也是一个社区导向的人，我认为建立公司需要很多优秀的人，很难独自完成。

我认为在考虑是否自筹资金时，一个基本问题是，如果你的决策框架是我们有钱或没有钱，你的决策会局限于不需要投资的事。而从产品角度来看，有些事情可能非常贵，比如开发更多功能以及服务客户。所以我认为钱不是最合适的决策范围。作为早期投资人，我与普通的股东处在同一立场，我们都希望不被进一步稀释。保持独立是很重要的。因此，收入和盈利是好的，但最重要的是公司的净影响和绝对影响。你应该根据你想实现的目标来做决策，而不是根据是否筹集资金。

07 AI 风投不缺钱，

缺的是好主意

Waseem Daher：Sarah，你能先给我们讲讲现在 AI 风投市场的情况吗？它是不是仍然很火热？有什么新的趋势吗？

Shara Guo：我认为有两个方面：市场的基本面和供需关系。我们在 Conviction 专注于 AI 投资，因为我觉得现在正是技术和战略发生重大变化的时候。很多 5 到 10 年前还不存在的市场现在正在崛起。每天都有新的技术和科学进展，学术领域也不断有新论文发表，不同团队的探索让人跟不上。这些技术从基础设施、工具到应用都在不断发展。

我相信大家也对投资人的反应感兴趣。我认为反应相当好。我们在 2022 年 10 月启动了基金，而 ChatGPT 在 11 月成为了一个重要的里程碑。

大概三到六个月后，所有主流风投都认为这是未来，并认为它会产生重大影响。除了少数怀疑者，我认为市场上 80% 的人都看到了这个机会。现在有一系列公司，如 HeyGen，正在获得用户和商业上的成功。所以我认为有很多激动人心的事，但同时也有很多困惑，包括团队和创业者们在如何积极投资和在哪里投资上都有疑虑。但我认为，对于有好主意的优秀团队来说，资本是充足的。

Waseem Daher：Sarah，总体来说，你关注所有与 AI 相关的事物，是否有哪个前沿领域让你特别兴奋？无论是音频、视频还是其他领域。

Shara Guo：我们对很多不同的领域都很感兴趣。首先是 AI 视频生成领域。作为投资人或团队成员，最让我感到震撼的是从 HeyGen 用户那里学到的东西：他们对产品的期望。有些用户希望我们能识别并生成特定方言，或者生成音乐、舞蹈、对话视频。这些客户会让你更加雄心勃勃。我喜欢看到团队接受挑战，在实验室或学术研究之外实际应用技术。我们看到一些公司试图从头生成各种视频场景，这也很有趣，但真正的需求来自用户想要制作的内容。

有趣的是，今天孩子们的第一志愿是成为 YouTuber，所以视频创作的需求非常大，但很多需求还没得到满足。视频是一个非常有趣的领域，我们的播客 No Priors 也经常讨论这个问题。我们采访了一些顶尖研究人员，他们认为视频领域有很多还没解决的问题，技术难度很大。但很多看似难以解决的问题，如果有更多聪明的人参与研究，就会变得不那么困难了。所以我们非常看好这个领域。

说这话我有点不好意思，因为在 Graylock 工作的十年里，我和很多大型风投公司一样，关注消费者硬件和机器人领域，这通常是一种赔钱的好方法，因为它也确实非常难。

我这样说可能会显得很傻，但这次情况真的不一样。我不确定现在是否已经有通用模型可以让实体化和机器人智能化地工作，但是如果数据收集效率更高，策略实施更高效，也许真的可以带来全新体验。

我们需要新的硬件。如果只是我的智能手机能做到的一部分功能，那是行不通的。作为软件开发者，如果你能给我提供世界上看到和听到的被动信息，我今天就能为你创造出新的很酷的体验。这些不是你的手机上现有的功能，可能需要设计不同的硬件来支持这种功能。我不知道这是否会立刻发生，但我比以往更乐观，尽管过去我是这种事的普通怀疑者。

Waseem Daher：你能具体说说 Conviction 的投资理念吗？或者你们通常投资的类别有哪些？我记得有六个类别，对吗？

Shara Guo：对，其实我在一次演讲中提到过，最好为不同的想法起具体的名字。我可以谈谈正在变化的一些领域。一个特别相关的领域是「技能拓展」，比如 HeyGen 提供的专业视频制作，这是一种新的能力。再比如大多数人熟悉 GitHub 的 Copilot，或者我们投资的 Seek，它们通过 Transformer 和 Diffusion 模型提升了人们在比如编码和数据分析上的技能水平，大多数组织都希望拥有更多这类技能的人才。所以，这些领域能通过好的产品实现技能拓展和技能民主化，这是我们非常关注的。

我个人也对科学领域的应用很感兴趣。我们投资了一些公司，比如 Child Discovery，他们尝试把一些已经在学术研究中证明有效的技术用到药物结构预测和参数化上，来减少实验室测试的成本，提高效率。我们也投资生物学或机器人等领域的公司，投资帮我们摆脱硬件束缚的公司，比如 Base10，还有提供开源核心模型生态系统的公司，比如 Miss Straw。我们希望在不同领域有所作为，也一直在观察市场，希望找出最大的创造价值的机会。我们认为这是一个全栈的机会。

对谈及参考文章：

https://www.youtube.com/watch?v=0rHaV3mkUG4

https://pilot.com/webinar/founders-and-funders-building-with-ai?

https://www.bloomberg.com/news/articles/2024-06-20/ai-video-startup-heygen-valued-at-500-million-in-funding-round

https://www.heygen.com/article/announcing-our-series-a

文章来自于微信公众号“Founder Park”，作者 “Founder Park”

HeyGen 创始人万字访谈：没有自研大模型，AI 视频公司如何做到 3500 万年收入？

关键词: AI , AI视频 , HeyGen , AI融资

AITNT资源拓展

根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考

AI工作流

【开源免费】字节工作流产品扣子两大核心业务：Coze Studio（扣子开发平台）和 Coze Loop（扣子罗盘）全面开源，而且采用的是 Apache 2.0 许可证，支持商用！
项目地址：https://github.com/coze-dev/coze-studio

【开源免费】n8n是一个可以自定义工作流的AI项目，它提供了200个工作节点来帮助用户实现工作流的编排。
项目地址：https://github.com/n8n-io/n8n
在线使用：https://n8n.io/（付费）

【开源免费】DB-GPT是一个AI原生数据应用开发框架，它提供开发多模型管理（SMMF）、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL（智能体工作流编排）等多种技术能力，让围绕数据库构建大模型应用更简单、更方便。
项目地址：https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file


【开源免费】VectorVein是一个不需要任何编程基础，任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤，并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。
项目地址：https://github.com/AndersonBY/vector-vein?tab=readme-ov-file
在线使用：https://vectorvein.ai/（付费）

免费使用GPT-4o

【免费】ffa.chat是一个完全免费的GPT-4o镜像站点，无需魔法付费，即可无限制使用GPT-4o等多个海外模型产品。
在线使用：https://ffa.chat/

无人直播

【开源免费】VideoChat是一个开源数字人实时对话，该项目支持支持语音输入和实时对话，数字人形象可自定义等功能，首次对话延迟低至3s。
项目地址：https://github.com/Henry-23/VideoChat
在线体验：https://www.modelscope.cn/studios/AI-ModelScope/video_chat

【开源免费】Streamer-Sales 销冠是一个AI直播卖货大模型。该模型具备AI生成直播文案，生成数字人形象进行直播，并通过RAG技术对现有数据进行寻找后实时回答用户问题等AI直播卖货的所有功能。
项目地址：https://github.com/PeterH0323/Streamer-Sales