图片来源:Unsupervised Learning
Jacob Effron: Joshua,非常感谢你能参与这次访谈。
Joshua xu: 感谢你邀请我。
Jacob Effron: 我想从一个与众不同的地方开始,我想知道,在像HeyGen这样的公司内部,当你们的产品真正爆火时,那是一种怎样的体验?我认为HeyGen的历史中有过很多这样的时刻,我第一次接触到的可能是当Elon和其他人开始用不同的语言配音阿根廷总统在世界经济论坛上的演讲时。当这样的事情发生时,在HeyGen内部是什么感觉?
Joshua xu:确实非常令人激动,人们开始认识到产品的价值,并且见证到奇迹的发生。我一直与团队谈论我们在构建AI产品、发明AI体验、颠覆传统视频和内容创作方式方面的工作,我认为我们的角色更像是魔术师。随着各种AI技术的发展,我们有很多机会来创造那些神奇的瞬间。你提到的视频翻译就是一个魔法时刻,当你实际体验到人们可以用自然的声音在镜头前讲不同的语言,并且还能保持表情一致时,这真是太神奇了。
Jacob Effron:在那件事发生之前,你们有没有收到任何预警,还是说有一天醒来打开推特时突然发现自己火了?
Joshua xu:我们并没有提前预料到,我们当时只是专注于开发产品,并不断推出我们认为很酷的功能。但有一点我们知道,只要你持续发布新功能,持续改进产品体验,持续倾听用户的声音,最终你会迎来那个真正打入市场的时刻。
Jacob Effron:对于你来说,使用HeyGen产品的第一个魔法时刻是什么?
Joshua xu:那肯定是当我创建出第一个虚拟形象,并看着屏幕上的自己用不同的语言说话时的那个瞬间,那种感觉非常神奇。另外还有一些魔法时刻,比如当你开始在日常工作中使用它时。举个例子,有一次我想给团队内部分享一份产品更新邮件,我没有亲自录制视频,而是准备了一份脚本,稍作润色后放入我的虚拟形象中,然后就生成了一个视频。这样感觉容易多了,也不必再对着摄像头录制视频了,真是太棒了。
Jacob Effron:我还以为你会让一个带着脚本的虚拟形象来参加这次播客呢,不过看来并不是这样,但我很高兴这次能面对面地与您交流。我很好奇,您是如何描述当前AI在创意工具中的地位的。如果为我们的听众设定一个背景,您认为现在可以做到什么?哪些仍然是尚未实现的?您是如何看待我们现在所处的位置的?
Joshua xu: 首先,HeyGen是一个帮助人们创建、本地化和个性化视频的AI平台。在我看来,过去乃至现在,大多数视频制作的第一步都是需要使用摄像机来拍摄,就像我们现在所做的这样,这是第一步。第二步是从拍摄的素材中进行剪辑,还要做一些后期处理,这就是主要的两步,这样我们才能开始制作一部优秀的视频,总是先从摄像机开始,从素材开始。但是我认为,随着生成式AI的发展,现在可以通过AI生成素材而不是用摄像机来拍摄,这一点将会改变。当我们创办公司时,最初的目标其实是替换摄像机,因为我们发现许多人,尤其是许多企业,没有昂贵摄像机的使用权,他们害怕镜头或性格内向,他们在镜头前讲话会感到不舒服。现在我们可以用AI来帮助这一过程,使视频制作速度提高十倍,成本降低十倍,通过AI生成素材。
Jacob Effron: 当你们开始这些项目的时候,你们是否觉得这些虚拟形象模型已经准备好,或者说这些功能已经准备好可以应用了,还是说这是一场对未来的豪赌?
Joshua xu: 不,我认为当我们刚开始这家公司时,并没有所谓的AI这个词。这更多是来自一种愿景,一种信念,即技术最终会解决视频生成的问题。我一直相信视频源可以被编码进计算机中,也就是意味着它只是一种零或一的编码。那么总会有办法去解码它,让机器学会并生成这些视频。或许回到我们如何想象视频制作的方式上来说,就是生成视频片段,即使整个编辑体验也可能会完全不同。当我们今天看编辑工具时,它们大多是基于时间线的编辑器,有多层的时间线。时间线编辑器存在的原因实际上是因为摄像设备非常昂贵。因为摄像机很贵,制作成本也很高,当你在拍摄视频时,你会拍很多次,比如拍二十段剪辑,然后你把它们全部导入到时间线编辑器中,挑选最好的一段进行编辑。但现在一旦你可以生成视频片段,你就不再需要依赖时间线编辑器了。我想在未来不久,整个编辑体验将会大不相同。我们可能不需要再操作时间线。
Jacob Effron:你觉得会怎么样?
Joshua xu: 当然,我们还在探索中。行业中一些令人兴奋的进步是现在你可以通过文本生成视频。从文本到视频输出。我认为这将是不同的用户体验的结合,比如编写脚本、编辑文档,以及利用AI来操控2D摄像机。
Jacob Effron:如何在视频可以做的所有事情中做出优先级排序?你如何决定优先关注什么?
Joshua xu: 我认为,这回归到最初的一点。我们正在创造一个神奇时刻,我们想要发明一种为客户制作视频的方法,而且我认为是非常重要的,这是魔法之旅。我认为归根结底在于AI的质量,所以当我们谈论这种新的工作流程,新的技术可以在几分钟内替代旧的工作流程?这种生成的视频片段能否真正取代摄像过程?这归结于AI的质量。当我们谈论质量,AI模型时,这不仅仅是解决数学问题,因为你有一个更好的损失函数,并不一定就能让视频看起来很棒。让视频看起来很棒有很多不同的方面,比如闪电的片段,人物的民族主义色彩,他们说话的方式,他们是否有身体动作和手势与他们想要表达的内容相匹配,所有这些都归结于视频的质量,这始终是我们最关注的一点。
Jacob Effron:你们如何评估这些模型,并确定是否朝着正确的方向前进,鉴于这似乎是有些主观的?或者至少,需要相当优秀的审美品味?
Joshua xu: 我认为这是一个非常棘手的问题。通常情况下,这取决于我们作为一个内部团队,我们需要非常擅长这一点,并且我总会问公司里的每一个人,包括我自己,好吧,你们真的能创建一个伟大的虚拟形象吗?而且你是否满意到愿意在日常工作中使用它,我认为这就是道德所在。规格可能是有些主观的,但是,你知道,一旦你每天都参与到这类问题中,你就会逐渐形成某种感觉。
Jacob Effron:那么客户今天是如何使用HeyGen的?显然,这是一个非常广泛适用的工具。主要的应用场景有哪些?
Joshua xu: 我们的平台上目前有超过40,000名客户。他们主要用作三大用途:创作、本地化和个人化。当我们提到创作时,他们可以创建一个虚拟形象或选择产品中现有的一个标准虚拟形象并输入文字,这样我们就可以不用摄像机来创建视频了。第二个主要用途是本地化,人们可以将现有的非人力资源视频进行本地化处理,将其转换成175种以上的不同语言和方言,同时保持原有的语音语调、面部表情和人物特征,并对他们进行唇形同步处理。最后一点是个性化,你可以创建一个视频,但实际上可以使用人力资源工具将其个性化为超过100,000种不同的变体,根据客户是谁,在哪个行业工作,面临什么样的问题,你可以像个性化活动一样个性化视频信息。
Jacob Effron:对于创意工具公司而言,有趣的是,有时似乎存在一种张力,即为最前沿的电影制作者、艺术家类型的人群与普通市场营销人员之间做平衡。换句话说,对于那些从未真正玩过视频工具的人来说,你们是如何考虑为那些非常专业的用户服务与任何人都可以拿起并学会使用的之间的平衡?
Joshua xu: 有一点要指出的是,人力资源工具并不是为那些已经有相机的专业视频编辑者设计的,但他们具备自己使用复杂软件进行视频编辑的技能。人力资源工具实际上是为剩下的99%的人设计的,我们称呼为99%的非专业人士用户。比如,内容创造者就是一个很好的例子,像市场营销人员,他们通常负责生产内容,撰写剧本,但他们可能不具备实际制作视频所需的技能,人力资源工具正是帮助这些人实现目标的工具。我们的使命是希望能够让每个人都能进行视觉故事讲述,尤其是对那些没有条件接触昂贵摄影器材的人,或者不知道如何使用复杂的视频软件的人。
Jacob Effron:我认为,面对这种情况的人们遇到的一个有趣的挑战是教会用户如何去做一件全新的事情。很多AI产品都有这样的挑战。你们是怎么思考这个问题的呢?当营销人员第一次打开HeyGen时,你们学到了什么,如何尽可能简单地让他们明白这是一种新的做事方式。可能他们之前从未使用过虚拟形象,他们不了解其能力。在这几年里,你们在这方面学到了什么?
Joshua xu: 一开始我们非常专注于展示这种魔力。我认为告诉人们今天可以做什么,它看起来是什么样的,以及技术处于哪个阶段是非常重要的工作。因为HeyGen是一个非常横向的平台,有许多不同的应用场景。从市场营销、销售支持、客户服务到培训、内部使用以及普通的创作者等等。因此,对我们来说,投入精力展示不同垂直领域的各种案例是非常重要的。
Jacob Effron:因此理想的情况是,如果你是一个新用户,你要尽快引导他们到他们的应用场景,并展示给他们这种魔力时刻。
Joshua xu: 是的。
Jacob Effron:我觉得虚拟形象领域在过去一年左右的时间里真正地发展起来了,而且现在有不少公司在这一领域。那么,你们在模型层面是如何区分自己的呢?你提到了真实感以及能够传达情感等方面。但我想知道,一个好的虚拟形象需要什么,从技术角度来看,要实现这一点需要哪些条件?
Joshua xu: 我认为最重要的一点是问自己一个问题,这段视频引人入胜吗?最终,我们要制作这个视频并与他人分享,特别是在商业环境中,视频的目的在于有效地传递信息。如果人们在三秒后就退出了,那就意味着这条信息没有达到预期的效果。但引人入胜只是一个方面,我们一直在思考,表情是很重要的。人们不只是动嘴说话,而是同时伴随着头部的动作、眉毛的变化以及身体的运动和手势。这是整个过程中最具挑战性的部分。如何协调所有这些不同的元素,并整合系统,共同构建出引人入胜的体验?
Jacob Effron:你是如何建立这个模型的?例如,观看大量人们的谈话视频?你是如何训练一个非常优秀的虚拟形象模型的?
Joshua xu: 首先,我们自主研发了整个视频层。我们有一个专门的研究团队来开发所有的虚拟形象模型,不仅包括唇形同步,还包括驱动大量的身体动作以及渲染全身。我们最近发布了Avatar 2.0,它不仅限于渲染脸部,实际上是一个渲染全身的模型。就像这里有一个人坐着,他每天都在观看很多谈话视频。关键在于能否找到一种方法来复制这类内容?我认为AI模型的学习过程也是如此,数据是我们需要解决的一大难题之一,并且我认为不断改进模型架构以捕捉这些变化也很重要。
Jacob Effron:你是如何看待一个真正引人入胜的虚拟形象模型与多种引人入胜的方式之间的区别?
Joshua xu: 如果我们回溯一下,我认为创建一个虚拟形象最简单的方法是使用一张照片,但问题是如果我上传我的照片来创建虚拟形象,AI模型不知道该如何处理。通常我会谈论一些当我做出这样的手势时,或者你知道,我的面部表情与其他人的有点不同。因此,我们引入了所谓的视频虚拟形象,其中你需要提交一段视频素材。我们的想法是AI模型将会模仿你在那段视频中的所有行为表现,个性化就是从这里来的。令人惊讶的是,这么快就能得到结果。
Jacob Effron:我觉得你需要上传的东西并不多。
Joshua xu: 是的。通常只需要大约30秒到两分钟的视频,这足以让我们学习你的讲话风格。当我说讲话风格时,不仅仅是关于你怎么动嘴,还包括所有其他细节。我们也在尝试建立更大的模型来捕捉更多的视频片段,以便我们可以捕捉你可能会有的不同模式。比如说,演示模式、采访模式、或者当你在...的时候的其他模式,我们并没有在AI模型本身内置这些东西。接下来的问题是,客户如何使用这个特定的AI模型?当然,我们会提供控制选项,客户可以选择他们想要的模式。我认为今天的AI可以做到的一件事是,根据脚本,根据他们想要讨论的内容,为客户至少建立一个推荐模式,你可以自适应地改变视频中虚拟形象的模式和行为。
Jacob Effron:真是令人惊叹。我觉得你们使这些模型更加引人入胜,当虚拟形象刚出现时,我觉得它们主要用于学习和发展,因为替代的方式太过乏味,以至于并不在乎它们是否足够吸引人。即便如此,它们也比阅读一堆学习和发展材料要好,但现在显然你们已经能够扩展到市场营销和其他许多领域。另一个我认为非常有趣的发展方向是,目前大部分应用都是异步的,我认为同步生成流的潜力非常大。显然,我猜想这在技术上相当具有挑战性,所以我想知道你能否谈谈其中的一些技术挑战。假设我们解决了这些问题,如果我们能够实现同步,那将是一个怎样的世界?
Joshua xu: 首先,我们实际上已经有了互动虚拟形象版本,目前的产品中有一个测试版,你可以将你的虚拟形象升级为互动版本,然后将其发送到Zoom会议中进行实时互动。我认为有些挑战你说得对。一旦达到了质量标准,接下来的问题就是性能。显然模型会变得越来越大,模型架构也会变得更复杂,挑战更多在于如何优化推理速度。但我确实认为,如果我们看看当今的广告平台,如Facebook、Google,当我们看到同一个品牌的同一则视频广告时,尽管会被推荐到不同的广告,但我们总是看到相同的视频。
Jacob Effron:更好的利用这种体验的方式是,如果我们能看到基于我们的偏好和观看历史的不同视频会怎样?但似乎基本上要即时渲染这些,你说目前这些模型较大,很难快速推理来生成内容。
Joshua xu: 是的。但我觉得这确实是一个大的技术挑战。不过,我对未来持乐观态度,我认为在接下来的12个月内,很多技术都将能够实现实时运行。
Jacob Effron:全身动作呢?我知道这也是你们一直关注的另一个领域。看起来你们在这方面做了很多工作。能谈一谈与此相关的某些挑战以及你们目前的进展吗?
Joshua xu: 让我回过头来说说为什么我们需要全身渲染。全身渲染非常重要。再次回到我们如何定义一个吸引人的主持人,身体动作和姿势是非常重要的。正如我前面提到的,HGN虚拟形象的3.0版本实际上是全身渲染的,我们还没有包含手势,但这将是下一步的工作。我认为挑战在于这是一个全新的领域,我们没有足够多数据。我们需要理解什么样的模型架构最适合捕捉这些特征。但最终还是归结为零、一或编码的问题,我们总会找到解决办法。
Jacob Effron:显然有很多人在研究纯文本转视频模型,比如Sora和Pika等。这种情况怎么解释?这与你们长期的工作有何交集?你能想象一个它们互补的世界吗?或者你们是否会各自扩展到对方的工作领域?或者长期来看,它们如何共存?
Joshua xu: 当然可以。在我看来,在HGN,我们主要专注于商业视频,为了在商业环境中解决视频生成问题,基本上有两种路径。第一种路径是从头到尾生成整个视频。生成单元将是逐像素的,然后是一帧一帧的,这可能是你所说的文本转视频技术的一部分。另一种路径是构建一个编排引擎,这种引擎能够捕捉文本、脚本、声音、音乐、作为A-roll的虚拟形象素材,以及部分B-roll生成。我们喜欢第二种方法,它提供了更多的控制、一致性以及质量。当我们谈到商业视频时,品牌或企业或业务想要的是什么?他们实际上想要的是控制、一致性和质量。
从技术角度来看,第二部分将允许我们提供更好的体验。特别是当我们谈论控制时,是的,我们可以谈论控制视频甚至图像,使用提示,但实际上更好的用户界面可能是用鼠标来处理二维摄像机上的操作。因此,我认为在这种情况下,我们将与所有的文本转视频合作伙伴紧密合作,因为这是系统的重要组成部分。我们会把它作为B-roll,但我们会构建整个RDE。我们在顶部构建编排引擎,并且该服务直接打断客户的操作。
Jacob Effron:这是另一种输入,你可能想要一个虚拟形象或其他某种生成场景,可能还想要定制一种声音。基本上,你们会自己构建一些这些功能,会输入最好的文本转视频,并在整个过程中协调,以提供这种全方位的视频体验。我们谈到了全身、同步、文本转视频。还有哪些领域是你关注的,可能在未来6到12个月会改变这种视频空间?
Joshua xu: 我认为另一重要部分,虽然技术上是可行的,但我认为这种体验尚未真正进入市场。这实际上是品牌个性化层,比如说我们使用Cheshire B2B,你可以给它一个提示,嘿,给出公司所有的背景信息。Cheshire B2B将帮助你以品牌的语气编写剧本,并了解上下文、背景、公司历史以及产品。但这在目前的视频中是不可能的,对吧?
一个重要部分实际上是将视频分解成不同的组件,然后当你尝试将它们组合成最终视频时,这就是品牌个性化可以进入的地方。最佳的体验将是,嘿,我们只需取一个URL或查看公司过去的视频,然后通过AMO学习颜色调、风格、开头以及视频剪辑,并且可以将所有这些元素融入最终的示例过程中,我认为这将是一个非常令人兴奋的功能。
Jacob Effron:你会怎么做?
Joshua xu: 我认为,就像上下文窗口一样,你要么加速过程,要么你有一个上下文窗口。但真正来说,我认为背后的想法是你希望有一些用户输入作为记忆,然后你可以将其融入到过程中, 也可以嵌入进去,这样就可以喂给AMO。
Jacob Effron:我感兴趣的一个问题是,在AI创业界,人们常说,现有的大公司位置很好,他们会解决这个问题。当然,在你的世界里,你也与一些非常强大的竞争对手竞争。当然,你之前的雇主Snapchat,还有TikTok和其他专注于prosumer视频的平台。当你离开Snapchat时,我相信你考虑过可以在Snapchat内部或是在初创公司中开发这些功能。是如何看待这些平台的演进的,它们已经有了分发渠道,而你们HeyGen能做些什么?
Joshua xu: 我们看待整个视频空间或创意内容空间的方式是,我认为我们现在处于创意工具阶段。但是当我们看分发和平台部分时,它们仍然由许多过去的老牌开发者所拥有,尤其是在平台方面。所以,我认为这就是移动相机的时代。我的看法是,首先,要明确客户是谁。最初,当我们谈论建立视频创作工具时,对象是有相机的人。他们是相对专业的,并且擅长使用复杂的编辑工具。但现在我认为HeyGen是为那些内容创作者而建的。那些在视频领域的人和那些无法接触到这些工具的人。我认为产品体验会有很大的不同,并且肯定有许多机会等着我们去开发。并不是在旧市场上竞争,而是开辟了一个新的市场机会,无论是初创公司还是公司内部,我们都想在这个领域工作。我认为这将取决于不同的产品如何抓住客户需求并创建满足他们的产品特性。
Jacob Effron:看起来Snapchat和TikTok也专注于类似的目标市场和虚拟形象等方面。你对他们的做法怎么看?你认为他们的焦点相同,还是会有所不同?
Joshua xu: 我们认为,当谈到一些老牌玩家,特别是垂直视频和短视频平台时,关键点是解锁那些可以用手机轻松制作视频的创作者。我认为这正是驱动他们的核心价值所在,而对我们这样的新平台而言,核心价值并不是这一点。因为我们想要让相机变得多余,我们实际上想要让人们无需相机也能进行视频创作,这对一些平台来说将是一个两难的选择。举个例子,假设许多平台都是围绕创作者构建的,但是现在这项技术实际上并不是为那些有相机的创作者设计的。假设有10%的内容是今天通过这种方式生成的,人们会如何评价这些内容?人们会如何推荐这些内容,与剩下的90%基于相机的内容相比?问题来了,我们可以把它们混合在一起。但是呢?如果这个比例变成50%对50%,那么如果把这两种内容放在一起,就意味着现有的内容创作者会获得更少的关注度。在那种情况下,如果这一阶段到来,我们就必须为AI生成的内容建立一个新的平台,我认为这就是新平台出现的新机会。
Jacob Effron:这很有趣,因为正如你所说,像TikTok这样的世界,它们服务于自己的内容创作者,并承诺提供一个平台,如果他们竞争的话,可以吸引像Charlie de Million这样的创作者来这里发布内容,并说,嘿,你在这里发布,可以获得最大的覆盖和曝光。当内容越来越受欢迎时,它们将面临是否要推广这些内容或是压制它们,那么你认为最终你们会有一个消费平台来处理所有这些AI生成的内容吗?
Joshua xu: 这不是我们的使命,我们只是想建立一个伟大的创作工具来赋能每个人,我们想确保每个人都能接触到合适的内容,接触到视觉叙事。但我也认为,这可能是新平台出现的新机会。我想我们会看到结果的。
Jacob Effron:你学到了什么?显然,你们在过去三到六个月里大力推动了企业级的应用,进展得非常好。在服务这些客户的过程中,你们学到了什么?有没有哪些地方让你感到惊讶,需要在产品中做出调整或预期之外的事情?
Joshua xu: 我认为关于企业客户的一点是,对质量的要求更高,就品牌一致性而言,视频输出的质量也是关键,这是一方面。显然,这符合我们的产品策略,我们一直非常专注于这一点。对于企业级应用的另一个非常重要的部分是,将技术和产品整合到日常的工作流程中,将会有许多集成的部分,但我们正在积极地进行整合和工作流程的优化。哪些集成最终成为了最重要的,这取决于我们在讨论哪个应用场景,如果是市场营销,我认为集成现有的CRM系统和市场推广工具是非常重要的。事实上,我们在上周与HubSpot建立了合作关系,我们已经建立了一些集成和应用程序,我们将HeyGen整合进HubSpot的应用生态系统,以便人们可以将HeyGen作为一个工具与他们的市场营销产品和CRM产品一起使用。我认为这将极大地改善用户体验。
Jacob Effron:这样做既可以从上下文中提取数据供HeyGen使用,又可以方便地推送HeyGen的内容。我觉得你在安全性方面考虑得非常周到,你们在一些项目上确实是走在前沿的。我想了解一下你们是如何思考安全指导原则的,比如说,深度伪造的声音或其他违规行为。我很想听听你是怎么考虑这些问题的。从外部看来,那些最敢于突破界限的人,比如模仿唐纳德·特朗普或泰勒·斯威夫特的声音,往往能够吸引最多的关注。你们显然对此进行了大量的思考,跟我谈谈你是如何随着时间推移思考这些问题的,以及决定不去触及这条线或者甚至越过它。
Joshua xu: 首先,信任和安全对我们业务至关重要,我们服务的是一些大型的企业客户。对于我们来说,在平台上正确实施信任和安全措施是非常重要的。我们认为HeyGen的信任和安全工作有两个大的方面。一是如何创建虚拟形象;二是如何创建视频内容。对于HeyGen上每个创建的虚拟形象,我们都会要求有信任和安全机制。我们有一个视频同意格式,并且有先进的AI来匹配同意书与实际人物的一致性。同时,我们还有一个动态生成的密码,每隔10到15秒就会更新一次,这样就为保护隐私提供了一层安全保障。实际上,几乎不可能未经同意创建某人的虚拟形象。同时,我们也组建了审核团队,不仅是AI审核,还有人类审核人员确保一切都在预期之内,意味着在HeyGen上产生的所有内容都必须遵守我们的政策,不允许仇恨言论、虚假信息、反政治活动等。另一方面,我们也有我们的平台审核政策。
Jacob Effron:知识产权合作呢?这是如何融入进来的?你能想象随着时间的推移,演员们是否会授权使用他们的声音?或者是虚构的角色,人们想要钢铁侠之类的。你们现在是否有考虑过这个问题?你认为这个领域会发展到哪里?
Joshua xu: 当然,我们已经与一些演员建立了合作关系。他们在HeyGen上建立了自己的虚拟形象,这是我们库存虚拟形象的一部分。但我们还没有在知识产权方面进行过多探索,不过,我认为一个非常有趣的探索方向是,现在你可以生成一个新的声音,一个新的AI生成的人物,这可能会成为未来新的IP,尤其是如果你看看最新的图像生成模型,它实际上可以保持跨不同生成的一致性,这意味着这为人们生成新的IP打开了全新的可能性。如果我们将这些图像转化为视频,那将会有一个全新的角色诞生。我们对此感到非常兴奋,期待探索。
Jacob Effron:是的,这些AI影响者。比如说Instagram上的Michaela就很受欢迎。
Joshua xu: 是的。
Jacob Effron:你可以用这些AI影响者做很多事情,看到这些影响者的出现将会很有意思。你们平台上已经有这样的影响者了吗?
Joshua xu: 还没有。
Jacob Effron:另外,很多创始人会考虑的一件事是,你们是一家热门的AI公司,我相信人们对你们很感兴趣,总是有人想给你们投资,你们可能拥有无尽的融资来源。你是如何考虑适当的融资金额以及资本密集程度的?
Joshua xu: 我觉得很多人都在试图解决这个问题,因为现在有很多可用的资金。特别是在整个AI领域,最大的成本因素之一实际上是GPU和人才,这是一方面。但当我们审视软件公司的财务模式时,AI领域的实际情况与此非常不同,当我们销售软件时,服务额外客户的边际成本几乎是零。但对于AI来说,情况并非如此,因为你实际上消耗了更多的GPU计算资源。当然,今天的GPU并不是免费的,我认为这是不同之处之一。但我想强调的是,随着所有AI技术的发展,拥有很多人是非常重要的。,就是为什么我认为个体员工比以前更有效率的原因,我个人使用ChatGPT帮助我完成很多事情。
Jacob Effron:听起来你们也在内部的产品更新等方面使用agent。
Joshua xu: 是的,确实如此。昨天我在顾客测试中被要求录制一段视频,我用我的应用完成了。我不再需要自己拍摄视频了。有一些新的AI一代正在产生,这将是一个原生的AI生成公司,这也意味着团队本身也是原生的。团队变得更加高效,尤其是当你看一些早期的AI玩家时,它们的增长轨迹是惊人的,比如ChatGPT在极短时间内达到了一亿用户,这比任何过去的公司都要快。我认为市场推广也将加速,因为整个行业对AI都非常兴奋。因此实际上我们需要较少的资本来建立一家伟大的AI公司。
Jacob Effron:因为我可以想象你们可以做的一件事是拥有一个非常慷慨的免费层级,虽然你们确实有一个免费层级,但是,你知道,像你们这样的公司总会面临这样的矛盾:每次运行这些模型时都会有推理成本,但人们通过免费体验发现产品的魅力所在。我可以想象你们可以让免费层级更加慷慨,就像轰炸市场一样,尽可能多地提供免费体验。显然你们在某种程度上已经这样做了,但你们是如何考虑这个问题的?
Joshua xu: 是的,这是一个有趣的想法。如果你看一下一些大语言模型领域的话?大语言模型确实提供了免费选项,当然我们也有免费层级。我猜你知道,随着开放更多的免费使用,你会开始看到边际收益。我猜我们还没有真正专注于探索这一点,但我认为这是一个非常有趣的想法。
Jacob Effron:是否有什么东西是因为推理成本太高而没有做?例如,你们有技术能力去做,但因为推理成本似乎每六个月就会大幅下降,所以你们没有做。有没有什么你们在等待变得更便宜的东西?
Joshua xu:我们并不等待,我们总是提前12个月。举个例子,当我们今天设计产品时,决策是基于未来12个月的模型能力。成本是多少?所以我想我们实际上一直在提前建设。
Jacob Effron:那太棒了。我们通常会在快速问答环节结束采访,获取您对一些广泛问题的看法。也许我们可以从这个问题开始,您认为目前AI领域中最被高估和最被低估的事情分别是什么?
Joshua xu: 我认为被高估的是AI在商业企业中发挥巨大价值的速度,而被低估的则是其最终的影响。我们总是倾向于认为当一项创新技术出现时,它应该比预期发展得更快。但在我看来,这是一个很严重的问题。
Jacob Effron:自从创立HeyGen以来,有哪些事情改变了您的看法?
Joshua xu: 有许多事情改变了我的看法。我可以说,在这一过程中我学到了很多,由于我们今天讨论了很多技术性的东西,我可以举一个关于技术的例子。大概在2021年初,元宇宙概念曾一度火热,很显然,三维图形技术有了巨大的进步。但实际上,当我们尝试做一些事情时,并不能轻易实现,但要解决视频生成的问题,有两种方法。其一是逐像素生成,其二是先构建底层的3D模型作为引导模型,然后再在其上添加像素。自从稳定扩散模型出现以来,完全改变了我的想法。我们很早就开始投资3D技术并探索这条路径,但当我看到稳定扩散模型时,我意识到这项技术将会以更快的速度发展,因为它允许大规模的数据更改。这是在技术路径上发生的一个变化。
Jacob Effron:很有趣。在客户方面,有没有什么让您感到惊讶的事情?有些您没想到会成为大事,但却产生了很大影响,或者有些您以为客户会喜欢但实际上他们不太满意?
Joshua xu: 当然。实际上有许多这样的例子。我平均每天有一到两个客户的电话,所以我确实被问过这个问题。我总是惊讶于一些客户会多么关注细节,比如虚拟形象的质量和互动性,因为我认为这很有挑战性。看着别人的虚拟形象与看着自己的虚拟形象是不一样的,在这种情况下,你会有更高的标准,同时我也从与客户的交谈中学到了新东西。我想说的另一点是,我们一直希望让流媒体虚拟形象能够与客户实时交流,这是我们努力的一个方向。但我觉得我们还需要提升虚拟形象的表现力。我们确实收到了很多反馈,我想我们需要继续在这方面改进。
Jacob Effron:到目前为止,您收到过的最详细的虚拟形象反馈是什么?特别深入的那种。
Joshua xu: 昨天我和一位客户进行了交谈。他是昨晚在欧洲联系我的, 他给出了很多关于手势的反馈。他制作了一段超过六分钟长的视频,实际上是五到六分钟。他说其中一个痛点是有时人物的手势与剧本或内容不符, 但在前几分钟里还可以接受,直到视频结尾时手势开始随意移动。除非你亲自制作视频,否则很难发现这个问题。他还给出了一些关于他希望虚拟形象在这场或那场中如何表现的反馈,不仅是身体动作,还有手势,这非常惊人。
Jacob Effron:太酷了。除了视频领域之外,目前您最看好哪家AI初创公司?
Joshua xu: 这可能不是初创公司,但确实是一种新的生成式AI产品。比如谷歌笔记本,我不确定你是否了解这个,但确实是一项非常酷的技术,你可以输入一篇博客文章然后输入谷歌文本或网址,它会生成播客格式、视频格式或音频格式的内容。有趣的是……
Jacob Effron:我得小心点,听起来像是我说的。
Joshua xu: 我自己每周都会向全公司发送一份产品更新周报。昨天我发了一份,我把整份产品更新输入到谷歌Noble大语言模型中,它会生成两分钟的声音摘要,然后我把它分享给团队,他们都喜欢它。因为现在可以听到两人的对话形式的产品更新播客,我非常喜欢这个功能,如果只有虚拟形象能放在上面就好了。
Jacob Effron:实际上这就变成了音频播客和视频采访。
Joshua xu: 是的。
Jacob Effron:在我结束之前,我最后的问题是——一个宽泛但直白的问题……你认为2030年的视频创作工作流程会是什么样子?如果我们展望未来,你对这一切的发展有何愿景?当人们学习并使用这些工具时,下一代的学习过程会是怎样的?
Joshua xu: 我总是有一个简单的思维模型来思考KJN这款产品将如何演进,以及在打造用户体验时所面临的挑战。
我总是设想我能做到这点。我需要创建一个视频,想象我旁边有一个视频制作公司。你想想看,与视频制作公司合作的流程是怎样的?第一步,你先提出你的想法;第二步,视频制作公司帮你拍摄素材;然后一旦他们有了素材,第三步是他们进行剪辑,然后展示给你,你给出反馈,然后他们再次编辑。最终我们得到了成品视频。
Jacob Effron:是的。
Joshua xu: 所以,我认为五年后,每个人都会有一个随身携带的视频制作公司。
Jacob Effron:是的。
Joshua xu: 我们希望提供的体验是,你可以与产品互动,就像是在与一个专属的视频制作公司对话。我认为这就是我们想要实现的终极愿景或体验。
Jacob Effron:是的。你觉得人们会用它做什么?显然,你已经看到了第一波使用案例出现在第一代KJN上。现在,2030版本,你觉得我们会做出什么样的作品?
Joshua xu: 我们的看法是,任何类型的文本内容、音频内容或视频内容都可以通过AR的方式更快、更低成本地生成。当我们审视创意工具的力量时,你会发现它开启了新的应用场景。有许多应用案例是你事先无法预知的。我总想回到的一个例子是,想象一下2012年,当手机相机出现时,我们真的知道会有Instagram、Snapchat、TikTok这样的平台吗?今天看来,当时很难想象。我觉得真正强大的地方在于当你改善工具,当你降低门槛时,你会开启一个全新的世界,我对探索人们将如何利用这些工具感到非常兴奋。
Jacob Effron:你显然对这个领域充满热情。你是从小就这样还是加入Snap之后才有的?
Joshua xu: 我认为肯定与我在Snap的经历有关,与很多产品一起成长并与公司一起发展。我认为自己是在移动平台时代成长起来的职业生涯。当移动相机进化时,当我们看到Instagram、Snap和TikTok等不同类型的平台涌现出来。对此我有很多思考,我认为对我来说最重要的是,当我创造出一些东西,人们使用我的技术,使用我创建的工具去创造属于他们自己的作品时,我会感到极大的喜悦。
Jacob Effron:非常酷。我想大家还有很多问题想问,我把最后发言的机会留给你,人们可以从哪里了解更多关于HeyGen的信息,或者关于你本人的信息。
Joshua xu: 当然是去访问HeyGen.com试用我们的产品,注册是免费的,创建你自己的虚拟形象也是免费的。
Jacob Effron:太棒了,Joshua,非常感谢你,这是一次精彩的对话,谢谢你。
Joshua xu: 谢谢你,再见。
文章来自于“Z Potentials”,作者“红点创投”。
【开源免费】n8n是一个可以自定义工作流的AI项目,它提供了200个工作节点来帮助用户实现工作流的编排。
项目地址:https://github.com/n8n-io/n8n
在线使用:https://n8n.io/(付费)
【开源免费】DB-GPT是一个AI原生数据应用开发框架,它提供开发多模型管理(SMMF)、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL(智能体工作流编排)等多种技术能力,让围绕数据库构建大模型应用更简单、更方便。
项目地址:https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file
【开源免费】VectorVein是一个不需要任何编程基础,任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤,并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。
项目地址:https://github.com/AndersonBY/vector-vein?tab=readme-ov-file
在线使用:https://vectorvein.ai/(付费)
【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。
项目地址:https://github.com/Significant-Gravitas/AutoGPT
【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md