对话爱诗科技王长虎：视频生成赛道存在平台级产品的机会

6502点击 2024-06-25 09:49

今年 2 月，Sora 吸引了人们对视频生成赛道的关注。而这一赛道的头部创业公司爱诗科技，也开始进入人们的视野。

它成立于 2023 年 4 月，比 Sora 诞生早一年，当时视频生成还是强烈的非共识。虽然只有一年的时间，但它已经做出了产品、并有不错的数据。国际版产品 PixVerse 于今年 1 月上线，支持文生视频、图生视频等多项功能。据第三方数据统计网站 Similarweb，PixVerse 的用户量已突破百万。

为什么能提前预判视频生成的机会？怎么理解视频生成赛道？如何做一款好的视频生产产品？在 AGI Playground 大会上，针对这些问题，张鹏与爱诗科技创始人兼 CEO 王长虎进行了一次对谈。

「我觉得 AIGC 时代有同样的大的平台性机会，为什么？因为刚才提到的两种范式都存在升级的可能。」在他看来。平台型机会依然存在，但「不大可能是把抖音里边的内容换一遍、把人拍摄的内容变成 AI 原生。」

对话爱诗科技王长虎：视频生成赛道存在平台级产品的机会

01 搭建了字节的视频 AI 技术，

创业是因为看到了大的机会

张鹏：先从历史开始聊，我印象比较深刻的是，你是字节体系里出来的，应该是 17 年加入的字节。其实你是一个深入到字节体系里、并且参与了它第二成长曲线的一个人。那是一个什么样的经历体验？你在字节里做了什么样的东西？见证了什么东西？

王长虎：在字节这些年其实是蛮幸福的一段经历。我是 17 年初加入字节跳动的，那个时候还不叫字节，叫今日头条。当时它最好的产品就是今日头条，大几千万的 DAU。像抖音、TikTok，还有很多其他的短视频产品，有的还没有做起来，有的刚刚上线、还没有什么用户。

那时候，公司积累了很多 NLP 和推荐算法的人才，但视觉相关的人才还是比较缺少。我去了之后，从 0 到 1 搭建了一个最终有几百人的视频 AI 团队。我们知道，像抖音、TikTok 这些产品，本质上是智能的产品。大家耳熟能详的是它们非常强大的推荐算法，但其实背后有很多视频 AI 的能力，这些能力就像隐藏在水面下的那部分冰山，大半部分都是我带的团队从 0 到 1 做起来的。

这些技术支撑了字节很多产品，不仅有抖音、TikTok，字节系下的视频、图片相关的产品都涉及到了。我们覆盖了从视频生产到消费的全生命周期。

大家也知道，每天有数以亿计的用户在用抖音、TikTok，每天上传的视频量也是海量的。如何帮助用户更方便、快捷地创作出好玩、好用、易传播的视频？在内容生产过程中，我们有丰富的视频理解和生成技术。当用户把视频上传到平台后，不仅要用强大的推荐算法分发给其他用户，还要处理海量内容中可能存在的不良内容，也就是违法违规、违反公序良俗的内容。每个国家的要求可能都不同，抖音和 TikTok，它们是世界上内容安全最严峻、最复杂的两个产品，这背后的问题很多都是通过我们的 AI 技术解决的。

张鹏：字节的第二成长曲线是抖音和 TikTok 这些产品的成功，但这背后智能起到了重要作用。

王长虎：是的，这些短视频产品背后的 AI 技术是极其重要的根基能力，支撑了这些产品的快速发展。因为当你的用户数非常非常大，有十亿甚至几十亿的时候，而且每天上传的内容量巨大时，里面任何一个问题都不是靠人工能够解决的，都需要 AI 能力。

而且，我们平时看到的和想象中的一些简单的 AI 能力，当它要面对海量用户时，也一定变成了世界级的难题。

张鹏：很多人可能会很羡慕你这段经历，经历了公司在关键阶段的整个成长过程，并且还参与其中。这段历程里你主要的收获是什么？

王长虎：收获非常多。其实我一直在说，我在字节的工作期间做了很多事情，收获远远超过我的贡献。

第一个最大的收获是，我在字节的时候，经常听到张一鸣的一个观点：创业要做非共识但正确的事。大家可能是在 Sora 出来之后，才意识到视频生成是件大事。

但我们创业是在一年前，那时还没有 Sora。当时大语言模型很火，但视频生成这个赛道还是应者寥寥。当时支撑我们的信念就是，我们坚信我们做的事情是非共识的、但正确的事情。

第二个收获是在技术层面。伴随着国民级产品从 0 到 1 的发展，这背后几乎所有能想到的视频 AI 能力我们都做过，而这些能力也是我们现在创业做视频生成的核心基础。

第三个是在价值观层面。我们知道字节是有「字节范儿」，当时我在字节，我们的价值观包括始终创业、追求极致等六个价值观。从一鸣本人开始，他真的是内心相信、并且亲身践行的。我加入后，我的团队、以及和我们打交道的每一个人都在践行这些价值观。「字节范儿」是非常有效的，它是字节之所以能发展这么快的很重要的基石能力。

张鹏：看来你对字节还是非常认同的，总结起来可能就是，打过大仗这件事肯定有很大的收获。那我会问一个问题，在这么好的字节为什么要出来创业？你当时创业的决策是怎么做的？

王长虎：我觉得有几方面的原因。一方面在字节这样的公司，确实非常棒，能够承载很多人的梦想，但是在大厂，特别当你是一个比较重要的角色，其实承载着非常重要的职责和业务预期。那个时候就很难抽出大部分精力或者 all in，去做一件不管是公司外还是公司内都还没有达成共识的一件事情。

第二，我们耳熟能详的那些最伟大的产品，像 Windows、Office，是微软在还小的时候做出来的，Google 也是，甚至 Facebook 也是在校园里做出来的，抖音也是在巨头围堵过程中成长起来的。我们认为，很多大的机会是创业公司有能力做出来的。

第三，也是最重要的一点，我个人在 AI 领域做了很多年。我经历过好几个时代，包括搜索时代、深度学习时代、短视频和移动互联网时代。我深刻感受到一个新的时代浪潮的到来——AGI 时代和 AIGC 时代。当这样的浪潮到来时，就一定会有一些人勇于去逐浪，我想我是其中的一个。

那个时候，我好像听到了一个命运的召唤，「跳下去，all in 到这个时代的浪潮里边」。

02 视频生成产品化和商业化的

可能性更大

张鹏：今年 Sora 火了之后，大家都开始关注视频生成这件事。它和大语言模型的这一波、包括所谓的 Scaling Law，有关系、但又好像不一样。你会怎么定义视频生成这个赛道？它的本质是什么？和语言模型有什么关系？

王长虎：ChatGPT 出来之后，很多业界、投资界的目光，包括大众的目光，都聚焦在大语言模型上。但在 Sora 出来之前，业界其实不认为视频生成能够在短时间内、几年内做出来，它当时被视为一个非共识的事情。

在我看来，视觉内容和语言是完全两类不同的内容。语言是人类诞生后才出现的，是高度抽象化的信息；而视觉，在人类出现之前，山在那儿，水在那儿，它是原生的。

ChatGPT 出来后，我们对大语言模型的预期是什么？是模拟大脑，构建硅基生命，是人体内的东西。但是 Sora 出来后，我们对视频模型的预期是什么？是在人体之外的，是对世界建模，做世界模型。这是两类不同的东西。

第二，视频更难。语言在人类创造的过程中已经被高度压缩，它是一个一维的信号，我们对语言进行压缩、还原的过程相对容易一点。而视频是三维的，三维空间里有非常多的冗余，那我们如何用大模型做信息的压缩？生成的时候如何做到信息极度完美的还原，同时还要把物理规律和整个世界建模？这个难度更大。

第三，视频内容更贴近用户。在过去的移动互联网时代，国民级产品一定包括抖音、TikTok、快手，而且其他产品内容的视频化也是不可逆的。因此，视频相比语言，它更贴近用户，未来产品化和商业化的可能性更大。这是我看到的语言和视频的区别。

对话爱诗科技王长虎：视频生成赛道存在平台级产品的机会

张鹏：今天我们谈 Scaling law，谈 Transformer 这样的架构，本质上是需要更丰富的数据。看起来视频的数据量是更丰富的，但也涉及到一个问题，怎么获取真正优质的数据、甚至是有效标注的数据，这些可能都决定了技术的成长路线。你怎么看这件事？

王长虎：你说的特别对，数据至关重要。我们之前在做大语言模型过程中，会有一个观点说，全世界的知识和语言数据库很快就会被用完，但视频不存在这个问题，每天会有数以亿计的视频会被创造出来，无论是用户创作的还是专业影视公司制作的。

虽然数据量是无限大的，但是最重要的是什么？是如何从海量的视频里找到能够帮助训练模型、解决用户痛点的高质量核心数据。这是至关重要的，而这就需要用到 AI 能力了。

我们过去的经验可以帮助我们更快地做这件事，同时语言模型在这里也起到了非常重要的作用。现在，我们在构建训练数据库时，会用到多模态语言模型来标注视频。因为视频不仅是单一的视觉内容，还包含很多语义信息，所以在训练过程中，视频和它相应的描述都会拿来用于训练。

接下来，我们需要对视频模型进行极致的压缩和建模，尽可能无损地进行压缩，未来我们需要还原视频。这就需要设计优质的解码器（decoder）、编码器（encoder），以及一些核心的算法，来帮助我们对数据进行建模。

最后，技术还是要面向用户。我们要做好技术与产品的匹配（TPF），并引入用户反馈来帮助我们进化技术和产品。我们希望用户能实时体验到我们的成果，所以加速推理模型的小型化也是必要的。

张鹏：看起来这还是个挺复杂的系统，和上一个 AI 时代以及你在字节做的事不太一样。在你看来，字节原有的那些经验，有哪些是能继承过来有帮助的、哪些可能是全新的挑战？

王长虎：在技术侧，很多底层技术都是可以继承的。虽然我们现在的目标是生成视频，但把这个目标和方法拆解后，几乎每一个模块我们都有丰富的经验和能力。

在产品侧，其实过去那个时代最优秀的产品经理们，依然有机会在新的时代大放异彩。

不过产品侧，我们会看到确实存在一些不同，主要是工作方式的不同。在过去，产品往往是根据用户的需求定义场景、再画产品流程图、接着和前端后端及算法团队一起解决问题。在这个过程中，我们用到的技术往往是相对确定的，里面需要的创新度有限，更多是成熟技术的组合。这个过程中，产品经理更像是带领团队逐步实现设定目标的角色。

但在 AIGC 时代，我们做的是 AI 原生产品。同时技术发展非常迅速，所以产品经理必须更敏锐地了解技术现状，并据此挖掘新的需求，做好技术与产品的匹配（TPF）。这是一个很大的区别。

03 视频生成产品的

TPF 怎么做？

张鹏：大家觉得爱诗的产品非常惊艳，比如你们的笔刷功能。虽然都是视频生成，但你们在用户交互和生产过程上有一些不同于常规的东西。能分享一下这方面的思考吗？

王长虎：这个功能是我们在 5 月底最新发布的，叫做 Magic Brush。它只是我们产品的一部分，主要是关于可控生成的。

其实我们做的是 AI 原生的产品，它的特点就是技术发展飞快。因此，产品可能会有一些不确定性，需要匹配技术的发展速度。

正因为如此，我们必须更早地确定我们的信仰和使命。从创业的第一天起，我们就坚定地要做技术普惠。我们的目标是让每天使用抖音、TikTok 的普通创作者和消费者，都能使用 AI 视频生成能力去做全新的创作。

张鹏：所以不是只给专业人用的一个高效率工具？

王长虎：是的，这是我们的 mission。但是我们也要看到技术在快速发展，它在不同的阶段能够 deliver 的能力其实是有它的限制的，那我们要做的好是两点。

第一是做好 TPF，在已有涌现出来最新的能力基础上，如何去找到最好的需求、最真的用户需求，做出当前能力能够支撑的最好的产品，让一部分用户先用起来。

第二是我们希望第一时间面向用户，做好技术、产品和用户的闭环、做好数据飞轮，让用户也参与到我们技术产品的发展。

我可以举几个例子，比如说我们在去年的这个时候，我们就有一个要选择：我们是做社区产品，在 Discord 上面去做这个产品，还是先搞一个 Web UI？

当时我们有一个判断。社区产品的好处在于，用户已经习惯在这些平台上使用类似的产品，我们不需要花费太多精力设计特殊的 UI，可以将更多的精力放在我们的模型本身上。

为什么有这个判断？是因为当时判断视频生成还得很初级，普通用户用不起来，玩不起来，能用起来、玩起来的就是那些有意愿跟 AI 一起进化的是偏专业的创作者，所以我们第一个决定就是在社区里边做产品。

经过一段时间后，我们的技术赢得了很多用户的好评，用户用脚投票选择了我们的技术。之后，我们的技术也在不断进化。今年 1 月份，我们上线了 Web UI，这样更多对生成质量有高要求、更多元的用户群就可以用起来了。

我们的最终目标是让普通用户用起来，但让普通用户用起来最好的方式是什么？其实是通过文生视频，所以我们的第一个产品功能就是文生视频。但后来与用户互动后发现，抽卡概率太低。什么叫抽卡？就是我们发现生成几次后，才可能有一个用户可用的视频。

张鹏：最终只有一个能用？

王长虎：是的，所以就出现了另外一个选择，就是图生视频、所谓「垫图」的方法。

为什么要「垫图」？可以简单算一下，如果我们用文生视频，需要尝试 25 次才能生成一次可用的，那么抽卡成功概率是 1/25。但是我们可以把这个过程分成两段，第一段用文生图，假设文生图每生成 5 次就能有一次可用的，这是 1/5 的概率。我们再用这张图通过我们的技术把它动起来，图生视频的成功概率也是 1/5。

这样，通过「垫图」，我们的抽卡成功概率就从 1/25 提升到了 1/10（一共生成十次就能成功一次）。因为这个原因，我们上线了图生视频的功能，这是我们的第二个重要功能。

后来我们发现，用户在使用我们的产品制作视频时，可能只能生成一个几秒钟的镜头，无法真正商业化。如果要商业化，他们可能需要制作几十秒到一分钟的广告短片，或者是一分钟的短剧或宣传片。

那一定是多镜头组成的，这就涉及到一个问题，就是多镜头之间的主体人物是不是能够保持一致？如果前几个镜头是刘德华，后几个镜头变成梁朝伟，那肯定是不符合预期的。所以我们在今年全球首发了一个叫做 Character to Video 的功能。这个功能是我们在与用户互动过程中，基于已有技术实现的。

包括 Magic Brush 技术也是这样，它在用户体验（UI）上有一些创新的。我们知道 Runway 最早推出了一个类似的 Motion Brush 功能，而我们是在 Runway 之后，国内第一个发布这类功能的公司。

我们的功能实际上有更大的进化。Runway 的运动笔刷只能通过上下左右拖动滑块去控制物体运动。而我们在技术上开发了新的算法，能够直接让选定目标按照手绘轨迹运动，在产品交互层面也做了更加灵活高效的设计。除了定向的直线运动，PixVerse 的 Magic Brush 还能通过画折线和曲线完成复杂的可控生成指令。

这就是一个典型的 TPF 过程。我们的产品必须与技术紧密相关，同时我们必须精准地找到用户的真实需求。

04 AI 产品经理的

三道必答题

张鹏：你们现在肯定也在招人，寻找那些最优秀的、把技术变成产品的产品人和技术人。我提一个比较具体的问题，假定我是你要面试的人，你想评判我是否符合这个时代的产品经理要求，你只能问我三个问题，你会问哪三个问题能帮助你最快速形成判断？

王长虎：首先我可能会问，你最近一定用了很多 AI 产品，你能不能从这些产品里找出一个、并对它的模型侧提出优化建议？

为什么会问这个问题？因为我们特别在意产品经理的一个核心能力是，从底层技术抽象去思考用户需求场景的能力。技术发展非常快，很多时候我们需要在最新的技术能力上挖掘用户的真需求。

而这些需求往往是在技术出现之前不存在的，这就特别考验产品经理的产品抽象能力。

张鹏：过去的产品抽象能力好像是画产品图的能力，现在的抽象能力是指什么？是要给模型定数据集吗？

王长虎：现在我们需要前瞻性地思考很多问题。

我可以举个例子，就是 Magic Brush。大家觉得这种交互是必须的吗？其实未必，当技术发展到无限好时，用户可能想生成什么就生成什么。比如，这是四个台球，你用语言描述它怎么动就可以了。

但技术发展有它的客观规律，虽然我们有愿景，但也需要看到技术的局限性和当前的能力。在此基础上，我们需要想象、抽象出来，围绕当前的能力和最终的用户最大愿景、在二者结合的基础上，做出一个中间态的产品。

比如 Magic Brush，它就是一个基于已有技术能力、或者快速变化的技术能力，去做产品抽象的具体表现。

张鹏：这是第一个问题，那第二个问题问什么？

王长虎：你最近也关注了很多重要的 AI 产品发布，可以介绍一下你认为最有力量、影响力最大的一个产品发布过程吗？

因为我希望我们的产品经理有更强的学习能力、真的要能折腾。传统的一些产品经理可能通过精准的 A/B Test，就可以做一些判断。但在新的 AIGC 时代，这肯定是不行的。你一定要对技术的快速进化有更高的敏锐度，这是我们特别希望看到的。

所以这个问题，我希望你不仅关注了很多产品的发布、甚至知道里面的细节、并且对这些产品的具体功能有独到的见解。这是我希望看到的。

张鹏：第三个问题呢？

王长虎：我可能会问，你看到这么多技术，有没有自己尝试过？有没有亲自用哪几个 AI 技术解决过什么实际问题？能介绍一下这个过程吗？这是非常重要的。

大家都知道，现在信息量太大了，每天都有新技术的报道。我们可以从报道中学到很多信息，但这些信息并不总是可靠的。所以我们经常会听到，有家公司发布了一个什么视频生成产品。我们的投资人也会问我对这个产品的评价，我首先问的第一句话是，你有没有试过？如果没试过，那我们只能等到产品开放后再讨论。

我的建议是，产品经理不仅要看、要听，还要动手尝试。你要有同理心，把自己当作技术的核心用户。体验这些产品时，你的第一手感受是什么？你对它的看法是什么？它有哪些不足？你的认知是否是那些非共识但正确的关键认知？这是我特别关注的事情。

05 AI 时代存在

平台级产品的机会

张鹏：作为 CEO 和创始人，你认为最后如果要能够做出有意义的一个公司，它的重点是在技术还是在产品？在今天的特定阶段，这可能意味着一些更深的选择，如果产品很重要，比如 Runway 今天有特定的人群、去优化产品迅速形成闭环。如果技术很重要，核心是要通向 AGI，所有产品都应该通向 AGI。你的选择是什么？

王长虎：我认为是分阶段的。在视频生成的 ChatGPT 时刻到来之前，技术一定是非常重要的，至关重要的，因为我们要不断推动技术的进步，从而带动产品。

那长远去看，未来技术多多少少会趋同，最终决胜之处在于产品。这是我的观点。技术一定要通过产品来面向广大的用户。

张鹏：但一定不要在还没到位的技术上去做产品？或者说你做产品背后的核心技术一定要到位？

王长虎：是的，我们的做法是什么呢？就是目标一定有一个很大的 mission，技术发展的过程中，它能够解锁的功能一定会影响某个用户群。我们会在有限的情况下去测试，involve 用户来共同推进技术进步、探寻未来可能的产品化空间。

对话爱诗科技王长虎：视频生成赛道存在平台级产品的机会

张鹏：追问一个可能更投资人形态的问题，应该不止一个投资人问过这个问题，这件事的终局到底是工具还是个平台？

王长虎：也聊过很多投资人，我觉得这个问题我回答了上百遍了，跟投资人聊的时候一定是很正经的回答，那今天可能实话实说，没有人能在一开始回答「终局」问题。

为什么呢？谁不想做成平台啊？如果前面有两条路、两个机会，一个是工具剪映，一个是平台抖音，大家会选哪个？我想很多人都会选抖音。但是话说回来，想要做成成功的平台型产品也是有条件的。抖音和快手之所以能够做起来，实际上是应运而生。我们可以看到，过去它们同时面临着两个范式的革命：

一个是移动互联网和智能手机的出现，推动了内容从 PGC 到 UGC 的快速升级，特别是短视频创作门槛的极大降低。第二个范式升级是人与信息的交互方式，从过去人主动去搜索信息，到推荐算法让人被动地接受信息推荐的过程。这种人和信息关系的变化，每次变化都会带来巨大的机会。

但即使这样，抖音和快手在早期也不是在讲平台的故事。快手早期是个 gif 工具，抖音早期的内容也多是对口型唱歌的视频，正因为如此，它们才躲过了很多巨头的狙击，得以快速成长。

我觉得 AIGC 时代有同样的大的平台性机会，为什么？因为刚才提到的两种范式都存在升级的可能。

一个是 UGC 向 AIGC 内容的升级：AI 产生内容的效率远高于用户产生的内容，当视频生成技术达到一个质的飞跃，内容可以直接用的时候，一定需要大的平台产品来承接它们。第二个在人与内容的交互层面，今天我们看视频和电影时都是单向的被动接受内容，未来如果能做到实时视频生成，这将完全打破人们生产和消费内容之间的界限。

这二者叠加一定是有平台性的机会，但是平台具体是什么呢？就像之前说的，打败微信的一定不会是另外一个微信，可能是从另一个赛道来的东西，所以腾讯很在意抖音。最终 AIGC 时代的 AI Native 的平台是什么？我觉得不大可能是把抖音里边的内容换一遍、把人拍摄的内容变成 AI 原生。

我觉得，这种平台型机会不是设计好的，是逐渐的迭代发展起来的，这需要我们一步一步走过去。

文章来自于微信公众号“Founder Park”，作者 “Founder Park”

对话爱诗科技王长虎：视频生成赛道存在平台级产品的机会

关键词: AI视频 , 视频生成赛道 , AI , 大模型 , 视频模型