今年 2 月,Sora 吸引了人们对视频生成赛道的关注。而这一赛道的头部创业公司爱诗科技,也开始进入人们的视野。
它成立于 2023 年 4 月,比 Sora 诞生早一年,当时视频生成还是强烈的非共识。虽然只有一年的时间,但它已经做出了产品、并有不错的数据。国际版产品 PixVerse 于今年 1 月上线,支持文生视频、图生视频等多项功能。据第三方数据统计网站 Similarweb,PixVerse 的用户量已突破百万。
为什么能提前预判视频生成的机会?怎么理解视频生成赛道?如何做一款好的视频生产产品?在 AGI Playground 大会上,针对这些问题,张鹏与爱诗科技创始人兼 CEO 王长虎进行了一次对谈。
「我觉得 AIGC 时代有同样的大的平台性机会,为什么?因为刚才提到的两种范式都存在升级的可能。」在他看来。平台型机会依然存在,但「不大可能是把抖音里边的内容换一遍、把人拍摄的内容变成 AI 原生。」
张鹏:先从历史开始聊,我印象比较深刻的是,你是字节体系里出来的,应该是 17 年加入的字节。其实你是一个深入到字节体系里、并且参与了它第二成长曲线的一个人。那是一个什么样的经历体验?你在字节里做了什么样的东西?见证了什么东西?
王长虎:在字节这些年其实是蛮幸福的一段经历。我是 17 年初加入字节跳动的,那个时候还不叫字节,叫今日头条。当时它最好的产品就是今日头条,大几千万的 DAU。像抖音、TikTok,还有很多其他的短视频产品,有的还没有做起来,有的刚刚上线、还没有什么用户。
那时候,公司积累了很多 NLP 和推荐算法的人才,但视觉相关的人才还是比较缺少。我去了之后,从 0 到 1 搭建了一个最终有几百人的视频 AI 团队。我们知道,像抖音、TikTok 这些产品,本质上是智能的产品。大家耳熟能详的是它们非常强大的推荐算法,但其实背后有很多视频 AI 的能力,这些能力就像隐藏在水面下的那部分冰山,大半部分都是我带的团队从 0 到 1 做起来的。
这些技术支撑了字节很多产品,不仅有抖音、TikTok,字节系下的视频、图片相关的产品都涉及到了。我们覆盖了从视频生产到消费的全生命周期。
大家也知道,每天有数以亿计的用户在用抖音、TikTok,每天上传的视频量也是海量的。如何帮助用户更方便、快捷地创作出好玩、好用、易传播的视频?在内容生产过程中,我们有丰富的视频理解和生成技术。当用户把视频上传到平台后,不仅要用强大的推荐算法分发给其他用户,还要处理海量内容中可能存在的不良内容,也就是违法违规、违反公序良俗的内容。每个国家的要求可能都不同,抖音和 TikTok,它们是世界上内容安全最严峻、最复杂的两个产品,这背后的问题很多都是通过我们的 AI 技术解决的。
张鹏:字节的第二成长曲线是抖音和 TikTok 这些产品的成功,但这背后智能起到了重要作用。
王长虎:是的,这些短视频产品背后的 AI 技术是极其重要的根基能力,支撑了这些产品的快速发展。因为当你的用户数非常非常大,有十亿甚至几十亿的时候,而且每天上传的内容量巨大时,里面任何一个问题都不是靠人工能够解决的,都需要 AI 能力。
而且,我们平时看到的和想象中的一些简单的 AI 能力,当它要面对海量用户时,也一定变成了世界级的难题。
张鹏:很多人可能会很羡慕你这段经历,经历了公司在关键阶段的整个成长过程,并且还参与其中。这段历程里你主要的收获是什么?
王长虎:收获非常多。其实我一直在说,我在字节的工作期间做了很多事情,收获远远超过我的贡献。
第一个最大的收获是,我在字节的时候,经常听到张一鸣的一个观点:创业要做非共识但正确的事。大家可能是在 Sora 出来之后,才意识到视频生成是件大事。
但我们创业是在一年前,那时还没有 Sora。当时大语言模型很火,但视频生成这个赛道还是应者寥寥。当时支撑我们的信念就是,我们坚信我们做的事情是非共识的、但正确的事情。
第二个收获是在技术层面。伴随着国民级产品从 0 到 1 的发展,这背后几乎所有能想到的视频 AI 能力我们都做过,而这些能力也是我们现在创业做视频生成的核心基础。
第三个是在价值观层面。我们知道字节是有「字节范儿」,当时我在字节,我们的价值观包括始终创业、追求极致等六个价值观。从一鸣本人开始,他真的是内心相信、并且亲身践行的。我加入后,我的团队、以及和我们打交道的每一个人都在践行这些价值观。「字节范儿」是非常有效的,它是字节之所以能发展这么快的很重要的基石能力。
张鹏:看来你对字节还是非常认同的,总结起来可能就是,打过大仗这件事肯定有很大的收获。那我会问一个问题,在这么好的字节为什么要出来创业?你当时创业的决策是怎么做的?
王长虎:我觉得有几方面的原因。一方面在字节这样的公司,确实非常棒,能够承载很多人的梦想,但是在大厂,特别当你是一个比较重要的角色,其实承载着非常重要的职责和业务预期。那个时候就很难抽出大部分精力或者 all in,去做一件不管是公司外还是公司内都还没有达成共识的一件事情。
第二,我们耳熟能详的那些最伟大的产品,像 Windows、Office,是微软在还小的时候做出来的,Google 也是,甚至 Facebook 也是在校园里做出来的,抖音也是在巨头围堵过程中成长起来的。我们认为,很多大的机会是创业公司有能力做出来的。
第三,也是最重要的一点,我个人在 AI 领域做了很多年。我经历过好几个时代,包括搜索时代、深度学习时代、短视频和移动互联网时代。我深刻感受到一个新的时代浪潮的到来——AGI 时代和 AIGC 时代。当这样的浪潮到来时,就一定会有一些人勇于去逐浪,我想我是其中的一个。
那个时候,我好像听到了一个命运的召唤,「跳下去,all in 到这个时代的浪潮里边」。
张鹏:今年 Sora 火了之后,大家都开始关注视频生成这件事。它和大语言模型的这一波、包括所谓的 Scaling Law,有关系、但又好像不一样。你会怎么定义视频生成这个赛道?它的本质是什么?和语言模型有什么关系?
王长虎:ChatGPT 出来之后,很多业界、投资界的目光,包括大众的目光,都聚焦在大语言模型上。但在 Sora 出来之前,业界其实不认为视频生成能够在短时间内、几年内做出来,它当时被视为一个非共识的事情。
在我看来,视觉内容和语言是完全两类不同的内容。语言是人类诞生后才出现的,是高度抽象化的信息;而视觉,在人类出现之前,山在那儿,水在那儿,它是原生的。
ChatGPT 出来后,我们对大语言模型的预期是什么?是模拟大脑,构建硅基生命,是人体内的东西。但是 Sora 出来后,我们对视频模型的预期是什么?是在人体之外的,是对世界建模,做世界模型。这是两类不同的东西。
第二,视频更难。语言在人类创造的过程中已经被高度压缩,它是一个一维的信号,我们对语言进行压缩、还原的过程相对容易一点。而视频是三维的,三维空间里有非常多的冗余,那我们如何用大模型做信息的压缩?生成的时候如何做到信息极度完美的还原,同时还要把物理规律和整个世界建模?这个难度更大。
第三,视频内容更贴近用户。在过去的移动互联网时代,国民级产品一定包括抖音、TikTok、快手,而且其他产品内容的视频化也是不可逆的。因此,视频相比语言,它更贴近用户,未来产品化和商业化的可能性更大。这是我看到的语言和视频的区别。
张鹏:今天我们谈 Scaling law,谈 Transformer 这样的架构,本质上是需要更丰富的数据。看起来视频的数据量是更丰富的,但也涉及到一个问题,怎么获取真正优质的数据、甚至是有效标注的数据,这些可能都决定了技术的成长路线。你怎么看这件事?
王长虎:你说的特别对,数据至关重要。我们之前在做大语言模型过程中,会有一个观点说,全世界的知识和语言数据库很快就会被用完,但视频不存在这个问题,每天会有数以亿计的视频会被创造出来,无论是用户创作的还是专业影视公司制作的。
虽然数据量是无限大的,但是最重要的是什么?是如何从海量的视频里找到能够帮助训练模型、解决用户痛点的高质量核心数据。这是至关重要的,而这就需要用到 AI 能力了。
我们过去的经验可以帮助我们更快地做这件事,同时语言模型在这里也起到了非常重要的作用。现在,我们在构建训练数据库时,会用到多模态语言模型来标注视频。因为视频不仅是单一的视觉内容,还包含很多语义信息,所以在训练过程中,视频和它相应的描述都会拿来用于训练。
接下来,我们需要对视频模型进行极致的压缩和建模,尽可能无损地进行压缩,未来我们需要还原视频。这就需要设计优质的解码器(decoder)、编码器(encoder),以及一些核心的算法,来帮助我们对数据进行建模。
最后,技术还是要面向用户。我们要做好技术与产品的匹配(TPF),并引入用户反馈来帮助我们进化技术和产品。我们希望用户能实时体验到我们的成果,所以加速推理模型的小型化也是必要的。
张鹏:看起来这还是个挺复杂的系统,和上一个 AI 时代以及你在字节做的事不太一样。在你看来,字节原有的那些经验,有哪些是能继承过来有帮助的、哪些可能是全新的挑战?
王长虎:在技术侧,很多底层技术都是可以继承的。虽然我们现在的目标是生成视频,但把这个目标和方法拆解后,几乎每一个模块我们都有丰富的经验和能力。
在产品侧,其实过去那个时代最优秀的产品经理们,依然有机会在新的时代大放异彩。
不过产品侧,我们会看到确实存在一些不同,主要是工作方式的不同。在过去,产品往往是根据用户的需求定义场景、再画产品流程图、接着和前端后端及算法团队一起解决问题。在这个过程中,我们用到的技术往往是相对确定的,里面需要的创新度有限,更多是成熟技术的组合。这个过程中,产品经理更像是带领团队逐步实现设定目标的角色。
但在 AIGC 时代,我们做的是 AI 原生产品。同时技术发展非常迅速,所以产品经理必须更敏锐地了解技术现状,并据此挖掘新的需求,做好技术与产品的匹配(TPF)。这是一个很大的区别。
张鹏:大家觉得爱诗的产品非常惊艳,比如你们的笔刷功能。虽然都是视频生成,但你们在用户交互和生产过程上有一些不同于常规的东西。能分享一下这方面的思考吗?
王长虎:这个功能是我们在 5 月底最新发布的,叫做 Magic Brush。它只是我们产品的一部分,主要是关于可控生成的。
其实我们做的是 AI 原生的产品,它的特点就是技术发展飞快。因此,产品可能会有一些不确定性,需要匹配技术的发展速度。
正因为如此,我们必须更早地确定我们的信仰和使命。从创业的第一天起,我们就坚定地要做技术普惠。我们的目标是让每天使用抖音、TikTok 的普通创作者和消费者,都能使用 AI 视频生成能力去做全新的创作。
张鹏:所以不是只给专业人用的一个高效率工具?
王长虎:是的,这是我们的 mission。但是我们也要看到技术在快速发展,它在不同的阶段能够 deliver 的能力其实是有它的限制的,那我们要做的好是两点。
第一是做好 TPF,在已有涌现出来最新的能力基础上,如何去找到最好的需求、最真的用户需求,做出当前能力能够支撑的最好的产品,让一部分用户先用起来。
第二是我们希望第一时间面向用户,做好技术、产品和用户的闭环、做好数据飞轮,让用户也参与到我们技术产品的发展。
我可以举几个例子,比如说我们在去年的这个时候,我们就有一个要选择:我们是做社区产品,在 Discord 上面去做这个产品,还是先搞一个 Web UI?
当时我们有一个判断。社区产品的好处在于,用户已经习惯在这些平台上使用类似的产品,我们不需要花费太多精力设计特殊的 UI,可以将更多的精力放在我们的模型本身上。
为什么有这个判断?是因为当时判断视频生成还得很初级,普通用户用不起来,玩不起来,能用起来、玩起来的就是那些有意愿跟 AI 一起进化的是偏专业的创作者,所以我们第一个决定就是在社区里边做产品。
经过一段时间后,我们的技术赢得了很多用户的好评,用户用脚投票选择了我们的技术。之后,我们的技术也在不断进化。今年 1 月份,我们上线了 Web UI,这样更多对生成质量有高要求、更多元的用户群就可以用起来了。
我们的最终目标是让普通用户用起来,但让普通用户用起来最好的方式是什么?其实是通过文生视频,所以我们的第一个产品功能就是文生视频。但后来与用户互动后发现,抽卡概率太低。什么叫抽卡?就是我们发现生成几次后,才可能有一个用户可用的视频。
张鹏:最终只有一个能用?
王长虎:是的,所以就出现了另外一个选择,就是图生视频、所谓「垫图」的方法。
为什么要「垫图」?可以简单算一下,如果我们用文生视频,需要尝试 25 次才能生成一次可用的,那么抽卡成功概率是 1/25。但是我们可以把这个过程分成两段,第一段用文生图,假设文生图每生成 5 次就能有一次可用的,这是 1/5 的概率。我们再用这张图通过我们的技术把它动起来,图生视频的成功概率也是 1/5。
这样,通过「垫图」,我们的抽卡成功概率就从 1/25 提升到了 1/10(一共生成十次就能成功一次)。因为这个原因,我们上线了图生视频的功能,这是我们的第二个重要功能。
后来我们发现,用户在使用我们的产品制作视频时,可能只能生成一个几秒钟的镜头,无法真正商业化。如果要商业化,他们可能需要制作几十秒到一分钟的广告短片,或者是一分钟的短剧或宣传片。
那一定是多镜头组成的,这就涉及到一个问题,就是多镜头之间的主体人物是不是能够保持一致?如果前几个镜头是刘德华,后几个镜头变成梁朝伟,那肯定是不符合预期的。所以我们在今年全球首发了一个叫做 Character to Video 的功能。这个功能是我们在与用户互动过程中,基于已有技术实现的。
包括 Magic Brush 技术也是这样,它在用户体验(UI)上有一些创新的。我们知道 Runway 最早推出了一个类似的 Motion Brush 功能,而我们是在 Runway 之后,国内第一个发布这类功能的公司。
我们的功能实际上有更大的进化。Runway 的运动笔刷只能通过上下左右拖动滑块去控制物体运动。而我们在技术上开发了新的算法,能够直接让选定目标按照手绘轨迹运动,在产品交互层面也做了更加灵活高效的设计。除了定向的直线运动,PixVerse 的 Magic Brush 还能通过画折线和曲线完成复杂的可控生成指令。
这就是一个典型的 TPF 过程。我们的产品必须与技术紧密相关,同时我们必须精准地找到用户的真实需求。
张鹏:你们现在肯定也在招人,寻找那些最优秀的、把技术变成产品的产品人和技术人。我提一个比较具体的问题,假定我是你要面试的人,你想评判我是否符合这个时代的产品经理要求,你只能问我三个问题,你会问哪三个问题能帮助你最快速形成判断?
王长虎:首先我可能会问,你最近一定用了很多 AI 产品,你能不能从这些产品里找出一个、并对它的模型侧提出优化建议?
为什么会问这个问题?因为我们特别在意产品经理的一个核心能力是,从底层技术抽象去思考用户需求场景的能力。技术发展非常快,很多时候我们需要在最新的技术能力上挖掘用户的真需求。
而这些需求往往是在技术出现之前不存在的,这就特别考验产品经理的产品抽象能力。
张鹏:过去的产品抽象能力好像是画产品图的能力,现在的抽象能力是指什么?是要给模型定数据集吗?
王长虎:现在我们需要前瞻性地思考很多问题。
我可以举个例子,就是 Magic Brush。大家觉得这种交互是必须的吗?其实未必,当技术发展到无限好时,用户可能想生成什么就生成什么。比如,这是四个台球,你用语言描述它怎么动就可以了。
但技术发展有它的客观规律,虽然我们有愿景,但也需要看到技术的局限性和当前的能力。在此基础上,我们需要想象、抽象出来,围绕当前的能力和最终的用户最大愿景、在二者结合的基础上,做出一个中间态的产品。
比如 Magic Brush,它就是一个基于已有技术能力、或者快速变化的技术能力,去做产品抽象的具体表现。
张鹏:这是第一个问题,那第二个问题问什么?
王长虎:你最近也关注了很多重要的 AI 产品发布,可以介绍一下你认为最有力量、影响力最大的一个产品发布过程吗?
因为我希望我们的产品经理有更强的学习能力、真的要能折腾。传统的一些产品经理可能通过精准的 A/B Test,就可以做一些判断。但在新的 AIGC 时代,这肯定是不行的。你一定要对技术的快速进化有更高的敏锐度,这是我们特别希望看到的。
所以这个问题,我希望你不仅关注了很多产品的发布、甚至知道里面的细节、并且对这些产品的具体功能有独到的见解。这是我希望看到的。
张鹏:第三个问题呢?
王长虎:我可能会问,你看到这么多技术,有没有自己尝试过?有没有亲自用哪几个 AI 技术解决过什么实际问题?能介绍一下这个过程吗?这是非常重要的。
大家都知道,现在信息量太大了,每天都有新技术的报道。我们可以从报道中学到很多信息,但这些信息并不总是可靠的。所以我们经常会听到,有家公司发布了一个什么视频生成产品。我们的投资人也会问我对这个产品的评价,我首先问的第一句话是,你有没有试过?如果没试过,那我们只能等到产品开放后再讨论。
我的建议是,产品经理不仅要看、要听,还要动手尝试。你要有同理心,把自己当作技术的核心用户。体验这些产品时,你的第一手感受是什么?你对它的看法是什么?它有哪些不足?你的认知是否是那些非共识但正确的关键认知?这是我特别关注的事情。
张鹏:作为 CEO 和创始人,你认为最后如果要能够做出有意义的一个公司,它的重点是在技术还是在产品?在今天的特定阶段,这可能意味着一些更深的选择,如果产品很重要,比如 Runway 今天有特定的人群、去优化产品迅速形成闭环。如果技术很重要,核心是要通向 AGI,所有产品都应该通向 AGI。你的选择是什么?
王长虎:我认为是分阶段的。在视频生成的 ChatGPT 时刻到来之前,技术一定是非常重要的,至关重要的,因为我们要不断推动技术的进步,从而带动产品。
那长远去看,未来技术多多少少会趋同,最终决胜之处在于产品。这是我的观点。技术一定要通过产品来面向广大的用户。
张鹏:但一定不要在还没到位的技术上去做产品?或者说你做产品背后的核心技术一定要到位?
王长虎:是的,我们的做法是什么呢?就是目标一定有一个很大的 mission,技术发展的过程中,它能够解锁的功能一定会影响某个用户群。我们会在有限的情况下去测试,involve 用户来共同推进技术进步、探寻未来可能的产品化空间。
张鹏:追问一个可能更投资人形态的问题,应该不止一个投资人问过这个问题,这件事的终局到底是工具还是个平台?
王长虎:也聊过很多投资人,我觉得这个问题我回答了上百遍了,跟投资人聊的时候一定是很正经的回答,那今天可能实话实说,没有人能在一开始回答「终局」问题。
为什么呢?谁不想做成平台啊?如果前面有两条路、两个机会,一个是工具剪映,一个是平台抖音,大家会选哪个?我想很多人都会选抖音。但是话说回来,想要做成成功的平台型产品也是有条件的。抖音和快手之所以能够做起来,实际上是应运而生。我们可以看到,过去它们同时面临着两个范式的革命:
一个是移动互联网和智能手机的出现,推动了内容从 PGC 到 UGC 的快速升级,特别是短视频创作门槛的极大降低。第二个范式升级是人与信息的交互方式,从过去人主动去搜索信息,到推荐算法让人被动地接受信息推荐的过程。这种人和信息关系的变化,每次变化都会带来巨大的机会。
但即使这样,抖音和快手在早期也不是在讲平台的故事。快手早期是个 gif 工具,抖音早期的内容也多是对口型唱歌的视频,正因为如此,它们才躲过了很多巨头的狙击,得以快速成长。
我觉得 AIGC 时代有同样的大的平台性机会,为什么?因为刚才提到的两种范式都存在升级的可能。
一个是 UGC 向 AIGC 内容的升级:AI 产生内容的效率远高于用户产生的内容,当视频生成技术达到一个质的飞跃,内容可以直接用的时候,一定需要大的平台产品来承接它们。第二个在人与内容的交互层面,今天我们看视频和电影时都是单向的被动接受内容,未来如果能做到实时视频生成,这将完全打破人们生产和消费内容之间的界限。
这二者叠加一定是有平台性的机会,但是平台具体是什么呢?就像之前说的,打败微信的一定不会是另外一个微信,可能是从另一个赛道来的东西,所以腾讯很在意抖音。最终 AIGC 时代的 AI Native 的平台是什么?我觉得不大可能是把抖音里边的内容换一遍、把人拍摄的内容变成 AI 原生。
我觉得,这种平台型机会不是设计好的,是逐渐的迭代发展起来的,这需要我们一步一步走过去。
文章来自于微信公众号“Founder Park”,作者 “Founder Park”