ChatGPT 人工智能 GPT4 伦理 生成式 医疗 监管 安全 机器学习 深度学习 神经网络 计算机视觉 强化学习 模型 算法 应用 开发 研究 工具 平台 框架 数据集 训练 部署 安全 合规 培训 投资 LLM,llm AI,ai,Ai 大模型 大语言模型 制图 生图 绘图 文生图 文生视频 生成式AI AGI 世界模型 sora chatGPT,chatgpt,ChatGpt claude openai Llama deepseek midjourney 红熊猫模型 Red panda,panda Stable Diffusion,StableDiffusion,stable DALL- E 3 DALL E DALL Flux,flux 扩散模型 混元大模型 文心一言 通义千问 可灵 Pika PixelDance 豆包 月之暗面 零一万物 阶跃星辰 搜索增强 MiniMax Talkie Agent prompt fastai LangChain TTS 微调 提示词 知识库 智能体
# 热门搜索 #
搜索
对话爱诗科技王长虎:视频生成赛道存在平台级产品的机会
6047点击    2024-06-25 09:49

今年 2 月,Sora 吸引了人们对视频生成赛道的关注。而这一赛道的头部创业公司爱诗科技,也开始进入人们的视野。


它成立于 2023 年 4 月,比 Sora 诞生早一年,当时视频生成还是强烈的非共识。虽然只有一年的时间,但它已经做出了产品、并有不错的数据。国际版产品 PixVerse 于今年 1 月上线,支持文生视频、图生视频等多项功能。据第三方数据统计网站 Similarweb,PixVerse 的用户量已突破百万。


为什么能提前预判视频生成的机会?怎么理解视频生成赛道?如何做一款好的视频生产产品?在 AGI Playground 大会上,针对这些问题,张鹏与爱诗科技创始人兼 CEO 王长虎进行了一次对谈。


我觉得 AIGC 时代有同样的大的平台性机会,为什么?因为刚才提到的两种范式都存在升级的可能。」在他看来。平台型机会依然存在,但「不大可能是把抖音里边的内容换一遍、把人拍摄的内容变成 AI 原生。」



01 

搭建了字节的视频 AI 技术,

创业是因为看到了大的机会


张鹏:先从历史开始聊,我印象比较深刻的是,你是字节体系里出来的,应该是 17 年加入的字节。其实你是一个深入到字节体系里、并且参与了它第二成长曲线的一个人。那是一个什么样的经历体验?你在字节里做了什么样的东西?见证了什么东西?


王长虎:在字节这些年其实是蛮幸福的一段经历。我是 17 年初加入字节跳动的,那个时候还不叫字节,叫今日头条。当时它最好的产品就是今日头条,大几千万的 DAU。像抖音、TikTok,还有很多其他的短视频产品,有的还没有做起来,有的刚刚上线、还没有什么用户。


那时候,公司积累了很多 NLP 和推荐算法的人才,但视觉相关的人才还是比较缺少。我去了之后,从 0 到 1 搭建了一个最终有几百人的视频 AI 团队。我们知道,像抖音、TikTok 这些产品,本质上是智能的产品。大家耳熟能详的是它们非常强大的推荐算法,但其实背后有很多视频 AI 的能力,这些能力就像隐藏在水面下的那部分冰山,大半部分都是我带的团队从 0 到 1 做起来的。


这些技术支撑了字节很多产品,不仅有抖音、TikTok,字节系下的视频、图片相关的产品都涉及到了。我们覆盖了从视频生产到消费的全生命周期。


大家也知道,每天有数以亿计的用户在用抖音、TikTok,每天上传的视频量也是海量的。如何帮助用户更方便、快捷地创作出好玩、好用、易传播的视频?在内容生产过程中,我们有丰富的视频理解和生成技术。当用户把视频上传到平台后,不仅要用强大的推荐算法分发给其他用户,还要处理海量内容中可能存在的不良内容,也就是违法违规、违反公序良俗的内容。每个国家的要求可能都不同,抖音和 TikTok,它们是世界上内容安全最严峻、最复杂的两个产品,这背后的问题很多都是通过我们的 AI 技术解决的。


张鹏:字节的第二成长曲线是抖音和 TikTok 这些产品的成功,但这背后智能起到了重要作用。


王长虎:是的,这些短视频产品背后的 AI 技术是极其重要的根基能力,支撑了这些产品的快速发展。因为当你的用户数非常非常大,有十亿甚至几十亿的时候,而且每天上传的内容量巨大时,里面任何一个问题都不是靠人工能够解决的,都需要 AI 能力。


而且,我们平时看到的和想象中的一些简单的 AI 能力,当它要面对海量用户时,也一定变成了世界级的难题。


张鹏:很多人可能会很羡慕你这段经历,经历了公司在关键阶段的整个成长过程,并且还参与其中。这段历程里你主要的收获是什么?


王长虎:收获非常多。其实我一直在说,我在字节的工作期间做了很多事情,收获远远超过我的贡献。


第一个最大的收获是,我在字节的时候,经常听到张一鸣的一个观点:创业要做非共识但正确的事。大家可能是在 Sora 出来之后,才意识到视频生成是件大事。

但我们创业是在一年前,那时还没有 Sora。当时大语言模型很火,但视频生成这个赛道还是应者寥寥。当时支撑我们的信念就是,我们坚信我们做的事情是非共识的、但正确的事情。


第二个收获是在技术层面。伴随着国民级产品从 0 到 1 的发展,这背后几乎所有能想到的视频 AI 能力我们都做过,而这些能力也是我们现在创业做视频生成的核心基础。


第三个是在价值观层面。我们知道字节是有「字节范儿」,当时我在字节,我们的价值观包括始终创业、追求极致等六个价值观。从一鸣本人开始,他真的是内心相信、并且亲身践行的。我加入后,我的团队、以及和我们打交道的每一个人都在践行这些价值观。「字节范儿」是非常有效的,它是字节之所以能发展这么快的很重要的基石能力。


张鹏:看来你对字节还是非常认同的,总结起来可能就是,打过大仗这件事肯定有很大的收获。那我会问一个问题,在这么好的字节为什么要出来创业?你当时创业的决策是怎么做的?


王长虎:我觉得有几方面的原因。一方面在字节这样的公司,确实非常棒,能够承载很多人的梦想,但是在大厂,特别当你是一个比较重要的角色,其实承载着非常重要的职责和业务预期。那个时候就很难抽出大部分精力或者 all in,去做一件不管是公司外还是公司内都还没有达成共识的一件事情。


第二,我们耳熟能详的那些最伟大的产品,像 Windows、Office,是微软在还小的时候做出来的,Google 也是,甚至 Facebook 也是在校园里做出来的,抖音也是在巨头围堵过程中成长起来的。我们认为,很多大的机会是创业公司有能力做出来的。


第三,也是最重要的一点,我个人在 AI 领域做了很多年。我经历过好几个时代,包括搜索时代、深度学习时代、短视频和移动互联网时代。我深刻感受到一个新的时代浪潮的到来——AGI 时代和 AIGC 时代。当这样的浪潮到来时,就一定会有一些人勇于去逐浪,我想我是其中的一个。


那个时候,我好像听到了一个命运的召唤,「跳下去,all in 到这个时代的浪潮里边」。


02 

视频生成产品化和商业化的

可能性更大


张鹏:今年 Sora 火了之后,大家都开始关注视频生成这件事。它和大语言模型的这一波、包括所谓的 Scaling Law,有关系、但又好像不一样。你会怎么定义视频生成这个赛道?它的本质是什么?和语言模型有什么关系?


王长虎:ChatGPT 出来之后,很多业界、投资界的目光,包括大众的目光,都聚焦在大语言模型上。但在 Sora 出来之前,业界其实不认为视频生成能够在短时间内、几年内做出来,它当时被视为一个非共识的事情。


在我看来,视觉内容和语言是完全两类不同的内容。语言是人类诞生后才出现的,是高度抽象化的信息;而视觉,在人类出现之前,山在那儿,水在那儿,它是原生的。


ChatGPT 出来后,我们对大语言模型的预期是什么?是模拟大脑,构建硅基生命,是人体内的东西。但是 Sora 出来后,我们对视频模型的预期是什么?是在人体之外的,是对世界建模,做世界模型。这是两类不同的东西。


第二,视频更难。语言在人类创造的过程中已经被高度压缩,它是一个一维的信号,我们对语言进行压缩、还原的过程相对容易一点。而视频是三维的,三维空间里有非常多的冗余,那我们如何用大模型做信息的压缩?生成的时候如何做到信息极度完美的还原,同时还要把物理规律和整个世界建模?这个难度更大。


第三,视频内容更贴近用户。在过去的移动互联网时代,国民级产品一定包括抖音、TikTok、快手,而且其他产品内容的视频化也是不可逆的。因此,视频相比语言,它更贴近用户,未来产品化和商业化的可能性更大。这是我看到的语言和视频的区别。



张鹏:今天我们谈 Scaling law,谈 Transformer 这样的架构,本质上是需要更丰富的数据。看起来视频的数据量是更丰富的,但也涉及到一个问题,怎么获取真正优质的数据、甚至是有效标注的数据,这些可能都决定了技术的成长路线。你怎么看这件事?


王长虎:你说的特别对,数据至关重要。我们之前在做大语言模型过程中,会有一个观点说,全世界的知识和语言数据库很快就会被用完,但视频不存在这个问题,每天会有数以亿计的视频会被创造出来,无论是用户创作的还是专业影视公司制作的。


虽然数据量是无限大的,但是最重要的是什么?是如何从海量的视频里找到能够帮助训练模型、解决用户痛点的高质量核心数据。这是至关重要的,而这就需要用到 AI 能力了。


我们过去的经验可以帮助我们更快地做这件事,同时语言模型在这里也起到了非常重要的作用。现在,我们在构建训练数据库时,会用到多模态语言模型来标注视频。因为视频不仅是单一的视觉内容,还包含很多语义信息,所以在训练过程中,视频和它相应的描述都会拿来用于训练。


接下来,我们需要对视频模型进行极致的压缩和建模,尽可能无损地进行压缩,未来我们需要还原视频。这就需要设计优质的解码器(decoder)、编码器(encoder),以及一些核心的算法,来帮助我们对数据进行建模。


最后,技术还是要面向用户。我们要做好技术与产品的匹配(TPF),并引入用户反馈来帮助我们进化技术和产品。我们希望用户能实时体验到我们的成果,所以加速推理模型的小型化也是必要的。


张鹏:看起来这还是个挺复杂的系统,和上一个 AI 时代以及你在字节做的事不太一样。在你看来,字节原有的那些经验,有哪些是能继承过来有帮助的、哪些可能是全新的挑战?


王长虎:在技术侧,很多底层技术都是可以继承的。虽然我们现在的目标是生成视频,但把这个目标和方法拆解后,几乎每一个模块我们都有丰富的经验和能力。

在产品侧,其实过去那个时代最优秀的产品经理们,依然有机会在新的时代大放异彩。


不过产品侧,我们会看到确实存在一些不同,主要是工作方式的不同。在过去,产品往往是根据用户的需求定义场景、再画产品流程图、接着和前端后端及算法团队一起解决问题。在这个过程中,我们用到的技术往往是相对确定的,里面需要的创新度有限,更多是成熟技术的组合。这个过程中,产品经理更像是带领团队逐步实现设定目标的角色。


但在 AIGC 时代,我们做的是 AI 原生产品。同时技术发展非常迅速,所以产品经理必须更敏锐地了解技术现状,并据此挖掘新的需求,做好技术与产品的匹配(TPF)。这是一个很大的区别。


03 

视频生成产品的 

TPF 怎么做?


张鹏:大家觉得爱诗的产品非常惊艳,比如你们的笔刷功能。虽然都是视频生成,但你们在用户交互和生产过程上有一些不同于常规的东西。能分享一下这方面的思考吗?


王长虎:这个功能是我们在 5 月底最新发布的,叫做 Magic Brush。它只是我们产品的一部分,主要是关于可控生成的。


其实我们做的是 AI 原生的产品,它的特点就是技术发展飞快。因此,产品可能会有一些不确定性,需要匹配技术的发展速度。


正因为如此,我们必须更早地确定我们的信仰和使命。从创业的第一天起,我们就坚定地要做技术普惠。我们的目标是让每天使用抖音、TikTok 的普通创作者和消费者,都能使用 AI 视频生成能力去做全新的创作。


张鹏:所以不是只给专业人用的一个高效率工具?


王长虎:是的,这是我们的 mission。但是我们也要看到技术在快速发展,它在不同的阶段能够 deliver 的能力其实是有它的限制的,那我们要做的好是两点。


第一是做好 TPF,在已有涌现出来最新的能力基础上,如何去找到最好的需求、最真的用户需求,做出当前能力能够支撑的最好的产品,让一部分用户先用起来。


第二是我们希望第一时间面向用户,做好技术、产品和用户的闭环、做好数据飞轮,让用户也参与到我们技术产品的发展。


我可以举几个例子,比如说我们在去年的这个时候,我们就有一个要选择:我们是做社区产品,在 Discord 上面去做这个产品,还是先搞一个 Web UI?


当时我们有一个判断。社区产品的好处在于,用户已经习惯在这些平台上使用类似的产品,我们不需要花费太多精力设计特殊的 UI,可以将更多的精力放在我们的模型本身上。


为什么有这个判断?是因为当时判断视频生成还得很初级,普通用户用不起来,玩不起来,能用起来、玩起来的就是那些有意愿跟 AI 一起进化的是偏专业的创作者,所以我们第一个决定就是在社区里边做产品。


经过一段时间后,我们的技术赢得了很多用户的好评,用户用脚投票选择了我们的技术。之后,我们的技术也在不断进化。今年 1 月份,我们上线了 Web UI,这样更多对生成质量有高要求、更多元的用户群就可以用起来了。


我们的最终目标是让普通用户用起来,但让普通用户用起来最好的方式是什么?其实是通过文生视频,所以我们的第一个产品功能就是文生视频。但后来与用户互动后发现,抽卡概率太低。什么叫抽卡?就是我们发现生成几次后,才可能有一个用户可用的视频。


张鹏:最终只有一个能用?


王长虎:是的,所以就出现了另外一个选择,就是图生视频、所谓「垫图」的方法。


为什么要「垫图」?可以简单算一下,如果我们用文生视频,需要尝试 25 次才能生成一次可用的,那么抽卡成功概率是 1/25。但是我们可以把这个过程分成两段,第一段用文生图,假设文生图每生成 5 次就能有一次可用的,这是 1/5 的概率。我们再用这张图通过我们的技术把它动起来,图生视频的成功概率也是 1/5。


这样,通过「垫图」,我们的抽卡成功概率就从 1/25 提升到了 1/10(一共生成十次就能成功一次)。因为这个原因,我们上线了图生视频的功能,这是我们的第二个重要功能。


后来我们发现,用户在使用我们的产品制作视频时,可能只能生成一个几秒钟的镜头,无法真正商业化。如果要商业化,他们可能需要制作几十秒到一分钟的广告短片,或者是一分钟的短剧或宣传片。


那一定是多镜头组成的,这就涉及到一个问题,就是多镜头之间的主体人物是不是能够保持一致?如果前几个镜头是刘德华,后几个镜头变成梁朝伟,那肯定是不符合预期的。所以我们在今年全球首发了一个叫做 Character to Video 的功能。这个功能是我们在与用户互动过程中,基于已有技术实现的。


包括 Magic Brush 技术也是这样,它在用户体验(UI)上有一些创新的。我们知道 Runway 最早推出了一个类似的 Motion Brush 功能,而我们是在 Runway 之后,国内第一个发布这类功能的公司。


我们的功能实际上有更大的进化。Runway 的运动笔刷只能通过上下左右拖动滑块去控制物体运动。而我们在技术上开发了新的算法,能够直接让选定目标按照手绘轨迹运动,在产品交互层面也做了更加灵活高效的设计。除了定向的直线运动,PixVerse 的 Magic Brush 还能通过画折线和曲线完成复杂的可控生成指令。


这就是一个典型的 TPF 过程。我们的产品必须与技术紧密相关,同时我们必须精准地找到用户的真实需求。


04 

AI 产品经理的

三道必答题


张鹏:你们现在肯定也在招人,寻找那些最优秀的、把技术变成产品的产品人和技术人。我提一个比较具体的问题,假定我是你要面试的人,你想评判我是否符合这个时代的产品经理要求,你只能问我三个问题,你会问哪三个问题能帮助你最快速形成判断?


王长虎:首先我可能会问,你最近一定用了很多 AI 产品,你能不能从这些产品里找出一个、并对它的模型侧提出优化建议?


为什么会问这个问题?因为我们特别在意产品经理的一个核心能力是,从底层技术抽象去思考用户需求场景的能力。技术发展非常快,很多时候我们需要在最新的技术能力上挖掘用户的真需求。


而这些需求往往是在技术出现之前不存在的,这就特别考验产品经理的产品抽象能力。


张鹏:过去的产品抽象能力好像是画产品图的能力,现在的抽象能力是指什么?是要给模型定数据集吗?


王长虎:现在我们需要前瞻性地思考很多问题。


我可以举个例子,就是 Magic Brush。大家觉得这种交互是必须的吗?其实未必,当技术发展到无限好时,用户可能想生成什么就生成什么。比如,这是四个台球,你用语言描述它怎么动就可以了。


但技术发展有它的客观规律,虽然我们有愿景,但也需要看到技术的局限性和当前的能力。在此基础上,我们需要想象、抽象出来,围绕当前的能力和最终的用户最大愿景、在二者结合的基础上,做出一个中间态的产品


比如 Magic Brush,它就是一个基于已有技术能力、或者快速变化的技术能力,去做产品抽象的具体表现。


张鹏:这是第一个问题,那第二个问题问什么?


王长虎:你最近也关注了很多重要的 AI 产品发布,可以介绍一下你认为最有力量、影响力最大的一个产品发布过程吗?


因为我希望我们的产品经理有更强的学习能力、真的要能折腾。传统的一些产品经理可能通过精准的 A/B Test,就可以做一些判断。但在新的 AIGC 时代,这肯定是不行的。你一定要对技术的快速进化有更高的敏锐度,这是我们特别希望看到的。


所以这个问题,我希望你不仅关注了很多产品的发布、甚至知道里面的细节、并且对这些产品的具体功能有独到的见解。这是我希望看到的。


张鹏:第三个问题呢?


王长虎:我可能会问,你看到这么多技术,有没有自己尝试过?有没有亲自用哪几个 AI 技术解决过什么实际问题?能介绍一下这个过程吗?这是非常重要的。


大家都知道,现在信息量太大了,每天都有新技术的报道。我们可以从报道中学到很多信息,但这些信息并不总是可靠的。所以我们经常会听到,有家公司发布了一个什么视频生成产品。我们的投资人也会问我对这个产品的评价,我首先问的第一句话是,你有没有试过?如果没试过,那我们只能等到产品开放后再讨论。


我的建议是,产品经理不仅要看、要听,还要动手尝试。你要有同理心,把自己当作技术的核心用户。体验这些产品时,你的第一手感受是什么?你对它的看法是什么?它有哪些不足?你的认知是否是那些非共识但正确的关键认知?这是我特别关注的事情。


05 

AI 时代存在

平台级产品的机会


张鹏:作为 CEO 和创始人,你认为最后如果要能够做出有意义的一个公司,它的重点是在技术还是在产品?在今天的特定阶段,这可能意味着一些更深的选择,如果产品很重要,比如 Runway 今天有特定的人群、去优化产品迅速形成闭环。如果技术很重要,核心是要通向 AGI,所有产品都应该通向 AGI。你的选择是什么?


王长虎:我认为是分阶段的。在视频生成的 ChatGPT 时刻到来之前,技术一定是非常重要的,至关重要的,因为我们要不断推动技术的进步,从而带动产品。


那长远去看,未来技术多多少少会趋同,最终决胜之处在于产品。这是我的观点。技术一定要通过产品来面向广大的用户。


张鹏:但一定不要在还没到位的技术上去做产品?或者说你做产品背后的核心技术一定要到位?


王长虎:是的,我们的做法是什么呢?就是目标一定有一个很大的 mission,技术发展的过程中,它能够解锁的功能一定会影响某个用户群。我们会在有限的情况下去测试,involve 用户来共同推进技术进步、探寻未来可能的产品化空间。



张鹏:追问一个可能更投资人形态的问题,应该不止一个投资人问过这个问题,这件事的终局到底是工具还是个平台?


王长虎:也聊过很多投资人,我觉得这个问题我回答了上百遍了,跟投资人聊的时候一定是很正经的回答,那今天可能实话实说,没有人能在一开始回答「终局」问题。


为什么呢?谁不想做成平台啊?如果前面有两条路、两个机会,一个是工具剪映,一个是平台抖音,大家会选哪个?我想很多人都会选抖音。但是话说回来,想要做成成功的平台型产品也是有条件的。抖音和快手之所以能够做起来,实际上是应运而生。我们可以看到,过去它们同时面临着两个范式的革命:


一个是移动互联网和智能手机的出现,推动了内容从 PGC 到 UGC 的快速升级,特别是短视频创作门槛的极大降低。第二个范式升级是人与信息的交互方式,从过去人主动去搜索信息,到推荐算法让人被动地接受信息推荐的过程。这种人和信息关系的变化,每次变化都会带来巨大的机会。


但即使这样,抖音和快手在早期也不是在讲平台的故事。快手早期是个 gif 工具,抖音早期的内容也多是对口型唱歌的视频,正因为如此,它们才躲过了很多巨头的狙击,得以快速成长。


我觉得 AIGC 时代有同样的大的平台性机会,为什么?因为刚才提到的两种范式都存在升级的可能。


一个是 UGC 向 AIGC 内容的升级:AI 产生内容的效率远高于用户产生的内容,当视频生成技术达到一个质的飞跃,内容可以直接用的时候,一定需要大的平台产品来承接它们。第二个在人与内容的交互层面,今天我们看视频和电影时都是单向的被动接受内容,未来如果能做到实时视频生成,这将完全打破人们生产和消费内容之间的界限。


这二者叠加一定是有平台性的机会,但是平台具体是什么呢?就像之前说的,打败微信的一定不会是另外一个微信,可能是从另一个赛道来的东西,所以腾讯很在意抖音。最终 AIGC 时代的 AI Native 的平台是什么?我觉得不大可能是把抖音里边的内容换一遍、把人拍摄的内容变成 AI 原生。


我觉得,这种平台型机会不是设计好的,是逐渐的迭代发展起来的,这需要我们一步一步走过去。


文章来自于微信公众号“Founder Park”,作者 “Founder Park”