ChatGPT 人工智能 GPT4 伦理 生成式 医疗 监管 安全 机器学习 深度学习 神经网络 计算机视觉 强化学习 模型 算法 应用 开发 研究 工具 平台 框架 数据集 训练 部署 安全 合规 培训 投资 LLM,llm AI,ai,Ai 大模型 大语言模型 制图 生图 绘图 文生图 文生视频 生成式AI AGI 世界模型 sora chatGPT,chatgpt,ChatGpt claude openai Llama deepseek midjourney 红熊猫模型 Red panda,panda Stable Diffusion,StableDiffusion,stable DALL- E 3 DALL E DALL Flux,flux 扩散模型 混元大模型 文心一言 通义千问 可灵 Pika PixelDance 豆包 月之暗面 零一万物 阶跃星辰 搜索增强 MiniMax Talkie Agent prompt fastai LangChain TTS 微调 提示词 知识库 智能体
# 热门搜索 #
搜索
独家专访Pika:Sora is not very hard to beat,我们的算法能够以小胜大|AI Pioneers
8198点击    2024-06-10 14:44

即使Sora已经强势“炸”过场,Pika还是再次带着硅谷一众明星资方的投票回到了舆论中心。


6月5日,Pika宣布已完成8000万美元(约合人民币5.8亿元)的B轮融资,总融资额达到1.35亿美元,较2023年末,公司投后估值实现翻倍至4.7亿美元。


“我们会更aggressive地做视频大模型”,这家刚刚度过一周年生日的视频生成创业公司,计划在这轮融资之后快速扩张研究和工程师团队。


四个月前,来自OpenAI的Sora重新洗牌了视频生成赛道。Sora以长达60秒的连贯视频、高清画面质感、连贯的镜头移动、运动方式等优点,拉高了整个视频生成赛道的技术水平,引发了全球对视频生成的狂热。像LLM领域一样,视频生成貌似也开始变成追赶OpenAI的游戏。


同样是在掌声中出道,去年11月,Pika1.0产品由于出色、令人惊艳的视频生成效果,以及支持用户实时进行视频编辑和修改的突破性功能,快速走红。一路斩获众多硅谷科技界明星人物的背书和投资。成立5个月,pika仅有3人的团队一举成为彼时视频生成赛道龙头Runway最大的竞争对手。



今年4月,Adobe在自己的视频编辑工具 Premiere中嵌入了三大外部合作商,分别是Pika、Runway以及OpenAI。视频生成赛道已是三足鼎立局面。



在OpenAI的暴力美学下,Pika如何评估Sora带来的竞争压力,如何找到自己的超越路径,成为一个值得期待的问题。伴随着这次融资的敲定,Pika在风投界显然已经拿出了足够有说服力的答案。但是,这个答案会是什么?


在融资正式敲定后,Pika团队接受了机器之心的独家专访。在这场访谈中,机器之心对谈了Pika团队的多名核心成员,包括两位联合创始人郭文景(Demi Guo)和孟辰霖(Chenlin Meng),创始工程师陈思禹(Karli Chen)、以及Pika算法工程师王熠鹏。


如果你用AI来总结下面的访谈,企图回答这个问题。他或许会用结构化的回答告诉你,Pika拥有的是强大的团队、高效的算法、明确的目标以及产品力。


同时,Pika团队对我们透露,在今年年底之前,Pika将发布最新一代产品更新,新产品将展现Pika在可控性上的进步。



  Sora is not very hard to beat  


机器之心:首先恭喜Pika时隔半年再次完成新的融资,我们先来聊聊这轮融资的情况,用途主要是什么?


Pika:好。这轮融资我们融了8000万美元,估值相比于上次融资(2023年12月)翻了一倍,现在是4.7亿美元。之后我们要训练自己的视频大模型了,融资是为了帮我们去加速这件事发展,一方面是获取更多模型需要的资源,另一方面我们也希望能招更多的人去加入我们视频大模型的团队,不论是算法研究还是工程师。


机器之心:能否介绍下你们目前的团队,以及希望扩张的规模和具体方向?


Pika:过去一年以来,Pika团队从3人扩张到了13人。人才是我们重要的优势。


工程方面,我们拥有6个IOI国际信息学奥赛⾦牌获得者,超过AI工程师Devin的幕后公司cognition AI (5个⾦牌获得者,10个⾦牌),⼀共有9块国际奥赛⾦牌,3个 IOI世界第⼀,2个putnam fellow (美国⼤学最⾼的数学奖项) 。创始团队Demi Guo是IOI银牌,是美国队⼗⼏年来唯⼀的⼥国家队队员。


科研方面,创始人孟辰霖是DDIM、Img2Img、Model Distillation的作者,这些方法能将扩散模型的推理速度提高几十到上百倍不等。同时,谷歌视频大模型Lumiere项目的一作Omer Bar-Tal,在sora发布第二周选择加入Pika。


另外,斯坦福AI实验室主任Chris Manning、最有名的扩散模型研究教授之⼀Stefano Ermon、以及两次奥斯卡获得者,曾参与过加勒比海盗、星球大战等电影特效制作的Ron Fedkiw,都是Pika公司的顾问团队。


我们目前open to 不同背景的聪明人,base地不限,不论是数据、系统、模型算法研究、应用算法研究等方面的人才,都非常欢迎。(hr@pika.art https://pika.art/careers)


机器之心:今年2月份,OpenAI推出的Sora改变了视频生成赛道的格局,你们是怎么看待Sora的?


Pika:对于Sora,我觉得虽然大家第一眼看上去觉得好像确实印象特别好,因为好像确实从来没有见过这样的视频生成质量。


但是我们仔细分析了一下,其实它并不是一个非常novel(新颖)的东西,包括它的模型、算法、结构,其实都是现有的。那对于它的结果(效果更好),其实就是告诉了我们一个道理:用更多的机器、更多的数据,暴力地去Scale up,就可以达到更好的效果。


在此之前,可能大部分的人在说,我要去不断提高我的算法,调优模型,但是实际上大家低估了这个Scaling up的重要性。这个其实对大家来说是一个非常积极的信号,也就等于告诉大家,你只要用相同数量的卡、相同好的数据,理论你就可以达到Sora的效果。


机器之心:那你们会怎么理解自己跟Sora之间的差距?


Pika:我的感觉就是,Sora is not hard to beat。只是说scaling确实很重要。


机器之心:对于因为Sora而备受关注的DIT架构,你们会觉得这就是视频生成的确定性路线了吗?


Pika:我们认为还没有到DIT就是确定性路线的时候。这是一个很开放的问题,或者换句话说,我认为以目前视频生成的行业阶段来看,还没有到说一种架构,一定能够比另一种架构有更清晰优势的时候。因为我觉得格局也没有发生本质的改变。


机器之心:也就是说,你们用的不是DIT架构,对吗?


Pika:我们内部会有不同方向的探索,但细节不便透露。不过我们考虑这个问题,角度不会那么单一。因为我们需要从系统性的方面衡量这个问题。但在科研上,我们会对结构的效率做进一步研究,这也是未来的一个潜在研究方向。目前我认为,重要的点,一是可控性,其次是效率问题,这是容易被忽略的,任何结构它需要将效率摆在第一位。


机器之心:效率具体指的是,训练还是推理,还是一起?


Pika:指的是用户的使用成本效率,基本可以等同于推理效率。当然,训练效率也包括其中,也很重要。


机器之心:也有观点认为,Sora的效果一部分需要归功于它背后调用了自己的GPT系列模型去做用户语言理解,这个方面Pika怎么看?


Pika:文字理解的准确性是非常重要的,但是否调用GPT系列模型,这个其实在视频生成赛道不构成一个竞争点。市面上也有很多开源或闭源的模型可以实现跟它差不多的效果。其实,从竞争看,OpenAI在视频生成上所拥有的所有东西,都不是绝对性的优势。


机器之心:这轮融资里,是否也有投资人会问,跟OpenAI相比的话,你们公司的一些优势是什么?你们是怎么想的?


Pika:对,我觉得我们跟OpenAI还是有差异的,我们公司的目标并不是做AGI,而是说做一个服务创作者的产品。这是本质的区别。我们的目标是帮助大家实现自己的创意。


那在视频生成模型上,我们之间是有相似性的,我们认为自己是不会让步的。我们肯定要对标、超越,然后在产品上做自己的努力。


机器之心:对标、超过Sora,会有一个大概时间表吗?


Pika:Later this year.对,今年晚些时候。


 Pika的路径:Smart、高效、Not only 「text」based 


机器之心:如果说你们要实现更好的效果,会意味着说就是要去做更大的Scaling吗?


Pika:Scaling是有上限的。我们不可能一下子从几百张卡scale到几万张卡,这个很不现实。另外,GPU本身在内存等硬件方面也都是有上限的。所以如果说大家scale到一定程度了,是无法一直scale下去的,接下来需要看大家其他方面的技术实力。


如果我们参考一下OpenAI和Anthropic这两家公司,我们会发现,Open AI肯定是资源最多、数据最多的,但是这并不妨碍别人用更加smart的方法,用稍微少一点的数据达到更好的效果。


机器之心:在sora出现之后,你们有去买更多的卡吗?


Pika:我们其实有非常多的卡,到目前为止,我们的卡也是非常充足的。


机器之心:现在你们想要做的更好的话,采取的方法是什么?


Pika:我们内部有一套自己的方法,非常重视研究和创新,我们的文化是重视大家的智慧,然后要把东西做到最Smart。所以我们的核心点是要用非常前沿和可靠的算法去打造我们的模型,让它能够做到,第一非常Scalable、第二可以以小胜大,用更少一点的资源,得到更好的效果。


机器之心:具体在视频生成上,你们会怎么做,实现以小胜大,有明确的技术方法了吗?


Pika:我们有明确的技术方法去实现它,我可以分享一下high level的想法:


因为视频是一种高维的数据,比如说对于每秒24帧的1080p视频,它的分辨率是1920×1080,这个数据每秒的维度是:


1920×1080×3×24 = 155520000。


这个维度非常大,对于AI来说处理起来非常困难。如果说再乘上时间,60秒,就更大了。所以这个dimension是非常高的。


但是你知道,在AI中大家都知道的,curse of dimensionality(维度诅咒,指随着数据维度的增加,数据变得越来越稀疏,从而导致模型的训练和预测变得更加困难),就是说你的维度越高,你需要的数据量就越大。



那随着1080p视频时间的增加,所需要的数据量就会指数增长,因为视频中的每一帧都包括了大量的信息,而随着时间的推移,帧的数量也会增加,从而导致所需数据量的指数级别增加。


然而,在现实中,这是不切实际的。因为一个高清视频,你视频越长,它(存在)的数量就越少,所以这是一个非常有趣的dilemma(困境)。


但是好处在于,实际上视频有点像一个“low dimensional manifold”(低维流形,一种数学概念,指维度较低的特殊空间结构),嵌入在高维空间中,也就是说它的每一个维度实际上是相互关联的。


比如,我们想生成一个人在路上走路了10秒的视频。实际上,我们只需要知道第一个帧的信息,比如这个人走路的背景、他的穿着等细节,后面的帧你就不再需要完整的画面,你可能只需要一些很小的信息,比如这个人走路的姿势、或者说是背景当中汽车在移动。



这个是我们这边的一个insight,就是说,有一种成功的算法,可以让这个高维数据投影到一个低维空间。用这个方法,首先你可以绕过the curse of dimensionality,其次,可以让你生成视频的效果变得更好。以及,由于你的维度变低了,所以你训练模型的效率和成本就大大降低了。


这个是我们花了很多精力的一种高效架构和数据压缩方法。这种算法能够去掉90%的冗余信息,进而帮助降低数据的维度。比如你原本有几百页的文档,经过处理后,现在需要处理的数据只有几十万,这样就大大节省了算力。这是一种更加紧凑的表达方式,因为维度越大需要的参数越多,难度就更大,而我们使用这个方法所需要的参数应该是比较低的,所以不管是从数据效率、训练效率、推理效率上,都实现了更加高效。


机器之心:这个算法的底层思路可能是怎样的?


Pika:本质上,我们是希望让我们的模型能够像人类一样思考。比如说人看这个视频,可能只需要很少的信息,第一比如只需要第一帧中的这个人的背景、周围环境、穿着等各方面细节。然后第二,可能需要一个动作的引导,比如这个人是以这样的姿态、这样的速度在走路。


然后我们这边发现的一个情况就是,实际上在应用场景下,虽然市场上有很多Text to video(文生视频),但真正运用起来没人在乎是不是「Text」to video。因为核心是大家更希望能够生成一个能够可控的视频。


比如有人说想生成一个人以这样的姿势走路,这其实很难用语言来描述,但如果给他提供一个引导,比如一个参考视频,说这个人是这样的姿势走路。或者说,希望这人穿这样的衣服,也不知道怎么描述,可能那就给他提供第一帧。


总之就是我们想建立一个模型,让它能够像人类一样思考,我们也想超越文本的交互形式,让人类可以很好地去控制它。


当我们能够把那些motion prior(运动先验,表示对常见运动模式或行为的先验理解,这些先验信息可以帮助模型更好地理解和预测视频中的运动)、image prior(图像先验)嵌入到我们的模型里,那么自然而然,这个模型可以更好地理解人类,同时会学到更好的连续表示。


机器之心:你的意思是,可能更高效的视频生成指令不一定是「text」这种形式?


Pika:是的。因为我们发现,用户其实并不在乎是不是「text」to video这种形式。另外我们也发现,text based会让我们的模型受到更多约束。所以我们打算用来自不同形式的Prior(先验),比如运动、风格,去帮助用户表达,这也体现了我们比较以用户为中心的理念。


机器之心:我看你们已经上线了「style」「lipstick」这些组件,之后会拓展更多类似这样的组件是吗?


Pika:对,这样也能够反过来使我们的模型更能像人类一样思考。其实主要就是因为这些动作或者说信息,它是很难用语言去描述的,像我们该怎么去告诉AI说我希望它的嘴唇是怎么运动的呢?很难。所以我们就采用这种Prior的形式,它是有效的。之后我们还会有更多的这方面的更新。



机器之心:你们之前提到过,产品的最终目标是希望做一个interface for creator,听起来这些组件像是对这个界面的完善。


Pika:我们把interface理解成人类和机器交流的语言,人类和机器不能直接交流,而经过训练后的interface可以让人类向机器传达想法。这个界面可以让系统串联起来,为目标服务,我们的产品会解释模型,模型促进产品实现。我们不会局限于一种表达方式,如果用户需要一种应用,我们就会去调整模型,调整表达方式,然后推荐给用户。我们跟自己的用户走的很近,像今天上线的「style」「lipstick」也都是在充分吸收了用户的建议下上线的。


 视频生成行业仍在70分阶段  

 可用性还没有得到本质解决   


机器之心:开年以来大家一直在说,2024年是视频生成的爆发之年。你们认同吗?


Pika:从关注度来讲,是认同的。事实上在sora发布之后,确实得到了很多的关注。所以我觉得OpenAI的产品发布让更多的人认识到了这样一个领域的存在,其实也是一件非常好的事情,所以行业知名度上确实是爆发的。


不过从技术上来讲,是否是今年爆发,很难预测。各家都在做努力,我们还是相信量变会引起质变。


从应用上来看,我认为现在有点像LLM领域ChatGPT出现之前的爆火,比如GPT-3出现的时候,大家也是很兴奋的,但是它没有一个很好的落地场景,现在的视频生成也在这个阶段,可能还是需要在模型迭代之后,被更多人用起来,大家实现了观念上的转变,这个可能是一个真正的爆发。


就像我们已经很习惯掏出手机,用一些应用来修图,未来几年,我们可以相信,生成和编辑视频也是跟现在用手机P图一样简单。



我相信就是在未来的一个时刻,就肯定视频这样的一个模态,是会有它非常重要的使用场景,我相信它是可以实现一个真正的爆发,但可能未必是今年会有一个非常确定的一个时间线。



机器之心:如果说,评价视频生成行业技术阶段,从不成熟到成熟对应0-100分,你认为行业现在处于几分?


Pika:我认为是70分左右。拿Sora来讲,现在它更多是一个概念验证产品,并没有真正解决问题。


我们从别人分享的使用过程里看到,比如当时有个关于气球的生成视频,它的作者写了一篇很长的帖子,讲它的历史表现并不是特别好,可能要试几百个视频,才能实现生成一个满意的视频,而且如果直接生成高清视频,分辨率还是非常低,所以他们可能是生成一个低清的,然后再用那些人工的超分辨率方法去做超分辨率处理后放上去。


另外它的效率也非常低,需要很长时间,比如 12 分钟才能做出一个成品。这个距离真正能够毫无压力商用,还是有一定差距的,所以我认为整个行业应该差不多在 60 到 70 分左右的范围。


机器之心:在6、70分的阶段,要迈向100分,可能中间比较重要的待解决问题是什么?


Pika:第一是准确性,怎么可以把用户的意图准确地表达出来;第二是可控性,怎么按照用户的意图对视频进行控制,你可以看到现在即使在图片领域,也没有做的很好;其次就是效率的问题,怎样迅速地去生成视频。


机器之心:那在这几个方面你们会横向去对比其他公司吗?标准可能是怎样的?


Pika:因为我的感觉就是这个行业可能就像我说的,大家都差不多六七十分。可能现在有些人稍微领先有一两分。但大家都没有本质地解决这些问题。


所以可能现在的这个对比可能不是特别的有价值。最核心的这个可用性方面,以及刚刚提到这几个点都还没有得到本质的解决。现在去谈一些很细致的对比,可能就没有特别大的意义。


尤其是从用户的层面,就可能从技术的层面,你可以提出各种各样的指标来评价一个模型的好坏。但是我们想我们公司想做的不仅仅只是停留在技术层面的。


我们还是希望这样AI是真的能够为为Creator所用,希望用户觉得这是一个可以使用的产品。所以这个角度看,我认为,目前阶段可能还是在内部把模型和产品打磨地更加完善,才是第一要义。


机器之心:像这些问题,会因为scaling而逐步解决吗?


Pika:因为像可控性这个点,以后不会仅仅停留在文本控制生成视频的层面,会需要更加精细的控制。所以这也不是只做Scale就可以解决的。就像Sora其实也有可控性的问题。


所以这个可能不能仅仅从AGI的角度去看,而是要从真正的产品角度去想。

所以你可以看到,我们新发布的很多功能,基本都是从实际用例出发,而不是仅仅从模型进展。


机器之心:Pika在这几个问题上的思路和优势是什么?


Pika:我们的团队非常有优势,团队很多成员有对应的专业背景,他们的很多工作也是当前这个领域最核心的一些相关工作之一。具体到在可控性方面也是,我们有一部分成员之前的就是专业做这方面研究的,他们的论文也是这个领域的。基础模型上,我们既有资深的人,也有新生代有想法的人。所以这些方面的问题我们从人才上看,是非常有信心去攻克的。



至于可控性的具体思路,我们之前谈到的,去丰富和拓展更多元的交互方式,其实就是模拟人类思考的过程,这种方法也是增强可控性的有效手段。至于更细节的思路,可能今年年底之前,我们会有一个产品出来,在用户交互界面上有一个比较大的升级,到那个时候我们可以全部公布。



 将更aggressive做视频大模型   


机器之心:去年年底的时候你们立过一个flag说,希望今年的技术能够达到一个商业上的标准,这个标准是什么?进度如何?


Pika我觉得这个领域很显然还有很多东西是没有定义的。就是说,未来AI到底是怎么样?用户到底该怎么跟AI模型做交互,交互方式其实都还是待定义的。我们希望自己可以去参与定义这个商业板块,希望我们能在今年取得进展。


这个标准我认为可能也不仅仅是技术上的标准,不仅仅是说这个模型生成的分辨率有多高或者说效果有多好,最终还是要回到用户的可用性有多强。



机器之心:对于产品力,你们怎么构建它?


Pika:我们是想做最好的模型,但是不仅仅是做视频模型,而是想做最有用的视频模型,这个就是我们所认为的产品力。


我们不仅是要做一个技术载体,比如技术极客之类的会感兴趣,更重要的是做一个有用的视频模型,不一定是技术上最强势,但是给到创作者,你能够去编辑视频、定义场景和人物,不仅能用文字、还能用声音、视频、图片去交互。然后让这个用户能够真正意义上去控制这个视频的生成和编辑。


机器之心:那现阶段来看的话,像模型能力的提升和产品力的提升,对你们来说这两件事哪件是更重要的?


Pika:模型是产品的基石,我们对界面的定义也是需要基于一个成功的模型,所以我觉得可能模型研发目前是稍微更重要的一点的。


机器之心:在模型层面的提升上,哪些性能是最关注的?


Pika:还是回到那三点,准确性、可控性以及效率。


机器之心:时长会是一个重点吗?


Pika:会是一个重点,在我们下一个新版本中,我们会做提升,但提升多少,我们现在还无法公布。


机器之心:我看到你们说,自己会更aggressive地去做模型层面的研究和工程,这具体会表现在?


Pika:第一就是加大力度的招人,另外就是现在的团队会往这方面倾注更多的精力。


机器之心:目前商业化上的探索情况是怎样的?


Pika:我们现在是已经在赚钱的,主要来自C端的订阅费用,在B端,我们会跟一些演唱会或者企业在创意上做合作,也会对外提供API,目前都在探索的路上。


文章来源于“机器之心”,作者“姜菁玲