# 热门搜索 #
搜索
a16z万字解读:新一代皮克斯即将诞生,还会「干掉」电影和游戏
3517点击    2024-08-30 17:20

技术的进步,会直接带来内容生产方式和消费方式的变革。


在 a16z 看来,以 Sora 为代表的视频生成技术,可能会改变未来影视与游戏的内容生产流程,甚至让影视和游戏融合成为新的内容形式。


在互动视频赛道,会诞生新一代的皮克斯,甚至新一代的TikTok


一些有意思的点:


  • 计算机和 3D 图形技术的基础上,诞生了皮克斯。


  • 对于大多数家庭来说,问题已从「我们在看什么」变成了「我们在玩什么」。


  • 对内容来说,全神贯注玩游戏一小时 > 被动看电视一小时。


  • 过去的互动剧失败的根本原因是,人工制作成本太高。


  • AI 制作一分钟短片的成本,也就是租用一天镜头的费用。


  • 下一个皮克斯既需要成为世界一流的互动故事工作室,也必须是一家顶尖的技术公司。


文章转载自「深思 SenseAI」的编译版本,Founder Park 略有调整。


01


新一代的皮克斯


会诞生在互动视频领域


故事是人类体验世界的核心——我们通过故事来理解世界、寻求意义并与他人建立联系。在过去的一个世纪里,我们最喜爱的许多故事都是通过技术变革实现的。


20 世纪 30 年代,迪士尼发明了多平面摄像机,并率先制作了声音同步的全彩动画片——并最终诞生了开创性的动画电影《白雪公主和七个小矮人》。


漫威和 DC 漫画在 20 世纪 40 年代声名鹊起,这一时期被称为「漫画黄金时代」,这得益于四色印刷和胶版印刷的普及,可用于大规模印刷漫画。该技术的局限性——低分辨率、有限的色调范围、在廉价新闻纸上进行基于点的印刷——创造了我们至今仍能识别的标志性「纸浆漫画」的外观。


同样,皮克斯在 20 世纪 80 年代也占据了独特的地位,充分利用了新技术平台——计算机和 3D 图形。联合创始人 Edwin Catmull 是纽约理工学院计算机图形实验室和卢卡斯影业(Lucasfilm)的早期研究员,开创了基础 CGI 概念,后来制作了第一部完全由计算机生成的长片《玩具总动员》。皮克斯著名的图形渲染套件 Renderman,迄今已在 500 多部电影中得到应用。


在每一次的技术浪潮中,早期的原型都被当作新奇事物,后来成为新一代创作者引领的创作故事的新形式。


今天,我们相信,新一代的「皮克斯」即将诞生。GenAI正在推动创意故事叙述方式的根本性转变,让新一代的创作者能够以前所未有的新颖方式讲述故事。


具体而言,我们认为下个世纪的皮克斯不会通过传统电影或动画出现,而是通过互动视频。这种新的故事叙述形式将模糊视频游戏与电视/电影之间的界限——将深度故事叙述与观众主体性和「游戏」融合在一起,开辟一个广阔的新市场。


02


游戏一直是新叙事方式的引领者


当今有两大浪潮可能会加速新一代故事创作公司的诞生:


1、消费者转向交互式媒体(而非线性/被动媒体,例如电视/电影)


2、生成式人工智能推动的技术进步


在过去 30 年中,我们看到了消费者的消费习惯的转变,游戏/互动媒体在每一代人中都变得越来越受欢迎。对于 Z 世代及更年轻的一代来说,游戏现在是他们消磨时间的首选方式,超过了电视/电影。


2019 年,Netflix CEO 里德·哈斯廷斯 (Reed Hastings) 在一封股东信中说道:「我们与《堡垒之夜》的竞争(和输给)比与 HBO 的竞争更激烈。」


如今,对于大多数家庭来说,问题已从「我们在看什么」变成了「我们在玩什么」。



不同世代的消费者每周娱乐时间占比分布


虽然电视/电影/书籍仍然承载着引人入胜的故事,但如今许多新颖且成功的故事,都是通过游戏的方式讲述的。以哈利波特为例,开放世界角色扮演游戏《霍格沃茨遗产》让玩家以前所未有的沉浸感进入霍格沃茨的世界。这款游戏是 2023 年最畅销的游戏,首发销售收入超过 10 亿美元,票房超过了除结局《哈利·波特与死亡圣器(下)》(13 亿美元)之外的每一部哈利波特电影。


很多游戏 IP 近期在电视/电影改编方面也取得了巨大成功。顽皮狗的《最后生还者》是 HBO Max 2023 年收视率最高的系列剧,平均每集有 3200 万观众。《超级马里奥兄弟》电影票房收入高达 14 亿美元,创下了动画电影史上全球首映周末票房最高纪录。此外还有广受好评的《辐射》系列、派拉蒙评价没那么好的《光环》系列、汤姆·霍兰德的《神秘海域》电影、迈克尔·贝即将指导的《斯基比迪马桶人》——这个名单还在持续增加中。


互动媒体之所以如此有影响力的一个关键原因是,主动参与有助于培养对故事或世界的亲近感。全神贯注玩游戏一小时 > 被动看电视一小时。许多游戏还有社交机制,其核心设计中内置了多人游戏机制,最难忘的故事,往往是我们与身边人共同创造并分享的那些。


通过多种方式(观看、播放、创作、分享)持续与一个 IP 互动,故事就不再只是娱乐,而是成为个人身份的一部分。神奇的时刻在于,一个人从「我看哈利波特」转变为「我是波特迷」时。后者更为持久,围绕着原本可能是单人参与的活动,构建起身份认同和多玩家社区。


总而言之,虽然我们历史上的一些最伟大的故事都是通过线性媒体讲述的,但未来的故事,将在游戏和交互式媒体中进行讲述。


因此,我们相信,下个世纪最重要的内容公司将在这里建立。


03


互动视频


是故事与游戏的完美融合


鉴于游戏在文化领域的主导地位,我们相信,下一个皮克斯将通过一种将讲故事与游戏相结合的媒体形式出现,其中一种有潜力的形式是互动视频。


首先,什么是交互式视频?它与视频游戏有何不同?


在视频游戏中,开发人员将一组资产预加载到游戏引擎中。例如,在《超级马里奥兄弟》中,艺术家设计了马里奥角色、树木和背景,程序员设定马里奥在玩家按下「A」按钮后精确跳跃 50 像素,跳跃帧通过传统图形管道渲染。这导致游戏具有高度确定性和计算性的架构,开发人员可以完全控制游戏。


另一方面,交互式视频完全通过神经网络实时生成帧。除了一组创意提示(可以是文本或代表性图像)外,无需上传或创建任何资产。实时 AI 图像模型接收玩家输入(例如「向上」按钮),并将概率推断下一个生成的游戏帧。



交互式视频的潜力在于将电视/电影的易获取性和叙事深度与视频游戏的动态、玩家驱动系统相结合。每个人都已经知道如何看电视和跟随线性故事。通过添加使用玩家输入实时生成的视频,我们可以创建个性化、无限的游戏玩法——有可能能够留住粉丝数千小时,就像那些最好的玩家驱动游戏一样。暴雪的《魔兽世界》已有 20 多年历史,至今仍有约 700 万订阅用户。


互动视频还能实现多种消费模式——观众可以像看电视节目一样靠在沙发上观看内容,也可以在移动设备或控制器上玩游戏。让粉丝以尽可能多的方式参与他们最喜欢的 IP 世界是跨媒体叙事的核心,这有助于增强对 IP 的亲和力。


在过去十年中,许多故事讲述者都在尝试各种互动视频。早期的突破是 Telltale 的《行尸走肉》——一款基于 Robert Kirkman 漫画系列的电影体验,玩家可以观看动画场景,但会在关键时刻通过对话和快速反应事件做出选择。这些选择——例如在僵尸袭击时决定拯救哪个角色——创造了故事变体,使每次游戏都具有个性化。《行尸走肉》于 2012 年推出,获得了巨大成功——赢得了多项年度游戏奖,迄今为止销量超过 2800 万份。


2017 年,Netflix 也进军互动视频领域——从《穿靴子的猫:童书历险记》等动画开始,最终推出广受好评的《黑镜:潘达斯奈基》,这是一部真人电影,观众可以决定一位年轻的程序员如何将一本奇幻小说改编成视频游戏。《潘达斯奈基》是一部节日热门影片,吸引了大批狂热粉丝,他们制作了流程图来记录电影的所有可能结局。



然而,尽管《潘达斯奈基》和《行尸走肉》都获得了好评,但它们都面临着一个事关生存的根本性问题——人工创作无数分支故事需要耗费大量时间和成本。随着 Telltale 扩展到多个项目,他们因「压榨与淘汰」的工作文化而声名狼藉,开发人员抱怨他们「频繁更换和烧钱」。故事质量受到影响——《行尸走肉》一开始在 Metacritic 上获得了 89 分的好评,而 4 年后,Telltale 发布了他们最大的 IP 之一《蝙蝠侠》,但 Metacritic 上却只获得了令人失望的 64 分。2018 年,Telltale 因未能找到可持续的商业模式而宣布破产。


为了制作《潘达斯奈基》,剧组拍摄了 250 个视频片段,总长度超过 5 小时,以对应电影的 5 个结局。据报道,其预算和制作时间是标准《黑镜》剧集的两倍,剧集制作人表示,该项目的复杂性相当于「同时制作 4 集」。最终在 2024 年,Netflix 决定封存整个互动特别节目部门,转而选择制作传统游戏。


到目前为止,互动视频项目的内容成本与游戏时间成线性关系,这是无法避免的。然而,生成式人工智能模型的进步可能会让互动视频大规模发挥作用。


04


视频模型很快


就可以用来生成交互式视频了


近期在图像生成模型蒸馏的最新进展令人震惊。2023 年,潜在一致性模型(latent consistency models)和 SDXL Turbo 的发布,极大地提高了图像生成的速度和效率——只需一步即可实现高分辨率渲染,而之前需要 20-30 步,成本降低了 30 倍以上。生成视频(一系列逐帧变化的一致图像)的概念突然变得非常可能。



今年早些时候,OpenAI 发布了Sora,震惊了世界。Sora 是一个文本转视频的模型,可以生成长达 1 分钟的视频,同时保持视觉一致性。


不久之后,Luma AI 发布了速度更快的视频模型 Dream Machine,可以在 120 秒内生成 120 帧(约 5 秒的视频)。Luma 最近分享说,他们在短短 7 周内就达到了惊人的 1000 万用户。上个月,Hedra Labs 发布了 Character-1,这是一个专注于角色的多模态视频模型,可以在 90 秒内生成 60 秒的视频,具有富有表现力的人类情感和配音(SenseAI 此前在这篇文章中介绍了 Hedra,《斯坦福团队发布的 AI+视频生成工具,旨在为 AI 角色赋予声音,获 1000 万美元种子轮融资》)。而 Runway 最近推出了Gen-3 Turbo 模型,这个模型可以在 15 秒内渲染 10 秒的视频片段。


如今,有抱负的电影制作人可以根据文本提示或参考图像快速生成几分钟的 720p 高清视频,这些视频可以与起始或结束的关键帧结合,以实现更高的精确度。Runway 也开发了一套编辑工具,可以对基于扩散模型生成的视频提供更精细的控制,包括帧内摄像机控制、帧插值和运动画笔(视频的动画部分)。Luma 和 Hedra 也将很快发布自己的创作者工具套件。


虽然制作工作流程还处于早期阶段,但我们已经遇到了几位使用这些工具创作故事的内容创作者。Resemblance AI 创作了 Nexus 1945,这是一部令人惊叹的 3 分钟二战另类历史短频,融合了 Luma、Midjourney 和 Eleven Labs 的技术。独立电影制作人 Uncanny Harry 与 Hedra 合作创作了一部赛博朋克短片。创作者们制作了音乐视频、节目预告片、旅行视频博客,甚至还有快餐汉堡广告。自 2022 年以来,Runway 每年都会举办一次 AI 电影节,选出 10 部在 AI 帮助下制作的顶级短片。



https://www.youtube.com/watch?v=etktO7rpGP0&t=3s


《Nexus 1945》竟然有种《沙丘》的迷人电影质感


然而,要承认当前的一些技术限制,在叙事质量和控制方面,提示生成的 2 分钟剪辑与专业团队制作的 2 小时故事片之间仍然存在很大差距。很难从提示或图像中生成创作者想要的确切内容,即使是经验丰富的提示工程师通常也会丢弃他们生成的大部分内容。


AI 视频创造者 Abel Art 表示,约 500 个视频才能生成 1 分钟连贯的视频。图像一致性通常在连续视频一两分钟后开始失效,需要手动编辑——这就是为什么今天大多数生成时间限制在约 1 分钟的原因。


对于当今大多数专业的好莱坞电影公司来说,扩散模型生成的视频可能在前期制作中用于故事板(Storyboard),以直观地展示场景或角色的外观,但不能替代现场工作。后期制作中,也有机会使用 AI 进行音频或视觉效果 处理,但总体而言,与已经投入数十年的传统工作流程相比,AI 创作工具套件仍处于早期阶段。


短期内,生成视频的最大机会之一在于推动互动视频和短片等新媒体格式的发展。互动视频已经细分为 1-2 分钟的短片段,根据玩家的选择进行,并且通常是动画或风格化的,允许使用分辨率较低的镜头。更重要的是, 通过 diffusion model 制作这些短片比 Telltale /Bandersnatch 更便宜——Abel Art 估计 Luma 制作 1 分钟视频的成本为 125 美元,相当于租用电影镜头一天的费用。


尽管如今生成的视频质量可能不稳定,但 ReelShort 和 DramaBox 等竖屏短片的流行已经证明,观众对低制作成本、分集短剧的需求是存在的。凭借数千部短小精悍的电视连续剧(如《禁忌的欲望:阿尔法的爱》),ReelShort 的下载量已超过 3000 万次,每月收入超过 1000 万美元,尽管有批评指出其摄影水平业余、剧本套路化。


交互式视频面临的最大技术难题在于,实现足够快的帧生成速度以支持即时内容创作。目前,Dream Machine 每秒约生成 1 帧。现代游戏主机发行的最低可接受标准是稳定在 30 帧每秒(FPS),而 60 FPS 则是黄金标准。借助 PAB 等技术的进步,某些视频类型的帧率可能提升至 10-20 FPS,但仍未达到理想速度。


05


现状:互动视频行业一览



考虑到底层硬件和模型改进的速度,我们估计可能还需要约 2 年的时间才能实现商业上可行的、完全生成的交互式视频。


如今,我们看到研究方面取得了进展,微软研究院和 OpenAI 等机构正在努力为交互式视频构建端到端的基础模型。微软的模型旨在以 3D 形式生成完全「可玩的世界」。OpenAI 展示了一个 Sora 演示,其中该模型能够「零样本」模拟 Minecraft,「Sora 可以同时使用基本策略控制 Minecraft 中的玩家,同时以高保真度渲染世界及其动态。」



2024 年 2 月,Google DeepMind 发布了自己的端到端交互式视频基础模型 Genie。Genie 的创新之处是其潜在动作模型,该模型可识别出视频帧对之间的隐含动作。通过 30 万小时的平台视频训练,Genie 学会了识别角色动作 - 例如如何跳过障碍物。这一潜在动作模型与视频标记器相结合,输入到一个动态模型中,该模型预测下一帧画面,从而拼接成一段互动视频。



在应用层,我们已经看到一些团队正在探索新形式的交互式视频体验。许多公司正在制作生成式电影或电视节目,围绕当前模型的局限性进行设计。


我们还看到一些团队将视频元素融入 AI 原生游戏引擎中。


Ilumine 旗下的 Latens 正在开发一款「清醒梦模拟器」,用户在梦境中行走时可以实时生成画面。这种轻微的延迟有助于营造一种超现实的体验。开源社区 Deforum 的开发人员正在使用沉浸式交互式视频创建现实世界的装置。Dynamic 正在开发一款模拟引擎,用户可以使用全生成的视频以第一人称视角控制机器人。



在电视/电影领域,Fable Studio 正在开发 Showrunner,这是一项 AI 流媒体服务,可让粉丝重新重新混编自己喜爱的节目的版本。去年夏天,Fable 的概念验证作品《南方公园》AI 去年夏天首映即获得 800 万次观看。


Solo Twin 和 Uncanny Harry 都是专注于 AI 的前沿电影制作工作室。Alterverse 构建了一款受 D&D 启发的交互式视频 RPG ,由社区决定下一步的剧情走向。Late Night Labs 是一家新的一流电影工作室,将 AI 融入创作过程。Odyssey 正在 构建一个由 4 个生成模型驱动的视觉叙事平台。


随着电影和游戏之间的界限变得模糊,我们将看到 AI 原生游戏引擎和工具的出现,为创作者提供更多控制权。Series AI 开发了 Rho Engine,这是一个用于 AI 游戏创作的端到端平台,并正在利用其平台与主要 IP 持有者合作打造原创游戏。


同时,Rosebud AI、Astrocade 及 Videogame AI 等推出的 AI 创作套件,让编程或艺术领域的新手也能迅速上手,制作互动体验。


这些新的 AI 创作套件将开拓叙事市场——使新一代创作者能够通过提示工程、视觉草图绘制和语音输入的结合,将他们的想象力变为现实。


06


新一代的皮克斯


需要既懂技术又懂内容


皮克斯能够利用计算机和 3D 图形领域的根本性技术变革,打造出一个旗舰企业。如今,生成式人工智能领域也掀起了类似的浪潮。然而,同样重要的是要记住,皮克斯的成功很大程度上要归功于《玩具总动员》和约翰·拉塞特领导的世界级故事讲述者团队创作的原创动画电影。人类的创造力利用新技术创作出了最精彩的故事。


同样,我们认为下一个皮克斯既需要成为世界一流的互动故事工作室,也必须是一家顶尖的技术公司。鉴于人工智能研究进展如此迅速,创意团队需要能够与 AI 团队携手合作,将叙事和游戏设计与技术创新融合在一起。皮克斯拥有一支独特的团队,将艺术与技术融为一体,并与迪士尼合作。今天的机会是,一个新团队能够将游戏、电影和人工智能领域融会贯通。


需要明确的是,这将是一个挑战——而且这不仅仅受到技术的限制——这个团队需要找到新的方式,让人类讲述者能与 AI 工具协同工作,以增强而非削弱其想象力。还有许多法律和伦理障碍需要解决——目前,除非创作者能证明其拥有用于训练模型的所有数据,否则 AI 生成创意作品的法律所有权和版权保护尚不明晰。对于训练数据背后原始的作者、艺术家及制作者的报酬问题,仍有待解决。


然而,今天同样显而易见的是,人们对新的互动体验有着巨大的需求。从长远来看,下一个皮克斯不仅可以创造互动故事,还可以创造整个虚拟世界。我们之前探讨过永不完结游戏的可能性——结合实时关卡生成、个性化叙事和智能代理的动态世界,类似于 HBO 的《西部世界》的愿景。互动视频解决了将《西部世界》变为现实的一大挑战——即兴创作大量个性化、高质量、互动性强的内容。


有朝一日,借助 AI 的力量,我们或许会先构思一个故事世界——一个我们设想中完整成型的 IP 宇宙,包含角色、叙事脉络、视觉元素等——然后再针对特定受众或情境生成所需的各类媒体产品。这将是跨媒体叙事的终极演化,彻底模糊传统媒体形式之间的界限。


皮克斯、迪士尼和漫威都成功打造了令人难忘的世界,这些世界成为了其粉丝核心认同的一部分。下一个互动式皮克斯的机遇在于利用生成式 AI 实现同样的目标——创造新的故事世界,模糊传统叙事格式的界限,并由此构建出前所未有的宇宙。


参考材料:


斯坦福团队发布的 AI+视频生成工具,旨在为 AI 角色赋予声音,获 1000 万美元种子轮融资


深度|AI+视频娱乐平台大盘点,谁会成为下一个「Netflix」


独家专访戴勃:被低估的 Real to Sim 和 3D 动态内容生成的未来


AI+电影 | 头号玩家主演创立的 Wonder Studio,吸引 Autodesk 收购,旨在重塑电影制作艺术


这款 AI 产品为你提供一个游戏搭子,用 Agent 的方式在《我的世界》挖钻石


https://a16z.com/the-next-generation-pixar/


文章来源“Founder Park”,作者“Founder Park”


AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
AI漫画

【开源免费】ai-comic-factory是一个利用AI生成漫画的创作工具。该项目通过大语言模型和扩散模型的组合使用,可以让没有任何绘画基础的用户完成属于自己的漫画创作。

项目地址:https://github.com/jbilcke-hf/ai-comic-factory?tab=readme-ov-file

在线使用:https://aicomicfactory.app/

2
AI工作流

【开源免费】n8n是一个可以自定义工作流的AI项目,它提供了200个工作节点来帮助用户实现工作流的编排。

项目地址:https://github.com/n8n-io/n8n

在线使用:https://n8n.io/(付费)


【开源免费】DB-GPT是一个AI原生数据应用开发框架,它提供开发多模型管理(SMMF)、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL(智能体工作流编排)等多种技术能力,让围绕数据库构建大模型应用更简单、更方便。

项目地址:https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file



【开源免费】VectorVein是一个不需要任何编程基础,任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤,并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。

项目地址:https://github.com/AndersonBY/vector-vein?tab=readme-ov-file

在线使用:https://vectorvein.ai/(付费)

3
智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。

项目地址:https://github.com/Significant-Gravitas/AutoGPT


【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md