今年 2 月份,OpenAI 发布了人工智能文生视频大模型 Sora,并放出了第一批视频片段,掀起了 AI 生成视频浪潮。目前,Sora 仍未进行公测,只有一些视觉艺术家、设计师、电影制作人等获得了 Sora 的访问权限。他们发布了一些 Sora 生成的视频短片,其连贯、逼真的生成效果令人惊艳。
最近,被誉为「朋克摇滚皮克斯」的加拿大多媒体制作公司 Shy Kids 发布了一段借助 Sora 制作的视频短片《Air Head》,在社交媒体上迅速引起广泛关注。
据悉,这部制作精美的短片主要由 3 个人完成,花费不到 2 周的时间。其中,Sidney Leeder 担任制片人,Walter Woodman 担任编剧和导演,而 Patrick Cederberg 负责后期制作。
本周,知名视觉特效总监 Mike Seymour 采访了 Patrick Cederberg,就《Air Head》制作过程、技术难点等信息展开了提问,并在 fxguide 上发布一篇文章介绍了 Sora 在视频实际制作过程中发挥的作用和存在的问题。
其中,Patrick 表示:「Sora 是一款非常强大的工具,我们已经在思考如何把它融入现有电影制作流程中,但目前 Sora 仍处于测试阶段,在影片制作过程中也会『翻车』。例如,气球的颜色在每次生成中都会改变、镜头中会出现一些瑕疵等等,要想获得最佳表现效果,仍需大量后期制作。」
AI 生成视频并非仅仅是图像生成器的进阶版。更准确地说,它们可能是我们向通用人工智能(AGI) 迈出的重要一步。但正如 Sora 开发团队本周接受采访时所说的,当前的 AI 视频模型仍处于早期阶段。
OpenAI 研究科学家,Sora 项目领导者 Tim Brooks 表示:我觉得现在 Sora 位置,就像是视觉模型新范式的 GPT-1 阶段。
《Air Head》是如何完成的?机器之心对 Mike Seymour 的文章进行了不改变原意的编译、整理,以下是该文章原文:
Sora 的用户界面允许用户输入一段文本 prompt,然后 ChatGPT 将其转换为一个更长的字符串,再触发视频片段的生成。目前,没有其他输入方式 —— 还没有实现多模态输入。这一点很重要,因为尽管 Sora 因其生成结果中的对象一致性而受到称赞,但目前还没有任何方法来帮助匹配两个镜头(即两次生成)的内容。即使第二次运行相同的 prompt,生成结果也会不同。
Patrick 介绍说:「我们尽可能做到的是在我们的 prompt 中给出超级详细的描述,例如解释角色的服装、气球的类型。这是我们获得一致性的方法。从一个镜头到另一个镜头 / 一次生成到下一次生成,还没有完全控制一致性的方法。」
单个视频片段的确可以展现 Sora 令人惊叹的技术,但使用这些片段取决于你对隐式或显式镜头生成的理解。
假设你要求 Sora 在厨房里进行一个长镜头跟踪拍摄,桌子上有一个香蕉。在这种情况下,它将依赖其对「香蕉属性」的隐式理解来生成一个展示香蕉的视频。通过训练,Sora 已经学习了一些香蕉属性:比如「黄色」、「弯曲」、「有深色的末端」等等。没有香蕉的实际记录图像。没有「香蕉数据库」,而是有一个更小的、压缩的、隐藏的「潜在空间」,描述了香蕉是什么,每次运行都会展示对潜在空间的一种新解释。你的 prompt 依赖于对香蕉属性的隐式理解。
为了制作《Air Head》,团队根据大致的剧本生成了多个视频片段,但是没有明确的方式来确保黄色气球头在每个镜头中都保持相同。有时,当 prompt 要一个黄色气球时,生成结果甚至可能不是黄色的。有时,气球上可能嵌入了一张脸,或者似乎在气球的正面画了一张脸。由于现实生活中许多气球都有绳子,因此生成结果中称为 Sonny 的气球人经常会在衣服前襟处有一根绳子。这是因为 Sora 隐式地将绳子与气球联系起来,因此在后期制作中这些需要被移除。
《Air Head》只使用了 Sora 生成的镜头,但其中很多镜头都经过了调色、处理和稳定化,所有镜头都被提高了分辨率。团队处理的这些片段最初是以较低分辨率生成的,然后使用 Sora 或 OpenAI 之外的 AI 工具进行超分。
「你可以采用 720p 的分辨率,我相信已经有 1080p 了,但它需要一段时间来渲染。为了速度,《Air Head》的所有镜头都是以 480p 制作的,然后使用 Topaz 来提高分辨率」,Patrick 介绍道。
在关键帧方面,Patrick 解释道:「在实际生成中,不同动作的发生有一点时间控制,但并不精确,甚至有点像是碰运气 —— 目前还不确定 Sora 是否真的能完成这一点。」不过,Shy Kids 使用的是最早版本的模型,Sora 仍在不断开发中。
除了选择分辨率,Sora 还允许用户选择长宽比,比如肖像模式或风景模式(或正方形)。这在从 Sonny 的牛仔裤向上摇摄到他的气球头的镜头中非常有用。遗憾的是,Sora 无法原生渲染这样的移动,总是希望镜头的主要焦点 —— 气球头出现在镜头中。因此,团队以肖像模式渲染了这个镜头,然后通过后期的裁剪手动创建了向上摇摄的效果。
对于许多生成式 AI 工具来说,训练数据附带的元数据是宝贵的信息来源,比如摄像机元数据。例如,如果在静态照片上进行训练,摄像机元数据将提供镜头尺寸、光圈值以及其他许多对模型训练至关重要的信息。
在电影镜头中,「跟踪」、「平摇」、「竖摇」、「推进」等概念都不是元数据所能捕捉的术语或概念。
描述镜头对影片制作来说非常重要,Patrick 指出:「最初 Sora 中并没有这个功能。不同的人描述电影镜头的方法也不同。OpenAI 的研究人员在艺术家使用这个工具之前,并没有真正像电影制作人那样思考。」
Shy Kids 知道他们使用的是 Sora 早期版本,但「初始版本的 Sora 在摄像机角度方面有点随机。」Sora 是否真的能理解 prompt 还不得而知,OpenAI 的研究人员只是专注于视觉生成,或许不考虑故事讲述者将如何使用它。
「Sora 正在改进,生成控制还没有完全到位。输入一个『摄像机摇摄』,我认为十次中有六次会得到想要的结果」,Patrick 说道。
这不是一个个例问题,几乎所有 AI 视频生成公司都面临着同样的问题,Runway AI 可能是在提供描述摄像机运动方面最先进的,但 Runway 渲染片段的质量和长度都不如 Sora。
视频片段可以以不同长度的时间段进行渲染,如 3 秒、5 秒、10 秒、20 秒,最长可达一分钟。渲染时间取决于一天中的时间段(例如早、中、晚)以及云服务的需求量。
Patrick 介绍:「一般来说,每次渲染大约需要 10 到 20 分钟。根据我的经验,我选择的渲染时长对渲染时间的影响很小。如果渲染时长是 3 到 20 秒,渲染时间往往不会在 10 到 20 分钟的范围内变化太大。」
虽然所有画面都是 Sora 生成的,但《Air Head》仍然需要大量后期工作。例如,有时会有一张脸在气球人 Sonny 上,就好像是用记号笔画上去的,这些瑕疵将在后期工作中被移除。
Shy Kids 的方法是像制作纪录片一样进行后期制作和编辑,即有很多镜头,你需要从这些素材中编织出一个故事,而不是严格按照剧本拍摄。虽然这部短片有一个剧本,但团队需要灵活适应。
「这就像是得到一大堆镜头,然后尝试以一种有趣的方式剪辑到旁白中」,Patrick 介绍道。
对于最终出现在影片中的 90 秒镜头,Patrick 估计他们生成了「数百个 10 到 20 秒的片段」。他补充说:「我猜原始素材和最终成品的比例大概是 300:1。」
《Air Head》的许多片段生成时就好像是以慢动作拍摄的,尽管这并没有在 prompt 中被要求。这种情况发生的原因尚不清楚,但许多片段因此需要重新调整时间,以使其看起来像是实时拍摄的。这似乎与训练数据有关。
值得一提的是,Shy Kids 在他们的 prompt 中使用了「35 mm film(35 毫米胶片)」这个关键词,并发现这在一定程度上给了他们所追求的一致性。
OpenAI 试图尊重版权,不允许生成可能侵犯版权或侵犯肖像权的内容。例如,如果用户的 prompt 类似于「35 毫米胶片,在一个未来主义的太空船中,一个男人拿着光剑向前走」,Sora 将不允许生成该片段,因为它太接近《星球大战》了。
Patrick 回忆说,当他们最初只是想测试 Sora 时:「我不假思索地输入了『阿罗诺夫斯基类型的镜头』,然后就被告知不能这样做。」Sora 出于版权问题会拒绝这类 prompt。
值得注意的是,Sora 生成的视频都是没有声音的,《Air Head》中主角 Sonny 的声音是 Patrick 本人的声音。
Shy Kids 团队表示已经开始为《Air Head》制作一部精彩的、人物有自我意识的、或许带点讽刺意味的续集。但对于电影制作等实际项目来说,Sora 可能还需要一段时间才能达到创作者所需的精确度。
本文来自微信公众号”机器之心“