2 月份,我们发布了第一篇关于 SORA 的故事;OpenAI 刚刚发布了 SORA 的第一批剪辑,当时我们将其描述为视频领域的 DALL·E。SORA 是一种扩散模型,它生成的视频比任何竞争对手都长得多,而且更具凝聚力。通过让模型一次预测许多帧,他们解决了确保主体即使暂时消失在视野中也保持一致这一具有挑战性的问题。SORA 可以一次性生成长达一分钟的完整视频。当时,OpenAI 还发布了技术说明,表明它可以(在未来)延长生成的视频以使其更长或无缝融合两个视频。
过去几周,一些精选制作团队获得了有限的 SORA 访问权限。其中最引人注目的是Shy Kids团队,他们制作了 SORA 短片Air Head。Sidney Leeder 制作了这部电影。Walter Woodman 是编剧兼导演,而 Patrick Cederberg 负责后期制作。这支多伦多团队被昵称为“朋克摇滚皮克斯”,而他们的作品获得了艾美奖提名并入围奥斯卡奖。本周,我们与 Patrick 坐下来就 SORA 的现状进行了长时间的交谈。
Shy Kids 是一家加拿大制作公司,以其兼收并蓄、创新的媒体制作方式而闻名。Shy Kids 最初是由来自电影、音乐和电视等不同领域的创意人员组成的集体,其独特的叙事风格和引人入胜的内容获得了认可。该公司经常探索青春期、社交焦虑和现代生活的复杂性,同时保持独特的异想天开和真挚的基调。他们的作品展示了对视觉叙事的敏锐眼光,并经常与原创音乐紧密结合,使他们的作品产生共鸣并令人难忘。Shy Kids 通过拥抱新的 AI 技术和创造力,成功开辟了一个细分市场,推动了一切可能。
SORA:24年4月中旬。
SORA 正在开发中,并正在通过 Shy Kids 等团队的反馈积极改进,但目前它的工作原理如下。重要的是要认识到 SORA 几乎在预 alpha 阶段就很有效。它尚未发布,也不处于测试阶段。
用户界面允许艺术家输入文本提示;OpenAI 的 ChatGPT 随后将其转换为更长的字符串,从而触发剪辑生成。目前,没有其他输入;它尚未实现多模式。这一点很重要,因为虽然 SORA 因其在镜头中的物体一致性而受到称赞,但没有任何东西可以帮助将第一个镜头中的任何内容与第二个镜头相匹配。即使您第二次运行相同的提示,结果也会有所不同。“我们能做到的最接近的就是在提示中进行超描述,”帕特里克解释说。“解释角色的服装以及气球的类型是我们保持一致性的方法,因为从一个镜头到另一个镜头/一代又一代,还没有一套功能可以完全控制一致性。”
单个剪辑片段非常出色,其所代表的技术令人惊叹,但这些剪辑片段的使用取决于您对隐式或显式镜头生成的理解。假设您要求 SORA 拍摄一个厨房中的长跟踪镜头,桌子上放着一根香蕉。在这种情况下,它将依靠对“香蕉特性”的隐式理解来生成一段显示香蕉的视频。通过训练数据,它“学习”了香蕉特性的隐式方面:例如“黄色”、“弯曲”、“末端较暗”等。它没有实际记录的香蕉图像。它没有“香蕉库存库”数据库;它有一个小得多的压缩隐藏或“潜在空间”,以了解香蕉是什么。每次运行时,它都会显示对该潜在空间的另一种解释。您的提示回复了对香蕉特性的隐式理解。
Air Head仅使用 SORA 生成的素材,但其中大部分都经过了分级、处理和稳定,并且全部都进行了升级或压缩。团队使用的剪辑以较低的分辨率生成,然后使用 SORA 或 OpenAI 之外的 AI 工具进行压缩。“您可以达到 720 P(分辨率),”Patrick 解释道。“我相信有一个 1080 功能,但需要一段时间(渲染)。我们以 480 的分辨率制作了Air Head的所有片段,以提高速度,然后使用Topaz进行直立处理。”
提示‘时间’:老虎机。
原始提示会自动展开,但也会沿着时间轴显示。“你可以进入那些较大的关键帧,并根据想要生成的变化开始调整信息。” Parick 解释说,“在实际生成过程中,这些不同的动作发生的位置有一点时间控制,但并不精确……这有点像在黑暗中射击——就像老虎机一样——至于它是否真的在此时完成这些事情。” 当然,Shy Kids 使用的是最早的原型,而 SORA 仍在不断开发中。
OpenAI 试图保持尊重,不允许生成侵犯版权的材料或生成看似来自他人的图像。例如,如果你提示未来太空飞船中的 35 毫米胶片,一个男人拿着光剑向前走, SORA 将不允许生成剪辑,因为它太接近星球大战。但 Shy Kids 在早期测试中意外遇到了这个问题。帕特里克回忆说,当他们最初坐下来只是想测试 SORA 时,“我们有一个角色背后的镜头;这有点像阿罗诺夫斯基的追拍镜头。我想那只是我的大脑愚蠢,因为我很累,但我把‘阿罗诺夫斯基式的镜头’放进去,结果被拒绝了, ”他回忆道。希区柯克变焦是另一个现在通过渗透(一个技术术语)出现的东西,但 SORA 会出于版权原因拒绝该提示。
帕特里克本人就是桑尼的配音演员。“有时我们会觉得电影的节奏需要另一个节拍。所以我会写另一句台词,录制下来,并想出更多的 SORA 代,这是后期制作中该工具的另一个强大用途:当你陷入困境,需要填补空白时,这是一种很好的开始集思广益的方法,只需吐出剪辑,看看你可以用什么来填补节奏问题。”
经验总结
SORA 非常出色;Shy Kids 团队仅用 3 个人在 1.5 到 2 周左右的时间就制作出了Air Head。该团队已经开始着手制作一部精彩、自我意识强、甚至可能具有讽刺意味的续集。“续集将以新闻的方式讲述气球人桑尼,以及他对名声和随后与世界的失和的反应,”帕特里克说。“我们正在探索新技术!”该团队希望在实验中更加技术化,将 SORA 元素的 AE 合成融入真实的实景镜头中,并使用 SORA 作为补充 VFX 工具。
SORA 非常新,OpenAI 为 SORA 勾勒和演示的基本框架也尚未用于早期测试。SORA 目前的形式是否会很快发布尚不确定,但它在特定类型的隐式图像生成方面取得了令人难以置信的进步。对于高端项目,可能还需要一段时间才能达到导演所需的具体程度。对于许多其他项目来说,它将不仅仅是“足够接近”,同时还能提供令人惊叹的图像。Air Head仍然需要大量的编辑和人工指导来制作这部引人入胜且有趣的故事电影。“我只是觉得人们必须将 SORA 作为他们流程中真实的一部分;但是,如果他们不想参与任何类似的事情,那也没关系。”