微信扫一扫 分享朋友圈

已有 375 人浏览分享

[Sora行业应用]    最新动态,加拿大电影制作公司 Shy Kids 害羞男孩 使用sora结合电影制作的体验分享

Sora行业应用 2024-7-16 02:02:29375 0
2 月份,我们发布了第一篇关于 SORA 的故事;OpenAI 刚刚发布了 SORA 的第一批剪辑,当时我们将其描述为视频领域的 DALL·E。SORA 是一种扩散模型,它生成的视频比任何竞争对手都长得多,而且更具凝聚力。通过让模型一次预测许多帧,他们解决了确保主体即使暂时消失在视野中也保持一致这一具有挑战性的问题。SORA 可以一次性生成长达一分钟的完整视频。当时,OpenAI 还发布了技术说明,表明它可以(在未来)延长生成的视频以使其更长或无缝融合两个视频。



过去几周,一些精选制作团队获得了有限的 SORA 访问权限。其中最引人注目的是Shy Kids团队,他们制作了 SORA 短片Air Head。Sidney Leeder 制作了这部电影。Walter Woodman 是编剧兼导演,而 Patrick Cederberg 负责后期制作。这支多伦多团队被昵称为“朋克摇滚皮克斯”,而他们的作品获得了艾美奖提名并入围奥斯卡奖。本周,我们与 Patrick 坐下来就 SORA 的现状进行了长时间的交谈。

Shy Kids 是一家加拿大制作公司,以其兼收并蓄、创新的媒体制作方式而闻名。Shy Kids 最初是由来自电影、音乐和电视等不同领域的创意人员组成的集体,其独特的叙事风格和引人入胜的内容获得了认可。该公司经常探索青春期、社交焦虑和现代生活的复杂性,同时保持独特的异想天开和真挚的基调。他们的作品展示了对视觉叙事的敏锐眼光,并经常与原创音乐紧密结合,使他们的作品产生共鸣并令人难忘。Shy Kids 通过拥抱新的 AI 技术和创造力,成功开辟了一个细分市场,推动了一切可能。

SORA:24年4月中旬。
SORA 正在开发中,并正在通过 Shy Kids 等团队的反馈积极改进,但目前它的工作原理如下。重要的是要认识到 SORA 几乎在预 alpha 阶段就很有效。它尚未发布,也不处于测试阶段。

“试用它非常有趣,”帕特里克评论道。“它是一款非常强大的工具,我们已经在构思如何将它融入我们现有的流程。但我认为,对于任何生成式人工智能工具而言,控制仍然是目前最令人向往的,也是最难以捉摸的。”



用户界面

用户界面允许艺术家输入文本提示;OpenAI 的 ChatGPT 随后将其转换为更长的字符串,从而触发剪辑生成。目前,没有其他输入;它尚未实现多模式。这一点很重要,因为虽然 SORA 因其在镜头中的物体一致性而受到称赞,但没有任何东西可以帮助将第一个镜头中的任何内容与第二个镜头相匹配。即使您第二次运行相同的提示,结果也会有所不同。“我们能做到的最接近的就是在提示中进行超描述,”帕特里克解释说。“解释角色的服装以及气球的类型是我们保持一致性的方法,因为从一个镜头到另一个镜头/一代又一代,还没有一套功能可以完全控制一致性。”

单个剪辑片段非常出色,其所代表的技术令人惊叹,但这些剪辑片段的使用取决于您对隐式或显式镜头生成的理解。假设您要求 SORA 拍摄一个厨房中的长跟踪镜头,桌子上放着一根香蕉。在这种情况下,它将依靠对“香蕉特性”的隐式理解来生成一段显示香蕉的视频。通过训练数据,它“学习”了香蕉特性的隐式方面:例如“黄色”、“弯曲”、“末端较暗”等。它没有实际记录的香蕉图像。它没有“香蕉库存库”数据库;它有一个小得多的压缩隐藏或“潜在空间”,以了解香蕉是什么。每次运行时,它都会显示对该潜在空间的另一种解释。您的提示回复了对香蕉特性的隐式理解。

过度联想的问题

对于《气球头》,场景是通过生成多个视频以形成一个近似的脚本,但没有明确的方法让实际的黄色气球头在各个镜头中保持一致。有时,当团队提示要一个黄色气球时,它甚至不是黄色的。其他时候,它里面嵌着一张脸,或者一张脸似乎画在气球的前面。由于许多气球都有绳子,因此气球头这个角色(绰号为 Sonny,气球人)通常会在角色衬衫的前面系一根绳子。因为它隐含地将绳子与气球联系起来,因此需要在后期将其移除。

Openai Sora-最新动态,加拿大电影制作公司 Shy Kids 害羞男孩 使用sora结合电影制作的体验分享(1)
来自原始 SORA 输出的气球上不受欢迎的脸。

遇到的部分问题

Air Head仅使用 SORA 生成的素材,但其中大部分都经过了分级、处理和稳定,并且全部都进行了升级或压缩。团队使用的剪辑以较低的分辨率生成,然后使用 SORA 或 OpenAI 之外的 AI 工具进行压缩。“您可以达到 720 P(分辨率),”Patrick 解释道。“我相信有一个 1080 功能,但需要一段时间(渲染)。我们以 480 的分辨率制作了Air Head的所有片段,以提高速度,然后使用Topaz进行直立处理。”

提示‘时间’:老虎机。
原始提示会自动展开,但也会沿着时间轴显示。“你可以进入那些较大的关键帧,并根据想要生成的变化开始调整信息。” Parick 解释说,“在实际生成过程中,这些不同的动作发生的位置有一点时间控制,但并不精确……这有点像在黑暗中射击——就像老虎机一样——至于它是否真的在此时完成这些事情。” 当然,Shy Kids 使用的是最早的原型,而 SORA 仍在不断开发中。

Openai Sora-最新动态,加拿大电影制作公司 Shy Kids 害羞男孩 使用sora结合电影制作的体验分享(2)

除了选择分辨率外,SORA 还允许用户选择宽高比,例如纵向或横向(或正方形)。这在从 Sonny 的牛仔裤向上平移到他的气球头的镜头中非常有用。不幸的是,SORA 无法原生渲染这样的动作,它总是希望镜头的主要焦点——气球头——出现在镜头中。因此,团队以纵向模式渲染了镜头,然后通过裁剪在后期手动创建了向上平移。

镜头的控制问题

对于许多 genAI 工具来说,有价值的信息来源是训练数据附带的元数据,例如相机元数据。例如,如果您使用静态照片进行训练,相机元数据将提供镜头大小、光圈和许多其他关键信息,供模型进行训练。对于电影镜头,“跟踪”、“平移”、“倾斜”或“推入”等概念都不是元数据所捕捉的术语或概念。物体永久性对于镜头制作至关重要,能够描述镜头也是如此,Patrick 指出,这最初并不是 SORA 所具备的。“九个不同的人对如何描述电影场景中的镜头会有九种不同的想法。而且,在接触艺术家使用该工具之前,(OpenAI)研究人员并没有真正像电影制作人那样思考。” Shy Kids 知道他们只能在很早的时候访问,但“关于摄像机角度的初始版本有点随机。” SORA 是否会真正记录提示请求或理解它尚不得而知,因为研究人员只是专注于图像生成。 Shy Kids 几乎对 OpenAI 对这一请求的惊讶程度感到震惊。“但我想,当你只是研究人员,而不考虑讲故事的人会如何使用它时…… SORA 正在改进,但我仍然认为控制还不够好。你可以输入‘摄像机摇摄’,我认为 10 次中有 6 次你会成功。”这不是一个独特的问题,几乎所有主要的视频 genAI 公司都面临着同样的问题。Runway AI可能是提供用于描述摄像机运动的 UI 方面最先进的,但 Runway 的质量和渲染剪辑的长度不如 SORA。

渲染时间的问题

片段可以按不同的时间段进行渲染,例如 3 秒、5 秒、10 秒、20 秒,最长可达 1 分钟。渲染时间因一天中的不同时间和云使用需求而异。“一般来说,每次渲染大约需要 10 到 20 分钟,”Patrick 回忆道。“根据我的经验,我选择的渲染时长对渲染时间的影响很小。如果渲染时间为 3 到 20 秒,则渲染时间在 10 到 20 分钟之间不会有太大差异。我们通常会这样做,因为如果您有完整的 20 秒,您希望有更多机会进行剪切/编辑,从而增加获得好看内容的机会。”

细节问题很多

虽然所有图像都是在 SORA 中生成的,但气球仍需要大量的后期工作。除了隔离气球以便重新着色之外,气球上有时会出现 Sonny 的脸,就好像他的脸是用记号笔画上去的一样,而这会在 AfterEffects 中被删除。其他类似的瑕疵也经常被删除。

Openai Sora-最新动态,加拿大电影制作公司 Shy Kids 害羞男孩 使用sora结合电影制作的体验分享(3)

Openai Sora-最新动态,加拿大电影制作公司 Shy Kids 害羞男孩 使用sora结合电影制作的体验分享(4)

300:1 拍摄比例

Shy Kids 的方法是像纪录片一样进行后期制作和剪辑,有大量镜头,你可以从这些素材中编织出一个故事,而不是严格按照剧本拍摄。这部短片有一个剧本,但团队需要灵活应对。“就是拍一大堆镜头,然后试着以一种有趣的方式剪辑成配音,”帕特里克回忆道。

对于最终出现在电影中的一分半钟镜头,帕特里克估计他们“生成了数百代,每代 10 到 20 秒”。他补充说:“我的数学不好,但我猜原始素材和最终成品的比例大概是 300:1。”

慢镜头时间统一

在《Air Head》中,团队没有将多个镜头合成在一起。例如,气球飘过赛车场的镜头几乎和我们看到的一样,都是在一个镜头中生成的。不过,他们正在制作一部新电影,将多个镜头混合并合成为一个剪辑。

有趣的是,许多Air Head剪辑都像是慢动作拍摄的,而提示中并没有要求这样做。这种情况发生的原因不明,因此许多剪辑必须重新计时,才能看起来像是实时拍摄的。显然,这比减慢快速动作的反向操作更容易做到,但从训练数据中推断出这一点似乎有点奇怪。“我不知道为什么,但看起来确实有很多剪辑的速度是 50% 到 75%,”他补充道。“所以需要相当多的时间来调整时间,以免让人觉得这是一个大型的慢动作项目。”

光效的处理

Shy Kids 在他们的提示中使用了“ 35 毫米胶片”一词作为关键词,并且发现提示35 毫米给出了他们寻求的一致性水平。“如果我们需要高对比度,我们可以说高对比度,并且说主光通常会给我们提供接近的效果,”帕特里克说。“我们仍然必须对其进行全色彩分级,并且我们制作了自己的数字电影外观,我们应用了颗粒和闪烁来将它们融合在一起。”没有其他选项,例如遮罩或深度通道。

关于版权和实际需要

OpenAI 试图保持尊重,不允许生成侵犯版权的材料或生成看似来自他人的图像。例如,如果你提示未来太空飞船中的 35 毫米胶片,一个男人拿着光剑向前走,  SORA 将不允许生成剪辑,因为它太接近星球大战。但 Shy Kids 在早期测试中意外遇到了这个问题。帕特里克回忆说,当他们最初坐下来只是想测试 SORA 时,“我们有一个角色背后的镜头;这有点像阿罗诺夫斯基的追拍镜头。我想那只是我的大脑愚蠢,因为我很累,但我把‘阿罗诺夫斯基式的镜头’放进去,结果被拒绝了, ”他回忆道。希区柯克变焦是另一个现在通过渗透(一个技术术语)出现的东西,但 SORA 会出于版权原因拒绝该提示。

配音的问题

Shy Kids 不仅以出色的视觉技巧而闻名,还以出色的音频技巧而闻名。短片中的音乐是他们自己的。“这是我们以前曲目中的一首歌,我们几乎立刻就决定选用它,因为这首歌叫做《风》, ”帕特里克说。“我们都很喜欢它。”

帕特里克本人就是桑尼的配音演员。“有时我们会觉得电影的节奏需要另一个节拍。所以我会写另一句台词,录制下来,并想出更多的 SORA 代,这是后期制作中该工具的另一个强大用途:当你陷入困境,需要填补空白时,这是一种很好的开始集思广益的方法,只需吐出剪辑,看看你可以用什么来填补节奏问题。”

经验总结

SORA 非常出色;Shy Kids 团队仅用 3 个人在 1.5 到 2 周左右的时间就制作出了Air Head。该团队已经开始着手制作一部精彩、自我意识强、甚至可能具有讽刺意味的续集。“续集将以新闻的方式讲述气球人桑尼,以及他对名声和随后与世界的失和的反应,”帕特里克说。“我们正在探索新技术!”该团队希望在实验中更加技术化,将 SORA 元素的 AE 合成融入真实的实景镜头中,并使用 SORA 作为补充 VFX 工具。

SORA 非常新,OpenAI 为 SORA 勾勒和演示的基本框架也尚未用于早期测试。SORA 目前的形式是否会很快发布尚不确定,但它在特定类型的隐式图像生成方面取得了令人难以置信的进步。对于高端项目,可能还需要一段时间才能达到导演所需的具体程度。对于许多其他项目来说,它将不仅仅是“足够接近”,同时还能提供令人惊叹的图像。Air Head仍然需要大量的编辑和人工指导来制作这部引人入胜且有趣的故事电影。“我只是觉得人们必须将 SORA 作为他们流程中真实的一部分;但是,如果他们不想参与任何类似的事情,那也没关系。”

  • 联系我们
  • 邮箱:1992608358#qq.com(请把#改成@)
  • 微信:mianfeixueai
  • QQ客服 1992608358
  • 工作时间:周一至周五(早上9点至下午5点)
  • 微信公众平台

  • 扫描访问手机版

QQ|NIUBOYI ( 京ICP备17025393号 )|网站地图

GMT+8, 2024-12-4 08:17 , Processed in 0.046116 second(s), 40 queries .

POWERED BY NIUBOYIAI! 主理人:NIUBOYIAI  点亮哥

Copyright © 2001-2020, NIUBOYI AI.