奥斯卡大赢家影片：《瞬息全宇宙》背后的AI技术揭秘

数据派THU | 2023-03-19 10:41:39 阅读：751

Runway 是一家人工智能视频编辑软件供应商。据了解，本届奥斯卡最大赢家影片《瞬息全宇宙》制作过程中采用了这家公司的技术。
关键词：瞬息全宇宙 Runway Gen-1

北京时间 3 月 13 日上午，2023 年奥斯卡颁奖礼在洛杉矶举行，影片《瞬息全宇宙》一举斩获七项大奖，成为最大赢家。主演杨紫琼也凭借该片将奥斯卡最佳女主角奖收入囊中，成为奥斯卡历史上首位华裔影后。
杨紫琼奥斯卡封后，图源网络

据了解，这部正在被热议的科幻电影背后的视觉效果团队仅有 5 人，为了尽快完成这些特效镜头，他们选择了 Runway 公司的技术来帮助创建某些场景，比如为图像去除背景的绿幕工具 (The Green Screen)。
「仅仅几次点击就让我节省几个小时，我可以用这些时间尝试三四种不同的效果，让影片效果更好。」导演兼编剧 Evan Halleck 受访时谈道。
手指进化成热狗宇宙，图源网络

Runway：参与初代Stable Diffusion开发
2018 年底，Cristóbal Valenzuela 联合其他成员创立 Runway。它是一家人工智能视频编辑软件提供商，致力于利用计算机图形学及机器学习的最新进展，为设计师、艺术家和开发人员降低内容创作的门槛、推动创意内容的发展。
据 Forbes 报道，该公司年收入将近 500 万美元，员工仅 40 人左右
2023 年 2 月 6 日，Runway 官方推特发布 Gen-1 模型，可以通过应用文本提示或者参考图像所指定的任意风格，将现有视频转换为新视频。
Runway Twitter 官宣 Gen-1

Gen-1：structure + content 双管齐下
科研人员提出了一个结构 (structure) 和内容 (content) 引导的 video diffusion model--Gen-1，可以依据预期输出的视觉或文本描述，对视频进行编辑。
Gen-1 模型原理展示
所谓 content，是指描述视频的外表 (appearance) 和语义的特征，如目标物体的颜色、风格以及场景的灯光。
而 structure 则是指描述其几何和动态的特征，如目标物体的形状、位置以及时间变化。
Gen-1 模型的目标是在保留视频 structure 的同时，编辑视频 content。
在模型训练过程中，科研人员用到了一个由未加字幕的视频及 text-image pair 构成的大规模数据集，同时，用单目场景深度预测 (monocular depth estimates) 来表示 structure，用预训练神经网络预测的 embedding 来表示 content。
该方法在生成过程中提供了几种强大的控制模式：
1. 参考图像合成模型，训练模型使得推理的视频 content（如呈现或风格）与用户提供的 image 或 prompt 相匹配。

Guided Video Synthesis 示例

在保留输入视频（中间）structure 的同时

基于文本提示或图像合成的视频（上及下）

2. 参考 diffusion 过程，对结构表征 (structure representation) 进行 information obscuring，这使得开发者可以自行设定 model adhere 对于给定 structure 的相似程度。
3. 参考 classifier-free guidance，借助自定义 guidance 方法，调整推理过程，从而控制生成 clip 的时间一致性。
在该实验中，科研人员：

通过在预训练的图像模型中引入 temporal layer，并对图像和视频进行联合训练，将 latent diffusion model 扩展到视频生成中。
提出了一个 structure 和 content-aware 模型，可以在示例图像或文本的指导下修改视频。视频编辑完全是在推理阶段进行的，无需逐个视频进行训练或预处理。
对 temporal、content 和 structure 一致性的完全控制。实验表明，在图像和视频数据上的联合训练，能够在推理期间上控制一致性 (temporal consistency)。对于结构一致性 (structure consistency)，在表征的不同细节水平上训练，使用户得以在推理过程中选择所需的设置。
一项用户调研表明，该方法比其他几种方法更受欢迎。
通过对一小部分图像进行微调，可以进一步定制训练过的模型，以生成更准确的特定 subject 的视频。

为了评估 Gen-1 的性能，科研人员用 DAVIS 数据集中的视频以及其他各种素材进行了评估。为了自动创建编辑 prompt，研究人员首先运行了一个 captioning 模型来获得原始视频内容的描述，然后使用 GPT3 生成编辑 prompt。

Gen-1 与其他模型生成效果的用户满意度对比
实验结果表明，在对所有方法生成效果的满意度调研中，75% 的用户更倾向 Gen-1 的生成效果。
AIGC：争议中前行

2022 年，生成式人工智能成为自十多年前移动和云计算兴起以来最引人注目的技术，我们正有幸见证其应用层的萌芽，许多大模型正迅速从实验室中走出来，扑向真实世界的各个场景。

然而，尽管有提高效率、节省成本等诸多好处，我们也需要看到，生成式人工智能依然面临多种挑战，包括如何提高模型的输出质量和多样性、如何提高其生成速度，以及应用过程中的安全、隐私和伦理宗教等问题。

有些人对 AI 艺术创作提出质疑，更有甚者认为这是一种 AI 对艺术的「入侵」，面对这种声音，Runway 联合创始人兼 CEO Cristóbal Valenzuela 认为，AI 只是工具箱中一个用来给图像等内容上色或修改的工具，与 Photoshop、LightRoom 并无二致。虽然生成式人工智能还存在一些争议，但它为非技术人员和创意人员打开了创作的大门，并将带领内容创作领域走向新的可能。

参考链接：[1]https://hub.baai.ac.cn/view/23940[2]https://cloud.tencent.com/developer/article/2227337

*博客内容为网友个人发布，仅代表博主个人观点，如有侵权请联系工作人员删除。