"); //-->
北京时间 3 月 13 日上午,2023 年奥斯卡颁奖礼在洛杉矶举行,影片《瞬息全宇宙》一举斩获七项大奖,成为最大赢家。主演杨紫琼也凭借该片将奥斯卡最佳女主角奖收入囊中,成为奥斯卡历史上首位华裔影后。
杨紫琼奥斯卡封后,图源网络
据了解,这部正在被热议的科幻电影背后的视觉效果团队仅有 5 人,为了尽快完成这些特效镜头,他们选择了 Runway 公司的技术来帮助创建某些场景,比如为图像去除背景的绿幕工具 (The Green Screen)。
「仅仅几次点击就让我节省几个小时,我可以用这些时间尝试三四种不同的效果,让影片效果更好。」导演兼编剧 Evan Halleck 受访时谈道。
手指进化成热狗宇宙,图源网络
Runway:参与初代Stable Diffusion开发
2018 年底,Cristóbal Valenzuela 联合其他成员创立 Runway。它是一家人工智能视频编辑软件提供商,致力于利用计算机图形学及机器学习的最新进展,为设计师、艺术家和开发人员降低内容创作的门槛、推动创意内容的发展。
据 Forbes 报道,该公司年收入将近 500 万美元,员工仅 40 人左右
2023 年 2 月 6 日,Runway 官方推特发布 Gen-1 模型,可以通过应用文本提示或者参考图像所指定的任意风格,将现有视频转换为新视频。
Runway Twitter 官宣 Gen-1
Gen-1:structure + content 双管齐下
科研人员提出了一个结构 (structure) 和内容 (content) 引导的 video diffusion model--Gen-1,可以依据预期输出的视觉或文本描述,对视频进行编辑。
Gen-1 模型原理展示
所谓 content,是指描述视频的外表 (appearance) 和语义的特征,如目标物体的颜色、风格以及场景的灯光。
而 structure 则是指描述其几何和动态的特征,如目标物体的形状、位置以及时间变化。
Gen-1 模型的目标是在保留视频 structure 的同时,编辑视频 content。
在模型训练过程中,科研人员用到了一个由未加字幕的视频及 text-image pair 构成的大规模数据集,同时,用单目场景深度预测 (monocular depth estimates) 来表示 structure,用预训练神经网络预测的 embedding 来表示 content。
该方法在生成过程中提供了几种强大的控制模式:
1. 参考图像合成模型,训练模型使得推理的视频 content(如呈现或风格)与用户提供的 image 或 prompt 相匹配。
Guided Video Synthesis 示例
在保留输入视频(中间)structure 的同时
基于文本提示或图像合成的视频(上及下)
2022 年,生成式人工智能成为自十多年前移动和云计算兴起以来最引人注目的技术,我们正有幸见证其应用层的萌芽,许多大模型正迅速从实验室中走出来,扑向真实世界的各个场景。
然而,尽管有提高效率、节省成本等诸多好处,我们也需要看到,生成式人工智能依然面临多种挑战,包括如何提高模型的输出质量和多样性、如何提高其生成速度,以及应用过程中的安全、隐私和伦理宗教等问题。
有些人对 AI 艺术创作提出质疑,更有甚者认为这是一种 AI 对艺术的「入侵」,面对这种声音,Runway 联合创始人兼 CEO Cristóbal Valenzuela 认为,AI 只是工具箱中一个用来给图像等内容上色或修改的工具,与 Photoshop、LightRoom 并无二致。虽然生成式人工智能还存在一些争议,但它为非技术人员和创意人员打开了创作的大门,并将带领内容创作领域走向新的可能。
*博客内容为网友个人发布,仅代表博主个人观点,如有侵权请联系工作人员删除。