Diffusion as Shader: 3D-aware Video Diffusion for Versatile Video Generation Control
Diffusion 模型在从文本提示或图像生成高质量视频方面表现出令人印象深刻的性能。然而,对视频生成过程(例如摄像机操作或内容编辑)的精确控制仍然是一项重大挑战。现有的受控视频生成方法通常仅限于单一控制类型,缺乏处理不同控制需求的灵活性。在本文中,我们介绍了 Diffusion as Shader (DaS),这是一种在统一架构中支持多个视频控制任务的新方法。我们的主要见解是,实现多功能视频控制需要利用 3D 控制信号,因为视频从根本上说是动态 3D 内容的 2D 渲染。与以前仅限于 2D 控制信号的方法不同,DaS 利用 3D 跟踪视频作为控制输入,使视频扩散过程本身具有 3D 感知能力。 这项创新使 DaS 能够通过简单地操作 3D 跟踪视频来实现广泛的视频控制。使用 3D 跟踪视频的另一个优势是它们能够有效地链接帧,从而显著增强生成视频的时间一致性。在 8 个 H800 GPU 上使用不到 10k 的视频仅进行了 3 天的微调,DaS 在各种任务中展示了强大的控制能力,包括网格到视频的生成、摄像机控制、运动传输和对象操作。原文链接:https://igl-hkust.github.io/das/researchflow链接:https://rflow.ai/flow/4dc50996-afcc-403d-9eb3-74412f896108 推荐阅读 — END —1. The theory of LLMs|朱泽园ICML演讲整理