基于变压器的 W.A.L.T 方法实现跨模态超写实视频生成的最新突破

2023-12-13 07:00:23

一种基于变压器的方法——W.A.L.T可以生成逼真的视频。该方法有两个关键设计:

  • 首先,采用因果编码器,将图像和视频在一个统一的潜在空间内联合压缩,从而实现跨模态的训练和生成。这可以很好地利用图像丰富的样本来增强视频生成的效果。
  • 其次,为了提高记忆和训练效率,设计一个窗口注意力框架,专门用于联合空间和时空生成建模任务。窗口注意力机制可以有效抽取上下文信息,在保留时间顺序的同时提高计算效率。

通过这两个设计,在现有的视频(如UCF-101和Kinetics-600)和图像(如ImageNet)生成基准上实现了目前最好的效果,而没有使用分类器指导。

除此之外,他们训练了三个级联模型用于文本到视频生成任务,包括一个基本的潜在视频扩散模型和两个视频超分辨率扩散模型。这些模型可以以每秒8帧的速度生成512×896分辨率的视频。

文章来源:https://blog.csdn.net/heehelcom/article/details/134953037
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。