论文阅读:通过时空生成卷积网络合成动态模式(重点论文)

2024-01-03 18:49:38

原文链接
github code
介绍视频
视频序列包含丰富的动态模式,例如在时域中表现出平稳性的动态纹理模式,以及在空间或时域中表现出非平稳的动作模式。 我们证明了时空生成卷积网络可用于建模和合成动态模式。 该模型定义了视频序列上的概率分布,对数概率由时空ConvNet定义,该网络由多层时空滤波器组成,用于捕获不同尺度的时空模式。 该模型可以通过迭代以下两个步骤的“综合分析”学习算法从训练视频序列中学习。 步骤 1 从当前学习的模型合成视频序列。 步骤 2 然后根据合成视频序列和观察到的训练序列之间的差异更新模型参数。 我们证明了学习算法可以合成真实的动态模式。

1. Introduction

视频序列中有各种各样的动态模式,包括在时间维度上表现出统计平稳性或随机重复性的动态纹理 [2] 或纹理运动 [24],以及在空间或时间域中非平稳的动作模式 。 综合和分析这种动态模式一直是一个有趣的问题。 在本文中,我们重点关注使用生成版本的卷积神经网络(ConvNet 或 CNN)合成动态模式的任务。

ConvNet [14, 12] 已被证明是一种非常成功的判别学习机器。 ConvNet 中的卷积运算特别适合图像、视频和声音等在空间域或时间域或两者中表现出平移不变性的信号。 最近,研究人员对ConvNet的生成方面越来越感兴趣,目的是可视化ConvNet学到的知识,或者合成现实信号,或者开发可用于无监督学习的生成模型。

在合成方面,人们提出了各种基于ConvNet的方法来合成逼真的静态图像[3,7,1,13,16]。 然而,文献中关于基于ConvNet合成动态模式的工作并不多,这也是本文的重点。

具体来说,我们建议通过推广[29]最近提出的生成式ConvNet模型来合成动态模式。 生成式ConvNet 可以从判别式ConvNet 推导出来。 它是一个随机场模型或基于能量的模型[15, 20],采用参考分布的指数倾斜形式,例如高斯白噪声分布或均匀分布。 指数倾斜由 ConvNet 参数化,该网络涉及多层线性滤波器和修正线性单元 (ReLU) [12],旨在捕获不同尺度的特征或模式。

生成式ConvNet可以通过Langevin动力学进行采样。 该模型可以通过随机梯度算法来学习[31]。 这是一种“综合分析”方案,旨在将朗之万动力学生成的合成信号与观察到的训练信号相匹配。 具体来说,学习算法在初始化参数和合成信号后迭代以下两个步骤。 步骤 1 通过从当前学习模型中采样的 Langevin 动力学更新合成信号。 然后,步骤 2 根据合成数据和观测数据之间的差异更新参数,以便将模型的密度从合成数据转向观测数据。 [29]表明学习算法可以合成真实的空间图像模式,例如纹理和物体。

在本文中,我们通过添加时间维度来概括空间生成式 ConvNet,以便生成的 ConvNet 由多层时空滤波器组成,这些滤波器旨在捕获各种尺度的时空模式。 我们证明了用于训练时空生成卷积网络的学习算法可以合成真实的动态模式。 我们还表明,可以从具有遮挡像素或丢失帧的不完整视频序列中学习模型,从而可以同时完成模型学习和模式完成.

2.相关工作

我们的工作是通过添加时间维度对[29]的生成ConvNet模型进行推广。 [29]没有研究动态模式,例如视频序列中的动态模式。 [11] 使用时空判别式 ConvNet 来分析视频数据。 [29] 研究了判别式 ConvNet 和生成式 ConvNet 之间的联系。

[2,24,25,9]已经研究了动态纹理或纹理运动。 例如,[2]提出了一种向量自回归模型,并通过单值分解进行逐帧降维。 它是具有高斯创新的线性模型。 [24]提出了一种基于帧稀疏线性表示的动态模型。 有关动态纹理的最新评论,请参阅[30]。 时空生成ConvNet是一种非线性和非高斯模型,预计可以通过多层非线性时空滤波器更灵活地捕获动态纹理中的复杂时空模式。

最近[23]推广了生成对抗网络[6]来模拟动态模式。 我们的模型是一个基于能量的模型,它也有对抗性的解释。 详细信息请参见第 3.4 节。

对于时态数据,流行的模型是循环神经网络 [27, 10]。 它是一个因果模型,需要一个起始框架。 相比之下,我们的模型是非因果的,并且不需要起始框架。 与循环网络相比,我们的模型在捕获多个时间尺度的时间模式方面更加方便和直接。

3. Spatial-temporal generative ConvNet

3.3. Sampling and learning algorith

该期望可以通过朗之万动力学产生的蒙特卡罗样本[31]来近似。 有关学习和采样算法的说明,请参阅算法 1。 该算法不断从当前模型合成图像序列,并更新模型参数,以便将合成的图像序列与观察到的图像序列进行匹配。 学习算法不断将模型的概率密度或低能量区域从合成数据转向观察数据
在这里插入图片描述

在学习算法中,朗之万采样步骤涉及?f(I;w)/?I的计算,参数更新步骤涉及?f(I;w)/?w的计算。 由于f(I; w)的ConvNet结构,两个梯度都可以通过反向传播来有效计算,并且两个梯度在反向传播中共享大部分链式规则计算。 就 MCMC 采样而言,朗之万动力学从不断变化的分布中采样,因为 w (t) 不断变化。 因此,学习和采样算法运行非平稳链。

4.实验

可看 http://www.stat.ucla.edu/~jxie/STGConvNet/STGConvNet.html

文章来源:https://blog.csdn.net/ygf666/article/details/135368178
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。