【论文笔记】Scene Reconstruction From 4D Radar Data with GAN and Diffusion

2023-12-15 16:36:35

原文链接：https://kth.diva-portal.org/smash/get/diva2:1799731/FULLTEXT01.pdf

1. 引言

本文使用深度生成模型（DGM）实现以4D雷达为条件的图像生成，以提供雷达数据的另一可视化方法并增强可解释性。

实验中的雷达和RGB相机固定在路面上方并经过时空同步。雷达和图像的数据对会作为网络的训练数据。网络使用深度生成模型将雷达数据转化为RGB图像。

1.2 问题

给定路面的雷达数据 $c\in\mathcal{C}$ ，训练生成模型 $p (x ∣ c)$ 生成高质量视频帧，以增强视觉表达和可解释性。数据包括与雷达时空同步的视频帧 $x\in\mathcal{X}$ ，其与雷达数据组成数据对 $(x,c)\in\mathcal{X}\times\mathcal{C}$ 。背景为静态的，数据主要的变化为路面上的运动和环境的改变。

生成模型本质上是对先验的简单概率分布（如高斯分布）到训练数据的经验分布的转化进行建模。

1.4 目标

本文的目标有二：

使用雷达数据作为条件变量生成视频帧。
比较分析GAN和扩散模型在4D雷达数据上的优缺点。

2. 背景

2.2 深度生成模型

DGM的主要目标是生成捕获了训练数据中重要特征的新数据。设训练集中的图像 $x\in\mathcal{X}$ ，将其视为数据各维度联合概率分布 $p(x_1,\cdots,x_N)=p(x)$ 的一个样本（例如，对 $H\times W$ 大小的RGB图像，数据维度 $N = 3 H W$ ）。

从 $p (x)$ 中生成新样本的方法如下：首先从简单的参数化分布（如高斯分布 $z\sim\mathcal{N}(\mu,\sigma^2)$ ）中采样 $z$ ，然后学习变换 $x^{'} = f (z)$ 使得 $x'\sim p(x)$ 。DGM就是通过数据和深度神经网络结构学习 $z$ 到 $x$ 的高维映射，以估计 $p (x)$ 。目前的DGM包括：变分自编码器（VAE）、生成对抗网络（GAN）、正则化流（NF）和扩散模型。目前扩散模型已超过GAN成为SotA。

各DGM的简单比较见3.2节。

有时候我们希望模型生成某一条件 $c$ 下的新数据。此时需要建模对协变量的相关性，以获得形式为 $p (x ∣ c)$ 的条件生成模型。在判别模型中类似的形式为 $p (y ∣ x)$ ，其中 $x$ 为输入， $y$ 为输出（其中只有1个正确值）。生成模型与判别模型的区别在于正确输出可能不只一个，且其目标为将输出分布匹配目标分布。因此，生成模型的评估更加困难。

2.2.1 生成对抗网络

GAN包含两个子模型，生成器G和判别器D。G的目标是生成与真实数据不可区分的样本，D的目标则是判断真假样本。生成器隐式地定义 $d$ 维数据 $x$ 上的分布 $p_G$ ，学习映射 $G(z,\theta_G)$ （ $\theta_G$ 表示网络参数）将先验分布 $p_z(z)$ 映射到数据空间。判别器 $D(x,\theta_D)$ 则将 $d$ 维样本映射为标量，即样本 $x$ 来自真实数据分布的概率。

训练阶段，G与D相互竞争。在训练的一个步骤中，首先会更新D的参数，使得D的犯错概率最小化；然后更新G的参数，使得D的犯错概率最大化。训练目标如下所示：
$\mathcal{L}_\text{GAN}=\mathbb{E}_{y\sim p_{data}(x)}[\log D(y)]+\mathbb{E}_{z\sim p(z)}[\log(1-D(G(z)))]$

2.2.2 扩散模型

扩散模型通过将逐步加噪过程逆转来从分布中采样。采样从噪声 $x_T$ 开始，逐步生成噪声更少的样本 $x_{T-1},x_{T-2},\cdots$ 直到最终样本 $x_0$ 。

设 $x_0$ 为数据集样本， $x_{0:T}$ 为逐步为其添加高斯噪声的序列。可得马尔科夫链：
$q(x_{1:T}|x_0)=\prod_{t=1}^Tq(x_t|x_{t-1})\\ q(x_t|x_{t-1})=\mathcal{N}(x_t;\sqrt{1-\beta_t}x_{t-1},\beta_tI)$
其中 $\beta_1,\cdots,\beta_T$ 根据variance schedule给定。上式称为前向过程或扩散过程。采样的 $x_t$ 以 $x_{t-1}$ 为条件，且维度与数据 $x_0\sim q(x_0)$ 相同。联合分布 $p_\theta(x_{0:T})$ （称为反向过程）定义为带参数化高斯转移的马尔科夫链：
$p_\theta(x_{0:T})=p(x_T)\prod_{t=1}^{T}p_\theta(x_{t-1}|x_t)\\ p_\theta(x_{t-1}|x_t)\sim\mathcal{N}(x_{t-1};\mu_\theta(x_t,t),\Sigma_\theta(x_t,t))\\ p(x_T)\sim\mathcal{N}(x_T;0,I)$
目标是调整 $\theta$ 使得可从高斯噪声 $x_T$ 通过反向过程逐步转换到 $x_0$ ，使得 $x_0\sim q(x_0)$ 。

训练目标是优化基于负对数似然变分界的损失函数
$\mathbb{E}[-\log p_\theta(x_0)]\leq\mathbb{E}_q[-\log\frac{p_\theta(x_{0:T})}{q(x_{1:T}|x_0)}]=\mathbb{E}_q[-\log p_\theta(x_T)-\sum_{t\geq1}\log\frac{p_\theta(x_{t-1}|x_t)}{q(x_t|x_{t-1})}]=:L=L_T+L_{T-1}+\cdots+L_0$
其中
$L_0=-\log p_\theta(x_0|x_1)\\ L_{t-1}=D_{KL}(q(x_{t-1}|x_t,x_0)\|p_\theta(x_{t-1}|x_t)),2\leq t\leq T$
其中 $D_{KL}(q\|p)$ 为KL散度，衡量 $q$ 与 $p$ 差异性。

令 $\alpha_t=1-\beta_t,\bar{\alpha_t}=\prod_{i=1}^t\alpha_i$ ，前向过程中以 $x_0$ 为条件采样 $x_t$ 的情况与下式相近：
$q(x_t|x_0)\sim\mathcal{N}(x_t;\sqrt{\bar{\alpha}_t}x_0,(1-\bar{\alpha}_t)I)$
这种重参数化的结果是，无需计算完整的 $L$ ，且以 $x_0$ 为条件时，前向过程的后验（均值 $\tilde{\mu}_t$ 和方差 $\tilde{\beta}_t$ ）是可处理的：
$\tilde{\mu}_t(x_t,x_0)=\frac{\sqrt{\bar{\alpha}_{t-1}}\beta_t}{1-\bar{\alpha}_t}x_0+\frac{\sqrt{\alpha_t}(1-\bar{\alpha}_{t-1})}{1-\bar{\alpha}_t}x_t\\ \tilde{\beta}_t=\frac{1-\bar{\alpha}_{t-1}}{1-\bar{\alpha}_t}\beta_t$
前向过程的方差可学习得到或作为超参数在训练过程中保持不变。当不学习方差时，可设置 $\Sigma_\theta(x_t,t)=\sigma_t^2I$ ，使得 $p_\theta(x_{t-1}|x_t)\sim\mathcal{N}(x_{t-1};\mu_\theta(x_t,t),\sigma_t^2I)$ 。这样，
$L_{t-1}=\mathbb{E}_q[\frac{1}{2\sigma^2_t}\|\tilde{\mu}_t(x_t,x_0)-\mu_\theta(x_t,t)\|^2]+C$
其中 $C$ 为与 $\theta$ 无关的常数。将 $\mu_\theta$ 参数化为模型，使其预测前向过程的后验均值 $\tilde{\mu}_t$ 。

注：上述损失函数和后验均值方差的详细推导过程见Diffusion model—扩散模型的4.1节。

可进一步重参数化 $x_t$ 与 $\mu_\theta$ 以获取简化的目标（预测每个步骤的噪声）：
$\mathbb{E}_{x_0,\epsilon}[\frac{\beta_t^2}{2\sigma_t^2\alpha_t(1-\bar{\alpha}_t)}\|\epsilon-\epsilon_\theta(\sqrt{\bar{\alpha}_t}x_0+\sqrt{1-\bar{\alpha}_t}\epsilon,t)\|^2]$

2.3 相关工作

2.3.1 条件GAN

条件生成对抗模型（cGAN）是在训练过程中整合条件信息的GAN。其中，生成器和判别器（或只有生成器）以辅助输入（如类别标签、文字描述、图像）为条件。生成器会学习到与真实数据相似且服从特定条件的样本生成方法。

条件GAN包括Pix2Pix（图像生成图像）、Points2Pix（激光雷达点云生成图像）。二者的损失函数均包括cGAN损失和L1损失（学习低频内容）：
$\mathcal{L}_\text{cGAN}(G,D)=\mathbb{E}_{x,y}[\log D(x,y)]+\mathbb{E}_{x,z}[\log(1-D(x,G(x,z)))]\\ \mathcal{L}_{L1}=\lambda\mathbb{E}[\|y-G(x,z)\|_1]$
其中 $y$ 为数据， $x$ 为条件， $z$ 为高斯噪声。

3. 方法

3.1 数据

3.1.1 数据收集和选择

所有数据有相似的背景，以通过固定背景设置来生成更平滑的视频。

3.1.2 预处理

4D雷达点云 ${x_i\}_{i=1}^N$ 包含空间坐标 $x, y, z$ 和额外维度 $x_\text{doppler},x_\text{range},x_\text{power}$ 。分别对空间维度和额外维度进行预处理。

3.1.2.1 空间维度

首先将点云变换到相机坐标系下，然后投影到图像平面上，得到图像表达 $x_{2D}$ 。

3.1.2.2 额外维度

将多普勒、距离和功率分别作为投影后点的RGB值，并缩放到 $[0, 255]$ 范围内。随后按照感兴趣区裁剪并下采样。最后将像素缩放到 $[? 1, 1]$ 内以提高网络稳定性和性能。

3.2 深度生成模型

几种DGM的比较：

VAE通过极大似然估计（MLE）学习密度 $p (x)$ 的下界，隐式表达维度小于数据，能快速采样，使用编码器-解码器结构（使用重参数化技巧）。
NF通过MLE学习精确的密度，隐式表达维度等于数据，采样速度慢，需要使用可逆神经网络。
GAN不支持密度估计，隐式表达维度低，采样速度快，但生成器-判别器结构会导致训练不稳定。
扩散模型通过MLE学习密度的下界，隐式表达维度等于数据，采样速度慢，使用编码器-解码器结构。
由于实际主要关注的是生成样本的质量（密度估计不是关键），本文选择GAN与扩散模型。

3.2.1 条件生成对抗模型

在这里插入图片描述
GAN的训练方案如上图所示。判别器每个图像预测是否为真（布尔值输出），其输出会用于损失计算，指导生成器G与判别器D的参数更新。经过训练，G会生成更加难以与真实数据区分的样本，而D的判断能力会逐渐增强。

损失函数包含2.3.1节中的L1项。对于cGAN损失，判别器使用二元交叉熵（BCE）损失：
$\text{BCE}(\hat{y}_n,y_n)=y_n\log(\hat{y}_n)+(1-y_n)\log(1-\hat{y}_n)$
D的目标是精确判断图像真假（ $\hat{y}_n=y_n$ ），G的目标是使 $D$ 进行错误预测（ $\hat{y}_n\neq y_n$ ）。

训练算法如下：
在这里插入图片描述

3.2.1.1 实施

与Pix2Pix不同，本文不使用dropout，而改为为投影点云拼接高斯噪声；使用Attention U-Net作为生成器，如下图所示。U-Net的解码部分使用注意力，其中残差特征图为键，上采样特征图为查询。对抗网络使用PatchGAN判别器，将图像视为一组独立patch进行真假判段。
在这里插入图片描述

3.2.2 条件扩散模型

由2.2.2节可知，扩散模型的逆过程可由条件高斯表达：
$p_\theta(x_{t-1}|x_t)\sim\mathcal{N}(x_{t-1};\mu_\theta(x_t,t),\Sigma_\theta(x_t,t))$
由于方差学习不会明显改善采样质量，本文将方差固定为 $\beta_t$ ，并预测 $\mu_\theta(x_t,t)$ 。

将 $q(x_t|x_0)\sim\mathcal{N}(x_t;\sqrt{\bar{\alpha}_t}x_0,(1-\bar{\alpha}_t)I)$ 重参数化为
$x_t(x_0,\epsilon)=\sqrt{\bar{\alpha}_t}x_0+\sqrt{1-\bar{\alpha}_t}\epsilon,\epsilon\sim\mathcal{N}(0,I)$

将上式中的 $x_0$ 代入2.2.2节中 $\mu_\theta(x_t,t)$ 的表达式，可得
$\mu_\theta(x_t,t)=\frac{1}{\sqrt{\alpha_t}}(x_t-\frac{\beta_t}{\sqrt{1-\bar{\alpha}_t}}\epsilon)$

因此，可改为预测 $\epsilon$ 以满足：
$\mu_\theta(x_t,t)=\frac{1}{\sqrt{\alpha_t}}(x_t-\frac{\beta_t}{\sqrt{1-\bar{\alpha}_t}}\epsilon_\theta(x_t,t))$
其中 $\epsilon_\theta(x_t,t)$ 为神经网络 $G_\theta(x_t,t)$ 预测的噪声。这样，给定带噪声图像，可根据 $x_{t-1}\sim p_\theta(x_{t-1}|x_t)$ 采样：
$x_{t-1}=\frac{1}{\sqrt{\alpha_t}}(x_t-\frac{\beta_t}{\sqrt{1-\bar{\alpha}_t}}\epsilon_\theta(x_t,t))+\sqrt{\beta_t}z,z\sim\mathcal{N}(0,I)$

实际中，需要将预测噪声加以条件，即 $\epsilon_\theta(c,x_t,t)=G_\theta(c,x_t,t)$ 。这通过投影点云的拼接实现。完整的采样过程如下：
在这里插入图片描述
训练算法如下：

由于对采样质量有利，本文使用简化的噪声预测优化目标：
$L_{t-1}=\mathbb{E}_{x_0,\epsilon}[\frac{\beta_t^2}{2\sigma_t^2\alpha_t(1-\bar{\alpha}_t)}\|\epsilon-\epsilon_\theta(c,\sqrt{\bar{\alpha}_t}x_0+\sqrt{1-\bar{\alpha}_t}\epsilon,t)\|^2]$

对 $\bar{\alpha}_t$ 使用余弦调度：
$\bar{\alpha}_t=\frac{f(t)}{f(0)},f(t)=\cos(\frac{t/T+s}{1+s}\cdot\frac{\pi}{2})^2$

3.2.2.1 实施

本文使用的网络类似2.1.1.1节的GAN生成器。网络的输入为6通道，其中3通道为条件，3通道为上一步输出的带噪声的图像；输出为3通道图像。网络使用时间步长的正弦位置编码，在各时间步长下共享权重。

3.2.3 混合方法：以GAN为条件的扩散

在评估过程中，发现使用扩散的条件采样遇到了一些挑战。为避免之，本文提出混合方法，通过使用与迭代隐变量细化类似的条件扩散方法，组合训练好的GAN与扩散模型。将扩散模型的输入由高斯噪声改为GAN生成的带噪声图像（记为 $x_\text{GAN}$ ），按下式加噪后，使用更少的时间步长去噪：
$x_t(x_\text{GAN},\epsilon)=\sqrt{\bar{\alpha}_t}x_\text{GAN}+\sqrt{1-\bar{\alpha}_t}\epsilon,\epsilon\sim\mathcal{N}(0,I)$

采样过程与算法2类似，如下所示：
在这里插入图片描述

3.3 训练过程

确定训练的停止点是很困难的。除了监控训练损失外，还使用主观评估的方法判断过拟合现象（因为雷达数据不能反映颜色信息，故当生成车辆的颜色十分精确时，就可能达到了过拟合）。

4. 结果与分析

4.1 评估框架

4.1.1 定性评估

定性评估为主要评估方法，即进行生成视频与真实视频的主观比较。这是因为本文的目的是生成真实的视频。

4.1.2 定量评估

由于定性评估的主观性，还引入定量评估。包含生成帧与真实帧的均方误差（MSE）和目标检测指标。前者用于衡量与生成帧与真实帧的相似性，后者用于指示模型生成真实物体的能力。

4.1.2.1 均方误差

由于雷达不含颜色信息，故将生成帧与真实帧灰度化后计算MSE。

4.1.2.2 目标检测

分别对真实帧和生成帧进行目标检测后，比较相关类别物体的出现情况。使用在COCO数据集上预训练的YOLOv5进行目标检测。只考虑汽车、卡车和公交车三类输出，且考虑两种评估：完整图像和RoI裁剪图像。使用后者是因为当背景区域存在停放车辆时，会因为生成背景的能力而影响前景物体的生成评估。

4.2 定性评价

扩散模型生成的图像比GAN更加真实。扩散模型在背景生成（如停放的汽车）方面更好，而GAN相对比较平均。但某些情况下，扩散模型会生成不完整的图像，或是完全丢失一些明显实例。此外，采样的随机性也使得扩散模型在同一条件下进行逆过程时，可能成功也可能失败。

由于数据集中最常见的车辆为乘用车，GAN与扩散模型可能会错误地偏好性地生成该类车辆。

GAN能通过调节输入点云，更容易地控制生成过程。使用混合方法，通过GAN的输出引导扩散过程，能生成看上去更好的图像。

4.3 定量评价

4.3.1 均方误差

比起扩散模型，GAN生成的图像有更低的MSE。混合模型的MSE则更低。

4.3.2 目标检测

完整图像中，目标检测数量误差最小的为扩散模型；但对于不考虑停放车辆的RoI裁剪图像来说，GAN的性能更优。混合方法在RoI的性能最优。

4.4 分析

4.4.1 训练过程

4.4.1.1 GAN

GAN的训练过程存在一些不稳定性，即判别器损失会在某些无法预测的时刻出现瞬时的尖峰。此外，生成器的损失可能会突然增大。

4.4.1.2 扩散

由于扩散过程采样的耗时性，仅能在部分检查点进行评估。因此实际网络可能存在轻微过拟合。

4.4.2 性能

GAN有更高的控制和调节能力，但牺牲了一些图像质量；能精确表达RoI内的物体，这表明GAN有利用条件点云生成可识别物体的能力。GAN生成一帧图像的耗时为几十毫秒。

扩散模型能生成更高质量的背景元素，但有时会忽略条件点云，无法生成完整和精确的物体。生成一帧图像的耗时为几十秒。

混合方法在定量指标和视觉效果上均更高。增加采样步长能进一步提高生成质量，但也会提高计算时间，也会与真值产生更大的偏差。

4.5 讨论

混合模型整合了GAN精确表达物体的能力和扩散模型生成高质量图像的能力。

使用其余结构的GAN和扩散模型、不同的条件机制或训练策略，可能会有更好的效果。

4.6 局限性

主要局限性在于生成物体的多样性较低，多数物体会被生成为乘用车。这是因为数据集的多样性较低。另一问题在于图像和雷达的空间对齐上，其中图像中心的对齐比角落的对齐更精确，这可能是导致扩散模型有时候会忽略条件点云的原因。

文章来源:https://blog.csdn.net/weixin_45657478/article/details/134820485
本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若内容造成侵权/违法违规/事实不符，请联系我的编程经验分享网邮箱：veading@qq.com进行投诉反馈，一经查实，立即删除！