【论文笔记】Scene Reconstruction From 4D Radar Data with GAN and Diffusion
原文链接:https://kth.diva-portal.org/smash/get/diva2:1799731/FULLTEXT01.pdf
1. 引言
本文使用深度生成模型(DGM)实现以4D雷达为条件的图像生成,以提供雷达数据的另一可视化方法并增强可解释性。
实验中的雷达和RGB相机固定在路面上方并经过时空同步。雷达和图像的数据对会作为网络的训练数据。网络使用深度生成模型将雷达数据转化为RGB图像。
1.2 问题
给定路面的雷达数据 c ∈ C c\in\mathcal{C} c∈C,训练生成模型 p ( x ∣ c ) p(x|c) p(x∣c)生成高质量视频帧,以增强视觉表达和可解释性。数据包括与雷达时空同步的视频帧 x ∈ X x\in\mathcal{X} x∈X,其与雷达数据组成数据对 ( x , c ) ∈ X × C (x,c)\in\mathcal{X}\times\mathcal{C} (x,c)∈X×C。背景为静态的,数据主要的变化为路面上的运动和环境的改变。
生成模型本质上是对 先验的简单概率分布(如高斯分布)到训练数据的经验分布的转化 进行建模。
1.4 目标
本文的目标有二:
- 使用雷达数据作为条件变量生成视频帧。
- 比较分析GAN和扩散模型在4D雷达数据上的优缺点。
2. 背景
2.2 深度生成模型
DGM的主要目标是生成捕获了训练数据中重要特征的新数据。设训练集中的图像 x ∈ X x\in\mathcal{X} x∈X,将其视为数据各维度联合概率分布 p ( x 1 , ? ? , x N ) = p ( x ) p(x_1,\cdots,x_N)=p(x) p(x1?,?,xN?)=p(x)的一个样本(例如,对 H × W H\times W H×W大小的RGB图像,数据维度 N = 3 H W N=3HW N=3HW)。
从 p ( x ) p(x) p(x)中生成新样本的方法如下:首先从简单的参数化分布(如高斯分布 z ~ N ( μ , σ 2 ) z\sim\mathcal{N}(\mu,\sigma^2) z~N(μ,σ2))中采样 z z z,然后学习变换 x ′ = f ( z ) x'=f(z) x′=f(z)使得 x ′ ~ p ( x ) x'\sim p(x) x′~p(x)。DGM就是通过数据和深度神经网络结构学习 z z z到 x x x的高维映射,以估计 p ( x ) p(x) p(x)。目前的DGM包括:变分自编码器(VAE)、生成对抗网络(GAN)、正则化流(NF)和扩散模型。目前扩散模型已超过GAN成为SotA。
各DGM的简单比较见3.2节。
有时候我们希望模型生成某一条件 c c c下的新数据。此时需要建模对协变量的相关性,以获得形式为 p ( x ∣ c ) p(x|c) p(x∣c)的条件生成模型。在判别模型中类似的形式为 p ( y ∣ x ) p(y|x) p(y∣x),其中 x x x为输入, y y y为输出(其中只有1个正确值)。生成模型与判别模型的区别在于正确输出可能不只一个,且其目标为将输出分布匹配目标分布。因此,生成模型的评估更加困难。
2.2.1 生成对抗网络
GAN包含两个子模型,生成器G和判别器D。G的目标是生成与真实数据不可区分的样本,D的目标则是判断真假样本。生成器隐式地定义 d d d维数据 x x x上的分布 p G p_G pG?,学习映射 G ( z , θ G ) G(z,\theta_G) G(z,θG?)( θ G \theta_G θG?表示网络参数)将先验分布 p z ( z ) p_z(z) pz?(z)映射到数据空间。判别器 D ( x , θ D ) D(x,\theta_D) D(x,θD?)则将 d d d维样本映射为标量,即样本 x x x来自真实数据分布的概率。
训练阶段,G与D相互竞争。在训练的一个步骤中,首先会更新D的参数,使得D的犯错概率最小化;然后更新G的参数,使得D的犯错概率最大化。训练目标如下所示:
L
GAN
=
E
y
~
p
d
a
t
a
(
x
)
[
log
?
D
(
y
)
]
+
E
z
~
p
(
z
)
[
log
?
(
1
?
D
(
G
(
z
)
)
)
]
\mathcal{L}_\text{GAN}=\mathbb{E}_{y\sim p_{data}(x)}[\log D(y)]+\mathbb{E}_{z\sim p(z)}[\log(1-D(G(z)))]
LGAN?=Ey~pdata?(x)?[logD(y)]+Ez~p(z)?[log(1?D(G(z)))]
2.2.2 扩散模型
扩散模型通过将逐步加噪过程逆转来从分布中采样。采样从噪声 x T x_T xT?开始,逐步生成噪声更少的样本 x T ? 1 , x T ? 2 , ? x_{T-1},x_{T-2},\cdots xT?1?,xT?2?,?直到最终样本 x 0 x_0 x0?。
设
x
0
x_0
x0?为数据集样本,
x
0
:
T
x_{0:T}
x0:T?为逐步为其添加高斯噪声的序列。可得马尔科夫链:
q
(
x
1
:
T
∣
x
0
)
=
∏
t
=
1
T
q
(
x
t
∣
x
t
?
1
)
q
(
x
t
∣
x
t
?
1
)
=
N
(
x
t
;
1
?
β
t
x
t
?
1
,
β
t
I
)
q(x_{1:T}|x_0)=\prod_{t=1}^Tq(x_t|x_{t-1})\\ q(x_t|x_{t-1})=\mathcal{N}(x_t;\sqrt{1-\beta_t}x_{t-1},\beta_tI)
q(x1:T?∣x0?)=t=1∏T?q(xt?∣xt?1?)q(xt?∣xt?1?)=N(xt?;1?βt??xt?1?,βt?I)
其中
β
1
,
?
?
,
β
T
\beta_1,\cdots,\beta_T
β1?,?,βT?根据variance schedule给定。上式称为前向过程或扩散过程。采样的
x
t
x_t
xt?以
x
t
?
1
x_{t-1}
xt?1?为条件,且维度与数据
x
0
~
q
(
x
0
)
x_0\sim q(x_0)
x0?~q(x0?)相同。联合分布
p
θ
(
x
0
:
T
)
p_\theta(x_{0:T})
pθ?(x0:T?)(称为反向过程)定义为带参数化高斯转移的马尔科夫链:
p
θ
(
x
0
:
T
)
=
p
(
x
T
)
∏
t
=
1
T
p
θ
(
x
t
?
1
∣
x
t
)
p
θ
(
x
t
?
1
∣
x
t
)
~
N
(
x
t
?
1
;
μ
θ
(
x
t
,
t
)
,
Σ
θ
(
x
t
,
t
)
)
p
(
x
T
)
~
N
(
x
T
;
0
,
I
)
p_\theta(x_{0:T})=p(x_T)\prod_{t=1}^{T}p_\theta(x_{t-1}|x_t)\\ p_\theta(x_{t-1}|x_t)\sim\mathcal{N}(x_{t-1};\mu_\theta(x_t,t),\Sigma_\theta(x_t,t))\\ p(x_T)\sim\mathcal{N}(x_T;0,I)
pθ?(x0:T?)=p(xT?)t=1∏T?pθ?(xt?1?∣xt?)pθ?(xt?1?∣xt?)~N(xt?1?;μθ?(xt?,t),Σθ?(xt?,t))p(xT?)~N(xT?;0,I)
目标是调整
θ
\theta
θ使得可从高斯噪声
x
T
x_T
xT?通过反向过程逐步转换到
x
0
x_0
x0?,使得
x
0
~
q
(
x
0
)
x_0\sim q(x_0)
x0?~q(x0?)。
训练目标是优化基于负对数似然变分界的损失函数
E
[
?
log
?
p
θ
(
x
0
)
]
≤
E
q
[
?
log
?
p
θ
(
x
0
:
T
)
q
(
x
1
:
T
∣
x
0
)
]
=
E
q
[
?
log
?
p
θ
(
x
T
)
?
∑
t
≥
1
log
?
p
θ
(
x
t
?
1
∣
x
t
)
q
(
x
t
∣
x
t
?
1
)
]
=
:
L
=
L
T
+
L
T
?
1
+
?
+
L
0
\mathbb{E}[-\log p_\theta(x_0)]\leq\mathbb{E}_q[-\log\frac{p_\theta(x_{0:T})}{q(x_{1:T}|x_0)}]=\mathbb{E}_q[-\log p_\theta(x_T)-\sum_{t\geq1}\log\frac{p_\theta(x_{t-1}|x_t)}{q(x_t|x_{t-1})}]=:L=L_T+L_{T-1}+\cdots+L_0
E[?logpθ?(x0?)]≤Eq?[?logq(x1:T?∣x0?)pθ?(x0:T?)?]=Eq?[?logpθ?(xT?)?t≥1∑?logq(xt?∣xt?1?)pθ?(xt?1?∣xt?)?]=:L=LT?+LT?1?+?+L0?
其中
L
0
=
?
log
?
p
θ
(
x
0
∣
x
1
)
L
t
?
1
=
D
K
L
(
q
(
x
t
?
1
∣
x
t
,
x
0
)
∥
p
θ
(
x
t
?
1
∣
x
t
)
)
,
2
≤
t
≤
T
L_0=-\log p_\theta(x_0|x_1)\\ L_{t-1}=D_{KL}(q(x_{t-1}|x_t,x_0)\|p_\theta(x_{t-1}|x_t)),2\leq t\leq T
L0?=?logpθ?(x0?∣x1?)Lt?1?=DKL?(q(xt?1?∣xt?,x0?)∥pθ?(xt?1?∣xt?)),2≤t≤T
其中
D
K
L
(
q
∥
p
)
D_{KL}(q\|p)
DKL?(q∥p)为KL散度,衡量
q
q
q与
p
p
p差异性。
令
α
t
=
1
?
β
t
,
α
t
ˉ
=
∏
i
=
1
t
α
i
\alpha_t=1-\beta_t,\bar{\alpha_t}=\prod_{i=1}^t\alpha_i
αt?=1?βt?,αt?ˉ?=∏i=1t?αi?,前向过程中以
x
0
x_0
x0?为条件采样
x
t
x_t
xt?的情况与下式相近:
q
(
x
t
∣
x
0
)
~
N
(
x
t
;
α
ˉ
t
x
0
,
(
1
?
α
ˉ
t
)
I
)
q(x_t|x_0)\sim\mathcal{N}(x_t;\sqrt{\bar{\alpha}_t}x_0,(1-\bar{\alpha}_t)I)
q(xt?∣x0?)~N(xt?;αˉt??x0?,(1?αˉt?)I)
这种重参数化的结果是,无需计算完整的
L
L
L,且以
x
0
x_0
x0?为条件时,前向过程的后验(均值
μ
~
t
\tilde{\mu}_t
μ~?t?和方差
β
~
t
\tilde{\beta}_t
β~?t?)是可处理的:
μ
~
t
(
x
t
,
x
0
)
=
α
ˉ
t
?
1
β
t
1
?
α
ˉ
t
x
0
+
α
t
(
1
?
α
ˉ
t
?
1
)
1
?
α
ˉ
t
x
t
β
~
t
=
1
?
α
ˉ
t
?
1
1
?
α
ˉ
t
β
t
\tilde{\mu}_t(x_t,x_0)=\frac{\sqrt{\bar{\alpha}_{t-1}}\beta_t}{1-\bar{\alpha}_t}x_0+\frac{\sqrt{\alpha_t}(1-\bar{\alpha}_{t-1})}{1-\bar{\alpha}_t}x_t\\ \tilde{\beta}_t=\frac{1-\bar{\alpha}_{t-1}}{1-\bar{\alpha}_t}\beta_t
μ~?t?(xt?,x0?)=1?αˉt?αˉt?1??βt??x0?+1?αˉt?αt??(1?αˉt?1?)?xt?β~?t?=1?αˉt?1?αˉt?1??βt?
前向过程的方差可学习得到或作为超参数在训练过程中保持不变。当不学习方差时,可设置
Σ
θ
(
x
t
,
t
)
=
σ
t
2
I
\Sigma_\theta(x_t,t)=\sigma_t^2I
Σθ?(xt?,t)=σt2?I,使得
p
θ
(
x
t
?
1
∣
x
t
)
~
N
(
x
t
?
1
;
μ
θ
(
x
t
,
t
)
,
σ
t
2
I
)
p_\theta(x_{t-1}|x_t)\sim\mathcal{N}(x_{t-1};\mu_\theta(x_t,t),\sigma_t^2I)
pθ?(xt?1?∣xt?)~N(xt?1?;μθ?(xt?,t),σt2?I)。这样,
L
t
?
1
=
E
q
[
1
2
σ
t
2
∥
μ
~
t
(
x
t
,
x
0
)
?
μ
θ
(
x
t
,
t
)
∥
2
]
+
C
L_{t-1}=\mathbb{E}_q[\frac{1}{2\sigma^2_t}\|\tilde{\mu}_t(x_t,x_0)-\mu_\theta(x_t,t)\|^2]+C
Lt?1?=Eq?[2σt2?1?∥μ~?t?(xt?,x0?)?μθ?(xt?,t)∥2]+C
其中
C
C
C为与
θ
\theta
θ无关的常数。将
μ
θ
\mu_\theta
μθ?参数化为模型,使其预测前向过程的后验均值
μ
~
t
\tilde{\mu}_t
μ~?t?。
注:上述损失函数和后验均值方差的详细推导过程见Diffusion model—扩散模型的4.1节。
可进一步重参数化
x
t
x_t
xt?与
μ
θ
\mu_\theta
μθ?以获取简化的目标(预测每个步骤的噪声):
E
x
0
,
?
[
β
t
2
2
σ
t
2
α
t
(
1
?
α
ˉ
t
)
∥
?
?
?
θ
(
α
ˉ
t
x
0
+
1
?
α
ˉ
t
?
,
t
)
∥
2
]
\mathbb{E}_{x_0,\epsilon}[\frac{\beta_t^2}{2\sigma_t^2\alpha_t(1-\bar{\alpha}_t)}\|\epsilon-\epsilon_\theta(\sqrt{\bar{\alpha}_t}x_0+\sqrt{1-\bar{\alpha}_t}\epsilon,t)\|^2]
Ex0?,??[2σt2?αt?(1?αˉt?)βt2??∥???θ?(αˉt??x0?+1?αˉt???,t)∥2]
2.3 相关工作
2.3.1 条件GAN
条件生成对抗模型(cGAN)是在训练过程中整合条件信息的GAN。其中,生成器和判别器(或只有生成器)以辅助输入(如类别标签、文字描述、图像)为条件。生成器会学习到与真实数据相似且服从特定条件的样本生成方法。
条件GAN包括Pix2Pix(图像生成图像)、Points2Pix(激光雷达点云生成图像)。二者的损失函数均包括cGAN损失和L1损失(学习低频内容):
L
cGAN
(
G
,
D
)
=
E
x
,
y
[
log
?
D
(
x
,
y
)
]
+
E
x
,
z
[
log
?
(
1
?
D
(
x
,
G
(
x
,
z
)
)
)
]
L
L
1
=
λ
E
[
∥
y
?
G
(
x
,
z
)
∥
1
]
\mathcal{L}_\text{cGAN}(G,D)=\mathbb{E}_{x,y}[\log D(x,y)]+\mathbb{E}_{x,z}[\log(1-D(x,G(x,z)))]\\ \mathcal{L}_{L1}=\lambda\mathbb{E}[\|y-G(x,z)\|_1]
LcGAN?(G,D)=Ex,y?[logD(x,y)]+Ex,z?[log(1?D(x,G(x,z)))]LL1?=λE[∥y?G(x,z)∥1?]
其中
y
y
y为数据,
x
x
x为条件,
z
z
z为高斯噪声。
3. 方法
3.1 数据
3.1.1 数据收集和选择
- 所有数据有相似的背景,以通过固定背景设置来生成更平滑的视频。
3.1.2 预处理
4D雷达点云 { x i } i = 1 N \{x_i\}_{i=1}^N {xi?}i=1N?包含空间坐标 x , y , z x,y,z x,y,z和额外维度 x doppler , x range , x power x_\text{doppler},x_\text{range},x_\text{power} xdoppler?,xrange?,xpower?。分别对空间维度和额外维度进行预处理。
3.1.2.1 空间维度
首先将点云变换到相机坐标系下,然后投影到图像平面上,得到图像表达 x 2 D x_{2D} x2D?。
3.1.2.2 额外维度
将多普勒、距离和功率分别作为投影后点的RGB值,并缩放到 [ 0 , 255 ] [0,255] [0,255]范围内。随后按照感兴趣区裁剪并下采样。最后将像素缩放到 [ ? 1 , 1 ] [-1,1] [?1,1]内以提高网络稳定性和性能。
3.2 深度生成模型
几种DGM的比较:
- VAE通过极大似然估计(MLE)学习密度 p ( x ) p(x) p(x)的下界,隐式表达维度小于数据,能快速采样,使用编码器-解码器结构(使用重参数化技巧)。
- NF通过MLE学习精确的密度,隐式表达维度等于数据,采样速度慢,需要使用可逆神经网络。
- GAN不支持密度估计,隐式表达维度低,采样速度快,但生成器-判别器结构会导致训练不稳定。
- 扩散模型通过MLE学习密度的下界,隐式表达维度等于数据,采样速度慢,使用编码器-解码器结构。
由于实际主要关注的是生成样本的质量(密度估计不是关键),本文选择GAN与扩散模型。
3.2.1 条件生成对抗模型
GAN的训练方案如上图所示。判别器每个图像预测是否为真(布尔值输出),其输出会用于损失计算,指导生成器G与判别器D的参数更新。经过训练,G会生成更加难以与真实数据区分的样本,而D的判断能力会逐渐增强。
损失函数包含2.3.1节中的L1项。对于cGAN损失,判别器使用二元交叉熵(BCE)损失:
BCE
(
y
^
n
,
y
n
)
=
y
n
log
?
(
y
^
n
)
+
(
1
?
y
n
)
log
?
(
1
?
y
^
n
)
\text{BCE}(\hat{y}_n,y_n)=y_n\log(\hat{y}_n)+(1-y_n)\log(1-\hat{y}_n)
BCE(y^?n?,yn?)=yn?log(y^?n?)+(1?yn?)log(1?y^?n?)
D的目标是精确判断图像真假(
y
^
n
=
y
n
\hat{y}_n=y_n
y^?n?=yn?),G的目标是使
D
D
D进行错误预测(
y
^
n
≠
y
n
\hat{y}_n\neq y_n
y^?n?=yn?)。
训练算法如下:
3.2.1.1 实施
与Pix2Pix不同,本文不使用dropout,而改为为投影点云拼接高斯噪声;使用Attention U-Net作为生成器,如下图所示。U-Net的解码部分使用注意力,其中残差特征图为键,上采样特征图为查询。对抗网络使用PatchGAN判别器,将图像视为一组独立patch进行真假判段。
3.2.2 条件扩散模型
由2.2.2节可知,扩散模型的逆过程可由条件高斯表达:
p
θ
(
x
t
?
1
∣
x
t
)
~
N
(
x
t
?
1
;
μ
θ
(
x
t
,
t
)
,
Σ
θ
(
x
t
,
t
)
)
p_\theta(x_{t-1}|x_t)\sim\mathcal{N}(x_{t-1};\mu_\theta(x_t,t),\Sigma_\theta(x_t,t))
pθ?(xt?1?∣xt?)~N(xt?1?;μθ?(xt?,t),Σθ?(xt?,t))
由于方差学习不会明显改善采样质量,本文将方差固定为
β
t
\beta_t
βt?,并预测
μ
θ
(
x
t
,
t
)
\mu_\theta(x_t,t)
μθ?(xt?,t)。
将
q
(
x
t
∣
x
0
)
~
N
(
x
t
;
α
ˉ
t
x
0
,
(
1
?
α
ˉ
t
)
I
)
q(x_t|x_0)\sim\mathcal{N}(x_t;\sqrt{\bar{\alpha}_t}x_0,(1-\bar{\alpha}_t)I)
q(xt?∣x0?)~N(xt?;αˉt??x0?,(1?αˉt?)I) 重参数化为
x
t
(
x
0
,
?
)
=
α
ˉ
t
x
0
+
1
?
α
ˉ
t
?
,
?
~
N
(
0
,
I
)
x_t(x_0,\epsilon)=\sqrt{\bar{\alpha}_t}x_0+\sqrt{1-\bar{\alpha}_t}\epsilon,\epsilon\sim\mathcal{N}(0,I)
xt?(x0?,?)=αˉt??x0?+1?αˉt???,?~N(0,I)
将上式中的
x
0
x_0
x0?代入2.2.2节中
μ
θ
(
x
t
,
t
)
\mu_\theta(x_t,t)
μθ?(xt?,t)的表达式,可得
μ
θ
(
x
t
,
t
)
=
1
α
t
(
x
t
?
β
t
1
?
α
ˉ
t
?
)
\mu_\theta(x_t,t)=\frac{1}{\sqrt{\alpha_t}}(x_t-\frac{\beta_t}{\sqrt{1-\bar{\alpha}_t}}\epsilon)
μθ?(xt?,t)=αt??1?(xt??1?αˉt??βt???)
因此,可改为预测
?
\epsilon
?以满足:
μ
θ
(
x
t
,
t
)
=
1
α
t
(
x
t
?
β
t
1
?
α
ˉ
t
?
θ
(
x
t
,
t
)
)
\mu_\theta(x_t,t)=\frac{1}{\sqrt{\alpha_t}}(x_t-\frac{\beta_t}{\sqrt{1-\bar{\alpha}_t}}\epsilon_\theta(x_t,t))
μθ?(xt?,t)=αt??1?(xt??1?αˉt??βt???θ?(xt?,t))
其中
?
θ
(
x
t
,
t
)
\epsilon_\theta(x_t,t)
?θ?(xt?,t)为神经网络
G
θ
(
x
t
,
t
)
G_\theta(x_t,t)
Gθ?(xt?,t)预测的噪声。这样,给定带噪声图像,可根据
x
t
?
1
~
p
θ
(
x
t
?
1
∣
x
t
)
x_{t-1}\sim p_\theta(x_{t-1}|x_t)
xt?1?~pθ?(xt?1?∣xt?)采样:
x
t
?
1
=
1
α
t
(
x
t
?
β
t
1
?
α
ˉ
t
?
θ
(
x
t
,
t
)
)
+
β
t
z
,
z
~
N
(
0
,
I
)
x_{t-1}=\frac{1}{\sqrt{\alpha_t}}(x_t-\frac{\beta_t}{\sqrt{1-\bar{\alpha}_t}}\epsilon_\theta(x_t,t))+\sqrt{\beta_t}z,z\sim\mathcal{N}(0,I)
xt?1?=αt??1?(xt??1?αˉt??βt???θ?(xt?,t))+βt??z,z~N(0,I)
实际中,需要将预测噪声加以条件,即
?
θ
(
c
,
x
t
,
t
)
=
G
θ
(
c
,
x
t
,
t
)
\epsilon_\theta(c,x_t,t)=G_\theta(c,x_t,t)
?θ?(c,xt?,t)=Gθ?(c,xt?,t)。这通过投影点云的拼接实现。完整的采样过程如下:
训练算法如下:
由于对采样质量有利,本文使用简化的噪声预测优化目标:
L
t
?
1
=
E
x
0
,
?
[
β
t
2
2
σ
t
2
α
t
(
1
?
α
ˉ
t
)
∥
?
?
?
θ
(
c
,
α
ˉ
t
x
0
+
1
?
α
ˉ
t
?
,
t
)
∥
2
]
L_{t-1}=\mathbb{E}_{x_0,\epsilon}[\frac{\beta_t^2}{2\sigma_t^2\alpha_t(1-\bar{\alpha}_t)}\|\epsilon-\epsilon_\theta(c,\sqrt{\bar{\alpha}_t}x_0+\sqrt{1-\bar{\alpha}_t}\epsilon,t)\|^2]
Lt?1?=Ex0?,??[2σt2?αt?(1?αˉt?)βt2??∥???θ?(c,αˉt??x0?+1?αˉt???,t)∥2]
对
α
ˉ
t
\bar{\alpha}_t
αˉt?使用余弦调度:
α
ˉ
t
=
f
(
t
)
f
(
0
)
,
f
(
t
)
=
cos
?
(
t
/
T
+
s
1
+
s
?
π
2
)
2
\bar{\alpha}_t=\frac{f(t)}{f(0)},f(t)=\cos(\frac{t/T+s}{1+s}\cdot\frac{\pi}{2})^2
αˉt?=f(0)f(t)?,f(t)=cos(1+st/T+s??2π?)2
3.2.2.1 实施
本文使用的网络类似2.1.1.1节的GAN生成器。网络的输入为6通道,其中3通道为条件,3通道为上一步输出的带噪声的图像;输出为3通道图像。网络使用时间步长的正弦位置编码,在各时间步长下共享权重。
3.2.3 混合方法:以GAN为条件的扩散
在评估过程中,发现使用扩散的条件采样遇到了一些挑战。为避免之,本文提出混合方法,通过使用与迭代隐变量细化类似的条件扩散方法,组合训练好的GAN与扩散模型。将扩散模型的输入由高斯噪声改为GAN生成的带噪声图像(记为
x
GAN
x_\text{GAN}
xGAN?),按下式加噪后,使用更少的时间步长去噪:
x
t
(
x
GAN
,
?
)
=
α
ˉ
t
x
GAN
+
1
?
α
ˉ
t
?
,
?
~
N
(
0
,
I
)
x_t(x_\text{GAN},\epsilon)=\sqrt{\bar{\alpha}_t}x_\text{GAN}+\sqrt{1-\bar{\alpha}_t}\epsilon,\epsilon\sim\mathcal{N}(0,I)
xt?(xGAN?,?)=αˉt??xGAN?+1?αˉt???,?~N(0,I)
采样过程与算法2类似,如下所示:
3.3 训练过程
确定训练的停止点是很困难的。除了监控训练损失外,还使用主观评估的方法判断过拟合现象(因为雷达数据不能反映颜色信息,故当生成车辆的颜色十分精确时,就可能达到了过拟合)。
4. 结果与分析
4.1 评估框架
4.1.1 定性评估
定性评估为主要评估方法,即进行生成视频与真实视频的主观比较。这是因为本文的目的是生成真实的视频。
4.1.2 定量评估
由于定性评估的主观性,还引入定量评估。包含生成帧与真实帧的均方误差(MSE)和目标检测指标。前者用于衡量与生成帧与真实帧的相似性,后者用于指示模型生成真实物体的能力。
4.1.2.1 均方误差
由于雷达不含颜色信息,故将生成帧与真实帧灰度化后计算MSE。
4.1.2.2 目标检测
分别对真实帧和生成帧进行目标检测后,比较相关类别物体的出现情况。使用在COCO数据集上预训练的YOLOv5进行目标检测。只考虑汽车、卡车和公交车三类输出,且考虑两种评估:完整图像和RoI裁剪图像。使用后者是因为当背景区域存在停放车辆时,会因为生成背景的能力而影响前景物体的生成评估。
4.2 定性评价
扩散模型生成的图像比GAN更加真实。扩散模型在背景生成(如停放的汽车)方面更好,而GAN相对比较平均。但某些情况下,扩散模型会生成不完整的图像,或是完全丢失一些明显实例。此外,采样的随机性也使得扩散模型在同一条件下进行逆过程时,可能成功也可能失败。
由于数据集中最常见的车辆为乘用车,GAN与扩散模型可能会错误地偏好性地生成该类车辆。
GAN能通过调节输入点云,更容易地控制生成过程。使用混合方法,通过GAN的输出引导扩散过程,能生成看上去更好的图像。
4.3 定量评价
4.3.1 均方误差
比起扩散模型,GAN生成的图像有更低的MSE。混合模型的MSE则更低。
4.3.2 目标检测
完整图像中,目标检测数量误差最小的为扩散模型;但对于不考虑停放车辆的RoI裁剪图像来说,GAN的性能更优。混合方法在RoI的性能最优。
4.4 分析
4.4.1 训练过程
4.4.1.1 GAN
GAN的训练过程存在一些不稳定性,即判别器损失会在某些无法预测的时刻出现瞬时的尖峰。此外,生成器的损失可能会突然增大。
4.4.1.2 扩散
由于扩散过程采样的耗时性,仅能在部分检查点进行评估。因此实际网络可能存在轻微过拟合。
4.4.2 性能
GAN有更高的控制和调节能力,但牺牲了一些图像质量;能精确表达RoI内的物体,这表明GAN有利用条件点云生成可识别物体的能力。GAN生成一帧图像的耗时为几十毫秒。
扩散模型能生成更高质量的背景元素,但有时会忽略条件点云,无法生成完整和精确的物体。生成一帧图像的耗时为几十秒。
混合方法在定量指标和视觉效果上均更高。增加采样步长能进一步提高生成质量,但也会提高计算时间,也会与真值产生更大的偏差。
4.5 讨论
混合模型整合了GAN精确表达物体的能力和扩散模型生成高质量图像的能力。
使用其余结构的GAN和扩散模型、不同的条件机制或训练策略,可能会有更好的效果。
4.6 局限性
主要局限性在于生成物体的多样性较低,多数物体会被生成为乘用车。这是因为数据集的多样性较低。另一问题在于图像和雷达的空间对齐上,其中图像中心的对齐比角落的对齐更精确,这可能是导致扩散模型有时候会忽略条件点云的原因。
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。 如若内容造成侵权/违法违规/事实不符,请联系我的编程经验分享网邮箱:veading@qq.com进行投诉反馈,一经查实,立即删除!