【论文笔记】Scene Reconstruction From 4D Radar Data with GAN and Diffusion

2023-12-15 16:36:35

原文链接:https://kth.diva-portal.org/smash/get/diva2:1799731/FULLTEXT01.pdf

1. 引言

本文使用深度生成模型(DGM)实现以4D雷达为条件的图像生成,以提供雷达数据的另一可视化方法并增强可解释性。

实验中的雷达和RGB相机固定在路面上方并经过时空同步。雷达和图像的数据对会作为网络的训练数据。网络使用深度生成模型将雷达数据转化为RGB图像。

1.2 问题

给定路面的雷达数据 c ∈ C c\in\mathcal{C} cC,训练生成模型 p ( x ∣ c ) p(x|c) p(xc)生成高质量视频帧,以增强视觉表达和可解释性。数据包括与雷达时空同步的视频帧 x ∈ X x\in\mathcal{X} xX,其与雷达数据组成数据对 ( x , c ) ∈ X × C (x,c)\in\mathcal{X}\times\mathcal{C} (x,c)X×C。背景为静态的,数据主要的变化为路面上的运动和环境的改变。

生成模型本质上是对 先验的简单概率分布(如高斯分布)到训练数据的经验分布的转化 进行建模。

1.4 目标

本文的目标有二:

  1. 使用雷达数据作为条件变量生成视频帧。
  2. 比较分析GAN和扩散模型在4D雷达数据上的优缺点。

2. 背景

2.2 深度生成模型

DGM的主要目标是生成捕获了训练数据中重要特征的新数据。设训练集中的图像 x ∈ X x\in\mathcal{X} xX,将其视为数据各维度联合概率分布 p ( x 1 , ? ? , x N ) = p ( x ) p(x_1,\cdots,x_N)=p(x) p(x1?,?,xN?)=p(x)的一个样本(例如,对 H × W H\times W H×W大小的RGB图像,数据维度 N = 3 H W N=3HW N=3HW)。

p ( x ) p(x) p(x)中生成新样本的方法如下:首先从简单的参数化分布(如高斯分布 z ~ N ( μ , σ 2 ) z\sim\mathcal{N}(\mu,\sigma^2) zN(μ,σ2))中采样 z z z,然后学习变换 x ′ = f ( z ) x'=f(z) x=f(z)使得 x ′ ~ p ( x ) x'\sim p(x) xp(x)。DGM就是通过数据和深度神经网络结构学习 z z z x x x的高维映射,以估计 p ( x ) p(x) p(x)。目前的DGM包括:变分自编码器(VAE)、生成对抗网络(GAN)、正则化流(NF)和扩散模型。目前扩散模型已超过GAN成为SotA。

各DGM的简单比较见3.2节。

有时候我们希望模型生成某一条件 c c c下的新数据。此时需要建模对协变量的相关性,以获得形式为 p ( x ∣ c ) p(x|c) p(xc)的条件生成模型。在判别模型中类似的形式为 p ( y ∣ x ) p(y|x) p(yx),其中 x x x为输入, y y y为输出(其中只有1个正确值)。生成模型与判别模型的区别在于正确输出可能不只一个,且其目标为将输出分布匹配目标分布。因此,生成模型的评估更加困难。

2.2.1 生成对抗网络

GAN包含两个子模型,生成器G和判别器D。G的目标是生成与真实数据不可区分的样本,D的目标则是判断真假样本。生成器隐式地定义 d d d维数据 x x x上的分布 p G p_G pG?,学习映射 G ( z , θ G ) G(z,\theta_G) G(z,θG?) θ G \theta_G θG?表示网络参数)将先验分布 p z ( z ) p_z(z) pz?(z)映射到数据空间。判别器 D ( x , θ D ) D(x,\theta_D) D(x,θD?)则将 d d d维样本映射为标量,即样本 x x x来自真实数据分布的概率。

训练阶段,G与D相互竞争。在训练的一个步骤中,首先会更新D的参数,使得D的犯错概率最小化;然后更新G的参数,使得D的犯错概率最大化。训练目标如下所示:
L GAN = E y ~ p d a t a ( x ) [ log ? D ( y ) ] + E z ~ p ( z ) [ log ? ( 1 ? D ( G ( z ) ) ) ] \mathcal{L}_\text{GAN}=\mathbb{E}_{y\sim p_{data}(x)}[\log D(y)]+\mathbb{E}_{z\sim p(z)}[\log(1-D(G(z)))] LGAN?=Eypdata?(x)?[logD(y)]+Ezp(z)?[log(1?D(G(z)))]

2.2.2 扩散模型

扩散模型通过将逐步加噪过程逆转来从分布中采样。采样从噪声 x T x_T xT?开始,逐步生成噪声更少的样本 x T ? 1 , x T ? 2 , ? x_{T-1},x_{T-2},\cdots xT?1?,xT?2?,?直到最终样本 x 0 x_0 x0?

x 0 x_0 x0?为数据集样本, x 0 : T x_{0:T} x0:T?为逐步为其添加高斯噪声的序列。可得马尔科夫链:
q ( x 1 : T ∣ x 0 ) = ∏ t = 1 T q ( x t ∣ x t ? 1 ) q ( x t ∣ x t ? 1 ) = N ( x t ; 1 ? β t x t ? 1 , β t I ) q(x_{1:T}|x_0)=\prod_{t=1}^Tq(x_t|x_{t-1})\\ q(x_t|x_{t-1})=\mathcal{N}(x_t;\sqrt{1-\beta_t}x_{t-1},\beta_tI) q(x1:T?x0?)=t=1T?q(xt?xt?1?)q(xt?xt?1?)=N(xt?;1?βt? ?xt?1?,βt?I)
其中 β 1 , ? ? , β T \beta_1,\cdots,\beta_T β1?,?,βT?根据variance schedule给定。上式称为前向过程或扩散过程。采样的 x t x_t xt? x t ? 1 x_{t-1} xt?1?为条件,且维度与数据 x 0 ~ q ( x 0 ) x_0\sim q(x_0) x0?q(x0?)相同。联合分布 p θ ( x 0 : T ) p_\theta(x_{0:T}) pθ?(x0:T?)(称为反向过程)定义为带参数化高斯转移的马尔科夫链:
p θ ( x 0 : T ) = p ( x T ) ∏ t = 1 T p θ ( x t ? 1 ∣ x t ) p θ ( x t ? 1 ∣ x t ) ~ N ( x t ? 1 ; μ θ ( x t , t ) , Σ θ ( x t , t ) ) p ( x T ) ~ N ( x T ; 0 , I ) p_\theta(x_{0:T})=p(x_T)\prod_{t=1}^{T}p_\theta(x_{t-1}|x_t)\\ p_\theta(x_{t-1}|x_t)\sim\mathcal{N}(x_{t-1};\mu_\theta(x_t,t),\Sigma_\theta(x_t,t))\\ p(x_T)\sim\mathcal{N}(x_T;0,I) pθ?(x0:T?)=p(xT?)t=1T?pθ?(xt?1?xt?)pθ?(xt?1?xt?)N(xt?1?;μθ?(xt?,t),Σθ?(xt?,t))p(xT?)N(xT?;0,I)
目标是调整 θ \theta θ使得可从高斯噪声 x T x_T xT?通过反向过程逐步转换到 x 0 x_0 x0?,使得 x 0 ~ q ( x 0 ) x_0\sim q(x_0) x0?q(x0?)

训练目标是优化基于负对数似然变分界的损失函数
E [ ? log ? p θ ( x 0 ) ] ≤ E q [ ? log ? p θ ( x 0 : T ) q ( x 1 : T ∣ x 0 ) ] = E q [ ? log ? p θ ( x T ) ? ∑ t ≥ 1 log ? p θ ( x t ? 1 ∣ x t ) q ( x t ∣ x t ? 1 ) ] = : L = L T + L T ? 1 + ? + L 0 \mathbb{E}[-\log p_\theta(x_0)]\leq\mathbb{E}_q[-\log\frac{p_\theta(x_{0:T})}{q(x_{1:T}|x_0)}]=\mathbb{E}_q[-\log p_\theta(x_T)-\sum_{t\geq1}\log\frac{p_\theta(x_{t-1}|x_t)}{q(x_t|x_{t-1})}]=:L=L_T+L_{T-1}+\cdots+L_0 E[?logpθ?(x0?)]Eq?[?logq(x1:T?x0?)pθ?(x0:T?)?]=Eq?[?logpθ?(xT?)?t1?logq(xt?xt?1?)pθ?(xt?1?xt?)?]=:L=LT?+LT?1?+?+L0?
其中
L 0 = ? log ? p θ ( x 0 ∣ x 1 ) L t ? 1 = D K L ( q ( x t ? 1 ∣ x t , x 0 ) ∥ p θ ( x t ? 1 ∣ x t ) ) , 2 ≤ t ≤ T L_0=-\log p_\theta(x_0|x_1)\\ L_{t-1}=D_{KL}(q(x_{t-1}|x_t,x_0)\|p_\theta(x_{t-1}|x_t)),2\leq t\leq T L0?=?logpθ?(x0?x1?)Lt?1?=DKL?(q(xt?1?xt?,x0?)pθ?(xt?1?xt?)),2tT
其中 D K L ( q ∥ p ) D_{KL}(q\|p) DKL?(qp)为KL散度,衡量 q q q p p p差异性。

α t = 1 ? β t , α t ˉ = ∏ i = 1 t α i \alpha_t=1-\beta_t,\bar{\alpha_t}=\prod_{i=1}^t\alpha_i αt?=1?βt?,αt?ˉ?=i=1t?αi?,前向过程中以 x 0 x_0 x0?为条件采样 x t x_t xt?的情况与下式相近:
q ( x t ∣ x 0 ) ~ N ( x t ; α ˉ t x 0 , ( 1 ? α ˉ t ) I ) q(x_t|x_0)\sim\mathcal{N}(x_t;\sqrt{\bar{\alpha}_t}x_0,(1-\bar{\alpha}_t)I) q(xt?x0?)N(xt?;αˉt? ?x0?,(1?αˉt?)I)
这种重参数化的结果是,无需计算完整的 L L L,且以 x 0 x_0 x0?为条件时,前向过程的后验(均值 μ ~ t \tilde{\mu}_t μ~?t?和方差 β ~ t \tilde{\beta}_t β~?t?)是可处理的:
μ ~ t ( x t , x 0 ) = α ˉ t ? 1 β t 1 ? α ˉ t x 0 + α t ( 1 ? α ˉ t ? 1 ) 1 ? α ˉ t x t β ~ t = 1 ? α ˉ t ? 1 1 ? α ˉ t β t \tilde{\mu}_t(x_t,x_0)=\frac{\sqrt{\bar{\alpha}_{t-1}}\beta_t}{1-\bar{\alpha}_t}x_0+\frac{\sqrt{\alpha_t}(1-\bar{\alpha}_{t-1})}{1-\bar{\alpha}_t}x_t\\ \tilde{\beta}_t=\frac{1-\bar{\alpha}_{t-1}}{1-\bar{\alpha}_t}\beta_t μ~?t?(xt?,x0?)=1?αˉt?αˉt?1? ?βt??x0?+1?αˉt?αt? ?(1?αˉt?1?)?xt?β~?t?=1?αˉt?1?αˉt?1??βt?
前向过程的方差可学习得到或作为超参数在训练过程中保持不变。当不学习方差时,可设置 Σ θ ( x t , t ) = σ t 2 I \Sigma_\theta(x_t,t)=\sigma_t^2I Σθ?(xt?,t)=σt2?I,使得 p θ ( x t ? 1 ∣ x t ) ~ N ( x t ? 1 ; μ θ ( x t , t ) , σ t 2 I ) p_\theta(x_{t-1}|x_t)\sim\mathcal{N}(x_{t-1};\mu_\theta(x_t,t),\sigma_t^2I) pθ?(xt?1?xt?)N(xt?1?;μθ?(xt?,t),σt2?I)。这样,
L t ? 1 = E q [ 1 2 σ t 2 ∥ μ ~ t ( x t , x 0 ) ? μ θ ( x t , t ) ∥ 2 ] + C L_{t-1}=\mathbb{E}_q[\frac{1}{2\sigma^2_t}\|\tilde{\mu}_t(x_t,x_0)-\mu_\theta(x_t,t)\|^2]+C Lt?1?=Eq?[2σt2?1?μ~?t?(xt?,x0?)?μθ?(xt?,t)2]+C
其中 C C C为与 θ \theta θ无关的常数。将 μ θ \mu_\theta μθ?参数化为模型,使其预测前向过程的后验均值 μ ~ t \tilde{\mu}_t μ~?t?

注:上述损失函数和后验均值方差的详细推导过程见Diffusion model—扩散模型的4.1节。

可进一步重参数化 x t x_t xt? μ θ \mu_\theta μθ?以获取简化的目标(预测每个步骤的噪声):
E x 0 , ? [ β t 2 2 σ t 2 α t ( 1 ? α ˉ t ) ∥ ? ? ? θ ( α ˉ t x 0 + 1 ? α ˉ t ? , t ) ∥ 2 ] \mathbb{E}_{x_0,\epsilon}[\frac{\beta_t^2}{2\sigma_t^2\alpha_t(1-\bar{\alpha}_t)}\|\epsilon-\epsilon_\theta(\sqrt{\bar{\alpha}_t}x_0+\sqrt{1-\bar{\alpha}_t}\epsilon,t)\|^2] Ex0?,??[2σt2?αt?(1?αˉt?)βt2?????θ?(αˉt? ?x0?+1?αˉt? ??,t)2]

2.3 相关工作

2.3.1 条件GAN

条件生成对抗模型(cGAN)是在训练过程中整合条件信息的GAN。其中,生成器和判别器(或只有生成器)以辅助输入(如类别标签、文字描述、图像)为条件。生成器会学习到与真实数据相似且服从特定条件的样本生成方法。

条件GAN包括Pix2Pix(图像生成图像)、Points2Pix(激光雷达点云生成图像)。二者的损失函数均包括cGAN损失和L1损失(学习低频内容):
L cGAN ( G , D ) = E x , y [ log ? D ( x , y ) ] + E x , z [ log ? ( 1 ? D ( x , G ( x , z ) ) ) ] L L 1 = λ E [ ∥ y ? G ( x , z ) ∥ 1 ] \mathcal{L}_\text{cGAN}(G,D)=\mathbb{E}_{x,y}[\log D(x,y)]+\mathbb{E}_{x,z}[\log(1-D(x,G(x,z)))]\\ \mathcal{L}_{L1}=\lambda\mathbb{E}[\|y-G(x,z)\|_1] LcGAN?(G,D)=Ex,y?[logD(x,y)]+Ex,z?[log(1?D(x,G(x,z)))]LL1?=λE[y?G(x,z)1?]
其中 y y y为数据, x x x为条件, z z z为高斯噪声。

3. 方法

3.1 数据

3.1.1 数据收集和选择

  • 所有数据有相似的背景,以通过固定背景设置来生成更平滑的视频。

3.1.2 预处理

4D雷达点云 { x i } i = 1 N \{x_i\}_{i=1}^N {xi?}i=1N?包含空间坐标 x , y , z x,y,z x,y,z和额外维度 x doppler , x range , x power x_\text{doppler},x_\text{range},x_\text{power} xdoppler?,xrange?,xpower?。分别对空间维度和额外维度进行预处理。

3.1.2.1 空间维度

首先将点云变换到相机坐标系下,然后投影到图像平面上,得到图像表达 x 2 D x_{2D} x2D?

3.1.2.2 额外维度

将多普勒、距离和功率分别作为投影后点的RGB值,并缩放到 [ 0 , 255 ] [0,255] [0,255]范围内。随后按照感兴趣区裁剪并下采样。最后将像素缩放到 [ ? 1 , 1 ] [-1,1] [?1,1]内以提高网络稳定性和性能。

3.2 深度生成模型

几种DGM的比较:

  • VAE通过极大似然估计(MLE)学习密度 p ( x ) p(x) p(x)的下界,隐式表达维度小于数据,能快速采样,使用编码器-解码器结构(使用重参数化技巧)。
  • NF通过MLE学习精确的密度,隐式表达维度等于数据,采样速度慢,需要使用可逆神经网络。
  • GAN不支持密度估计,隐式表达维度低,采样速度快,但生成器-判别器结构会导致训练不稳定。
  • 扩散模型通过MLE学习密度的下界,隐式表达维度等于数据,采样速度慢,使用编码器-解码器结构。
    由于实际主要关注的是生成样本的质量(密度估计不是关键),本文选择GAN与扩散模型。

3.2.1 条件生成对抗模型

在这里插入图片描述
GAN的训练方案如上图所示。判别器每个图像预测是否为真(布尔值输出),其输出会用于损失计算,指导生成器G与判别器D的参数更新。经过训练,G会生成更加难以与真实数据区分的样本,而D的判断能力会逐渐增强。

损失函数包含2.3.1节中的L1项。对于cGAN损失,判别器使用二元交叉熵(BCE)损失:
BCE ( y ^ n , y n ) = y n log ? ( y ^ n ) + ( 1 ? y n ) log ? ( 1 ? y ^ n ) \text{BCE}(\hat{y}_n,y_n)=y_n\log(\hat{y}_n)+(1-y_n)\log(1-\hat{y}_n) BCE(y^?n?,yn?)=yn?log(y^?n?)+(1?yn?)log(1?y^?n?)
D的目标是精确判断图像真假( y ^ n = y n \hat{y}_n=y_n y^?n?=yn?),G的目标是使 D D D进行错误预测( y ^ n ≠ y n \hat{y}_n\neq y_n y^?n?=yn?)。

训练算法如下:
在这里插入图片描述

3.2.1.1 实施

与Pix2Pix不同,本文不使用dropout,而改为为投影点云拼接高斯噪声;使用Attention U-Net作为生成器,如下图所示。U-Net的解码部分使用注意力,其中残差特征图为键,上采样特征图为查询。对抗网络使用PatchGAN判别器,将图像视为一组独立patch进行真假判段。
在这里插入图片描述

3.2.2 条件扩散模型

由2.2.2节可知,扩散模型的逆过程可由条件高斯表达:
p θ ( x t ? 1 ∣ x t ) ~ N ( x t ? 1 ; μ θ ( x t , t ) , Σ θ ( x t , t ) ) p_\theta(x_{t-1}|x_t)\sim\mathcal{N}(x_{t-1};\mu_\theta(x_t,t),\Sigma_\theta(x_t,t)) pθ?(xt?1?xt?)N(xt?1?;μθ?(xt?,t),Σθ?(xt?,t))
由于方差学习不会明显改善采样质量,本文将方差固定为 β t \beta_t βt?,并预测 μ θ ( x t , t ) \mu_\theta(x_t,t) μθ?(xt?,t)

q ( x t ∣ x 0 ) ~ N ( x t ; α ˉ t x 0 , ( 1 ? α ˉ t ) I ) q(x_t|x_0)\sim\mathcal{N}(x_t;\sqrt{\bar{\alpha}_t}x_0,(1-\bar{\alpha}_t)I) q(xt?x0?)N(xt?;αˉt? ?x0?,(1?αˉt?)I) 重参数化为
x t ( x 0 , ? ) = α ˉ t x 0 + 1 ? α ˉ t ? , ? ~ N ( 0 , I ) x_t(x_0,\epsilon)=\sqrt{\bar{\alpha}_t}x_0+\sqrt{1-\bar{\alpha}_t}\epsilon,\epsilon\sim\mathcal{N}(0,I) xt?(x0?,?)=αˉt? ?x0?+1?αˉt? ??,?N(0,I)

将上式中的 x 0 x_0 x0?代入2.2.2节中 μ θ ( x t , t ) \mu_\theta(x_t,t) μθ?(xt?,t)的表达式,可得
μ θ ( x t , t ) = 1 α t ( x t ? β t 1 ? α ˉ t ? ) \mu_\theta(x_t,t)=\frac{1}{\sqrt{\alpha_t}}(x_t-\frac{\beta_t}{\sqrt{1-\bar{\alpha}_t}}\epsilon) μθ?(xt?,t)=αt? ?1?(xt??1?αˉt? ?βt???)

因此,可改为预测 ? \epsilon ?以满足:
μ θ ( x t , t ) = 1 α t ( x t ? β t 1 ? α ˉ t ? θ ( x t , t ) ) \mu_\theta(x_t,t)=\frac{1}{\sqrt{\alpha_t}}(x_t-\frac{\beta_t}{\sqrt{1-\bar{\alpha}_t}}\epsilon_\theta(x_t,t)) μθ?(xt?,t)=αt? ?1?(xt??1?αˉt? ?βt???θ?(xt?,t))
其中 ? θ ( x t , t ) \epsilon_\theta(x_t,t) ?θ?(xt?,t)为神经网络 G θ ( x t , t ) G_\theta(x_t,t) Gθ?(xt?,t)预测的噪声。这样,给定带噪声图像,可根据 x t ? 1 ~ p θ ( x t ? 1 ∣ x t ) x_{t-1}\sim p_\theta(x_{t-1}|x_t) xt?1?pθ?(xt?1?xt?)采样:
x t ? 1 = 1 α t ( x t ? β t 1 ? α ˉ t ? θ ( x t , t ) ) + β t z , z ~ N ( 0 , I ) x_{t-1}=\frac{1}{\sqrt{\alpha_t}}(x_t-\frac{\beta_t}{\sqrt{1-\bar{\alpha}_t}}\epsilon_\theta(x_t,t))+\sqrt{\beta_t}z,z\sim\mathcal{N}(0,I) xt?1?=αt? ?1?(xt??1?αˉt? ?βt???θ?(xt?,t))+βt? ?z,zN(0,I)

实际中,需要将预测噪声加以条件,即 ? θ ( c , x t , t ) = G θ ( c , x t , t ) \epsilon_\theta(c,x_t,t)=G_\theta(c,x_t,t) ?θ?(c,xt?,t)=Gθ?(c,xt?,t)。这通过投影点云的拼接实现。完整的采样过程如下:
在这里插入图片描述
训练算法如下:
在这里插入图片描述
由于对采样质量有利,本文使用简化的噪声预测优化目标:
L t ? 1 = E x 0 , ? [ β t 2 2 σ t 2 α t ( 1 ? α ˉ t ) ∥ ? ? ? θ ( c , α ˉ t x 0 + 1 ? α ˉ t ? , t ) ∥ 2 ] L_{t-1}=\mathbb{E}_{x_0,\epsilon}[\frac{\beta_t^2}{2\sigma_t^2\alpha_t(1-\bar{\alpha}_t)}\|\epsilon-\epsilon_\theta(c,\sqrt{\bar{\alpha}_t}x_0+\sqrt{1-\bar{\alpha}_t}\epsilon,t)\|^2] Lt?1?=Ex0?,??[2σt2?αt?(1?αˉt?)βt2?????θ?(c,αˉt? ?x0?+1?αˉt? ??,t)2]

α ˉ t \bar{\alpha}_t αˉt?使用余弦调度:
α ˉ t = f ( t ) f ( 0 ) , f ( t ) = cos ? ( t / T + s 1 + s ? π 2 ) 2 \bar{\alpha}_t=\frac{f(t)}{f(0)},f(t)=\cos(\frac{t/T+s}{1+s}\cdot\frac{\pi}{2})^2 αˉt?=f(0)f(t)?,f(t)=cos(1+st/T+s??2π?)2

3.2.2.1 实施

本文使用的网络类似2.1.1.1节的GAN生成器。网络的输入为6通道,其中3通道为条件,3通道为上一步输出的带噪声的图像;输出为3通道图像。网络使用时间步长的正弦位置编码,在各时间步长下共享权重。

3.2.3 混合方法:以GAN为条件的扩散

在评估过程中,发现使用扩散的条件采样遇到了一些挑战。为避免之,本文提出混合方法,通过使用与迭代隐变量细化类似的条件扩散方法,组合训练好的GAN与扩散模型。将扩散模型的输入由高斯噪声改为GAN生成的带噪声图像(记为 x GAN x_\text{GAN} xGAN?),按下式加噪后,使用更少的时间步长去噪:
x t ( x GAN , ? ) = α ˉ t x GAN + 1 ? α ˉ t ? , ? ~ N ( 0 , I ) x_t(x_\text{GAN},\epsilon)=\sqrt{\bar{\alpha}_t}x_\text{GAN}+\sqrt{1-\bar{\alpha}_t}\epsilon,\epsilon\sim\mathcal{N}(0,I) xt?(xGAN?,?)=αˉt? ?xGAN?+1?αˉt? ??,?N(0,I)

采样过程与算法2类似,如下所示:
在这里插入图片描述
在这里插入图片描述

3.3 训练过程

确定训练的停止点是很困难的。除了监控训练损失外,还使用主观评估的方法判断过拟合现象(因为雷达数据不能反映颜色信息,故当生成车辆的颜色十分精确时,就可能达到了过拟合)。

4. 结果与分析

4.1 评估框架

4.1.1 定性评估

定性评估为主要评估方法,即进行生成视频与真实视频的主观比较。这是因为本文的目的是生成真实的视频。

4.1.2 定量评估

由于定性评估的主观性,还引入定量评估。包含生成帧与真实帧的均方误差(MSE)和目标检测指标。前者用于衡量与生成帧与真实帧的相似性,后者用于指示模型生成真实物体的能力。

4.1.2.1 均方误差

由于雷达不含颜色信息,故将生成帧与真实帧灰度化后计算MSE。

4.1.2.2 目标检测

分别对真实帧和生成帧进行目标检测后,比较相关类别物体的出现情况。使用在COCO数据集上预训练的YOLOv5进行目标检测。只考虑汽车、卡车和公交车三类输出,且考虑两种评估:完整图像和RoI裁剪图像。使用后者是因为当背景区域存在停放车辆时,会因为生成背景的能力而影响前景物体的生成评估。

4.2 定性评价

扩散模型生成的图像比GAN更加真实。扩散模型在背景生成(如停放的汽车)方面更好,而GAN相对比较平均。但某些情况下,扩散模型会生成不完整的图像,或是完全丢失一些明显实例。此外,采样的随机性也使得扩散模型在同一条件下进行逆过程时,可能成功也可能失败。

由于数据集中最常见的车辆为乘用车,GAN与扩散模型可能会错误地偏好性地生成该类车辆。

GAN能通过调节输入点云,更容易地控制生成过程。使用混合方法,通过GAN的输出引导扩散过程,能生成看上去更好的图像。

4.3 定量评价

4.3.1 均方误差

比起扩散模型,GAN生成的图像有更低的MSE。混合模型的MSE则更低。

4.3.2 目标检测

完整图像中,目标检测数量误差最小的为扩散模型;但对于不考虑停放车辆的RoI裁剪图像来说,GAN的性能更优。混合方法在RoI的性能最优。

4.4 分析

4.4.1 训练过程

4.4.1.1 GAN

GAN的训练过程存在一些不稳定性,即判别器损失会在某些无法预测的时刻出现瞬时的尖峰。此外,生成器的损失可能会突然增大。

4.4.1.2 扩散

由于扩散过程采样的耗时性,仅能在部分检查点进行评估。因此实际网络可能存在轻微过拟合。

4.4.2 性能

GAN有更高的控制和调节能力,但牺牲了一些图像质量;能精确表达RoI内的物体,这表明GAN有利用条件点云生成可识别物体的能力。GAN生成一帧图像的耗时为几十毫秒。

扩散模型能生成更高质量的背景元素,但有时会忽略条件点云,无法生成完整和精确的物体。生成一帧图像的耗时为几十秒。

混合方法在定量指标和视觉效果上均更高。增加采样步长能进一步提高生成质量,但也会提高计算时间,也会与真值产生更大的偏差。

4.5 讨论

混合模型整合了GAN精确表达物体的能力和扩散模型生成高质量图像的能力。

使用其余结构的GAN和扩散模型、不同的条件机制或训练策略,可能会有更好的效果。

4.6 局限性

主要局限性在于生成物体的多样性较低,多数物体会被生成为乘用车。这是因为数据集的多样性较低。另一问题在于图像和雷达的空间对齐上,其中图像中心的对齐比角落的对齐更精确,这可能是导致扩散模型有时候会忽略条件点云的原因。

文章来源:https://blog.csdn.net/weixin_45657478/article/details/134820485
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。