【没有哪个港口是永远的停留~论文解读】stable diffusion

2024-01-02 13:23:45

了解整个流程：

【第一部分】输入图像 x （W*H*3的RGB图像）
【第一部分】x 经过编码器 $\varepsilon$ 生成 $z$ ? (latent 空间的表示) h*w*c (具体设置多少有实验)
【第二部分】 $z$ 逐步加噪得到 $z_T$ ，和噪声标签
【第二部分】由 Unet（ $z_T$ ）预测噪声与噪声标签得到loss, 训练
【第三部分】由 Clip 得到文本编码或者图像编码。以改变K和V的方式添加到Unet
【第二部分】训练后， Unet（随机高斯，文本等条件）得到 z
【第一部分】解码器D将 z? 重建成RGB图像

本文将分为3个部分讲解生成模型全过程：

第一部分：VAE 编码器
第二部分：diffusion 扩散模型
第三部分：多模态提示，微调

第一部分：VAE

代码：https://github.com/AntixK/PyTorch-VAE

论文：Auto-Encoding Variational Bayes

?如图所示是VAE部分的训练过程：

图像编码得到均值 (m1,m2,m3)，方差(σ1,σ2,σ3)，
exp(σi)的目的是为了保证这个预测的方差是个正值，
按标准正态分布随机生成采样点(e1,e2,e3)，重参数后相当于用预测出的高斯分布随机采样
VAE在encode层的输出结果(c1,c2,c3)。
以(c1,c2,c3)重建原图
重建原图和原图计算MSE loss
外加惩罚项loss,使得预测分布接近标准正态分布

VAE的原理推导及代码

对于生成模型而言，主流的理论模型可以分为：

隐马尔可夫模型HMM
朴素贝叶斯模型NB
高斯混合模型GMM，而VAE的理论基础就是高斯混合模型。

什么是高斯混合模型呢？就是说，任何一个数据的分布，都可以看作是若干高斯分布的叠加。

代码实现 GMM 模型

VAE foreward:

def forward(self, input: Tensor, **kwargs) -> List[Tensor]:
    mu, log_var = self.encode(input)
    # mu : (B,128) 均值
    # log_var :(B,128) 方差
    
    z = self.reparameterize(mu, log_var) # 重参数
    return  [self.decode(z), input, mu, log_var]  # 解码

从代码可以看出来，mu 和 log_var 就是上图的若干个高斯分布,可以由均值和方差生成任意位置概率值

其中，重参数定义如下：

def reparameterize(self, mu: Tensor, logvar: Tensor) -> Tensor:
        std = torch.exp(0.5 * logvar)
        eps = torch.randn_like(std) 
        # 返回与输入张量大小相同的张量，其中填充了均值为0 方差为1 的正态分布的随机值
        z = eps * std + mu
        return z

可以看到，为每一对均值方差，都生成个随机采样

正态分布->标准正态分布： y = ( x - mu ) / std

标准正态分布-> 正态分布: x = y * std + mu

解码网络根据若干个高斯分布参数和随机的样本 x 得到最终的原图

VAE decoder代码：

def decode(self, z: Tensor) -> Tensor:
        """
        Maps the given latent codes
        onto the image space.
        :param z: (Tensor) [B x D]
        :return: (Tensor) [B x C x H x W]
        """
        result = self.decoder_input(z)
        result = result.view(-1, 512, 2, 2)
        result = self.decoder(result)
        result = self.final_layer(result)
        return result

?损失：两部分（重建损失和KL损失）

kld_weight = kwargs['M_N'] # Account for the minibatch samples from the dataset

recons_loss =F.mse_loss(recons, input)  
kld_loss = torch.mean(-0.5 * torch.sum(1 + log_var - mu ** 2 - log_var.exp()))

loss = recons_loss + kld_weight * kld_loss

公式推导

通过本部分的学习可以明白以下问题：

为什么是随机采样高斯分布上的点重建原图？
为什么是kl loss?
为什么kl loss 复杂表达式怎么来的？

?如下图:

隐变量 z, 观测数据 x ， $\theta$ 是生成模型参数， $\phi$ 是预测的分布参数；
实线表示生成模型 $p_{\theta }(z)p_{\theta }(x|z)$ ，
虚线表示难以处理的后验 $p_{\theta }(z|x)$ 的变分近似 $q_{\phi }(z|x)$
变分参数φ与生成模型参数θ联合学习
隐变量 z ( $z_1,z_2,z_3....$ ）由一些先验分布 pθ 生成；
x（ $x_1,x_2,x_3...$ ），从一些条件分布 pθ(x|z)? 生成

?我们通过能观测到的数据x,预测实际的分布参数z，采用最大似然函数的方法：

最大似然函数：样本 $x_i, i :1,2,3...n$ （公式省略参数 $\theta$ ）

$L(p(x))=\prod_{i=1}^{n}p(x_i)$

?取log:

$log L(p(x))=\sum_{i=1}^{n}logp(x_i)$

当似然函数取得最大值时， $\theta$ = $\theta^{*}$ 为所求

实际网络中函数是非凸函数，通过解析的方式直接求解 $\theta^{*}$ 非常困难，因此采用迭代的方法逐步逼近最大值。那么这个迭代的方法称为EM算法(最大化期望)，给定的训练样本 $x_1,x_2,x_3...$ 样例间独立，我们想找到每个样例隐含的类别z，能使得p(x,z)最大。因此表达式就变成如下：

EM是一种两步迭代的方法：

1、初始化对参数 $\theta$ 进行一次猜测 $\theta_t$

2、通过这个 $\theta_t$ 得到最大似然的新表达---期望步骤

3、对这个新表达，求解最大值---------------最大化步骤

当迭代的数据量是一张图时，n=1时：

$log L(p(x))=log p(x_i)$

初始化一个参数 $\theta$ 。（为了表示方便就不按迭代取名了）根据EM算法，最大似然的新表达：

$\begin{aligned} log p_\theta (x_i) &=E_{z\sim q_\phi (z|x_i))}[logp_\theta (x_i)] \\ &=\int q_{\phi }(z|x_i)\cdot logp_\theta (x_i) dz \\ &=\int q_{\phi }(z|x_i)\cdot log\frac{p_\theta (x_i|z)\times p_\theta(z)}{p_\theta (z|x_i)} dz \\ &=\int q_{\phi }(z|x_i)\cdot log\frac{p_\theta (x_i|z)\times p_\theta(z)}{p_\theta (z|x_i)} \ast \frac{q_\varphi (z|x_i)}{q_\varphi (z|x_i)}dz \\ \end{aligned}$

?拆成3部分后：

$\begin{aligned} log p(x_i) &=\int q_{\phi }(z|x_i)\ast p_\theta (x_i|z) dz-\int q_{\phi }(z|x_i)\ast log \frac{q_\varphi (z|x_i)}{ p_\theta(z)} dz + \int q_{\phi }(z|x_i)\ast log\frac{q_{\phi }(z|x_i)}{p_{\theta }(z|x_i)}dz \\ &=\int q_{\phi }(z|x_i)\ast p_\theta (x_i|z) dz-D_{kl} (q_{\phi }(z|x_i)|| p_\theta(z)) + D_{kl} (q_{\phi }(z|x_i) || p_{\theta }(z|x_i)) \\ \end{aligned}$

最后最大似然函数，求 $\phi$ 分布的参数。变成使得等式右边最大值时 $\phi$ 分布的参数。

等号右边第三个等式： $D_{kl} (q_{\phi }(z|x_i) || p_{\theta }(z|x_i))$ ，近似值与真实后验值的KL散度,KL散度大于0。剩余部分是下界，最大值问题又变成最大下界问题。

等号右边第一个等式： $\int q_{\phi }(z|x_i)\ast p_\theta (x_i|z) dz$ 反映自动编码器的（Auto-Encoder-Decoder）性能： xi→z→xi，即经过编码? $q_{\phi }(z|x_i)$ ? 和? 解码? $p_\theta (x_i|z)$ ? 的概率最大化，如果能重建的越好说明这部分取值最大，因此这部分就是Loss1MSE。

等号右边第二个等式： $-D_{kl} (q_{\phi }(z|x_i)|| p_\theta(z))$ 是两个分布的相似度，分布q是预测的高斯分布，分布p是标准正态分布，这部分越小，两个分布越相似，最终的似然函数越大。这部分就是Loss2 kl惩罚项。

q~N(u,σ^2)
p~N(0,1)

$\begin{aligned} D_{kl}(N(\mu, \sigma^2 )||N(0,1)) &=\int \frac{1}{\sqrt{2\pi \sigma ^2}}e^{\frac{ -(x-\mu)^2 }{2 \sigma^2 }}\left ( log\frac{\frac{1}{\sqrt{2\pi \sigma ^2}}e^{\frac{ -(x-\mu)^2 }{2 \sigma^2 }}}{\frac{1}{\sqrt{2\pi}}e^{\frac{ -x^2 }{2 }}}\right ) \\ &= \int \frac{1}{\sqrt{2\pi \sigma ^2}}e^{\frac{ -(x-\mu)^2 }{2 \sigma^2 }}\left ( log \frac{1}{\sigma } \frac{ e^{\frac{ -(x-\mu)^2 }{ 2 \sigma^2 }}}{e^{ -x^2/2 }}\right ) \\ &= \int \frac{1}{\sqrt{2\pi \sigma ^2}}e^{\frac{ -(x-\mu)^2 }{2 \sigma^2 }}\left ( log \frac{1}{\sigma } +log e^{\frac{ -(x-\mu)^2 }{ 2\sigma^2 }}-log e^{ -x^2/2 }\right ) \\ &= \int \frac{1}{\sqrt{2\pi \sigma ^2}}e^{\frac{ -(x-\mu)^2 }{2 \sigma^2 }}\left ( log \frac{1}{\sigma } +\frac{ -(x-\mu)^2 }{ 2\sigma^2 }+ \frac{x^2}{2} \right) \\ &=\frac{1}{2} \int \frac{1}{\sqrt{2\pi \sigma ^2}}e^{\frac{ -(x-\mu)^2 }{2 \sigma^2 }}\left ( log \frac{1}{\sigma^2 } +\frac{ -(x-\mu)^2 }{ \sigma^2 }+ x^2 \right) \\ &=\frac{1}{2} \left (\int \frac{1}{\sqrt{2\pi \sigma ^2}}e^{\frac{ -(x-\mu)^2 }{2 \sigma^2 }}log \frac{1}{\sigma^2 }+ \int \frac{1}{\sqrt{2\pi \sigma ^2}}e^{\frac{ -(x-\mu)^2 }{2 \sigma^2 }}\frac{ -(x-\mu)^2 }{ \sigma^2 }+ \int \frac{1}{\sqrt{2\pi \sigma ^2}}e^{\frac{ -(x-\mu)^2 }{2 \sigma^2 }}x^2 \right ) \\ \end{aligned}$

等号右边第一个式子：是常数项，是概率积分×常数

$\begin{aligned} \int \frac{1}{\sqrt{2\pi \sigma ^2}}e^{\frac{ -(x-\mu)^2 }{2 \sigma^2 }}log \frac{1}{\sigma^2 }dx&=\int \frac{1}{\sqrt{2\pi \sigma ^2}}e^{\frac{ -(x-\mu)^2 }{2 \sigma^2 }}dx\ast log \frac{1}{\sigma^2 }\\ &=1\ast log \frac{1}{\sigma^2 }\\ &=log \frac{1}{\sigma^2 }\\ \end{aligned}$

等号右边第二个式子：可以拆成三个不同的期望求解

$\begin{aligned} \int \frac{1}{\sqrt{2\pi \sigma ^2}}e^{\frac{ -(x-\mu)^2 }{2 \sigma^2 }}\frac{ -(x-\mu)^2 }{ \sigma^2 }dx &=E_x[\frac{ -(x-\mu)^2 }{ \sigma^2 }]\\ &= \frac{1}{\sigma ^2}E_x[-x^2+2\mu x -\mu^2]\\ &= \frac{1}{\sigma ^2}\left (-E_x[x^2]+2\mu E_x[x] -\mu^2 \right ) \\ \end{aligned}$

由于高斯分布的一阶矩、二阶矩表达式如下：

$E_z[x] = \mu \\E_z[x^2] = \mu ^2+\sigma ^2$

代入上式：

$\begin{aligned} &= \frac{1}{\sigma ^2}\left (-E_x[x^2]+2\mu E_x[x] -\mu^2 \right ) \\ &= \frac{1}{\sigma ^2}\left (-(\mu ^2+\sigma ^2)+2\mu *\mu -\mu^2 \right ) \\ &= \frac{1}{\sigma ^2}*(-\sigma ^2) \\ &= -1 \\ \end{aligned}$

等号右边第三个式子：可以看到就是二阶矩，因此：

$\int \frac{1}{\sqrt{2\pi \sigma ^2}}e^{\frac{ -(x-\mu)^2 }{2 \sigma^2 }}x^2=E_x[x^2]=\mu ^2+\sigma ^2$

代入三部分的化简，最后KL散度的值为：

$\begin{aligned} D_{kl}(N(\mu, \sigma^2 )||N(0,1)) &=\frac{1}{2} \left (\int \frac{1}{\sqrt{2\pi \sigma ^2}}e^{\frac{ -(x-\mu)^2 }{2 \sigma^2 }}log \frac{1}{\sigma^2 }+ \int \frac{1}{\sqrt{2\pi \sigma ^2}}e^{\frac{ -(x-\mu)^2 }{2 \sigma^2 }}\frac{ -(x-\mu)^2 }{ \sigma^2 }+ \int \frac{1}{\sqrt{2\pi \sigma ^2}}e^{\frac{ -(x-\mu)^2 }{2 \sigma^2 }}x^2 \right ) \\ &=\frac{1}{2}\left ( log\frac{1}{ \sigma^2 }-1+ \mu ^2+\sigma ^2\right ) \end{aligned}$

到此，KL散度的loss推导结果： $\frac{1}{2}\left ( log\frac{1}{ \sigma^2 }-1+ \mu ^2+\sigma ^2\right )$

对比代码部分：完全一致

kld_loss = torch.mean(-0.5 * torch.sum(1 + log_var - mu ** 2 - log_var.exp()))

-----------------------------------------------------vae end----------------------------------------

第二部分：扩散模型

论文：https://arxiv.org/abs/2112.10752

代码：GitHub - CompVis/latent-diffusion: High-Resolution Image Synthesis with Latent Diffusion Models

本部分分两个模块讲解

训练阶段
推理生成阶段
网络结构

2.1 训练阶段

由VAE编码器得到高维特征z,扩散模型训练、推理的维度都在这个空间进行

如下图所示，是把z逐渐加噪的过程

有加噪系数 $\beta$ 随着加噪次数增多加噪力度也越来越大，实际代码 $\beta$ 取值范围[0.00001,0.002]

$\alpha =1-\beta$

z 加噪到第 t 次 ,特征变成 Xt,它是由Xt-1生成的，表达式如下：

$x_t=\sqrt{\alpha }\ast x_ {t-1}+\sqrt{1-\alpha } \ast z_{t}$

可以看到，由于 $\beta$ 越来越大 $\alpha$ 越来越小，也就是 Xt-1影响权重越来越小，噪音权重越来越大。

由于这个逐步加噪的过程都是常数，因此可以直接生成某次加噪的结果和噪音标签。但是具体怎么生成呢？

$\begin {aligned} x_t&=\sqrt{\alpha_t }\ast x_ {t-1}+\sqrt{1-\alpha_t } \ast z_{t} \\ &=\sqrt{\alpha_t }\ast (\sqrt{\alpha_{t-1} }\ast x_ {t-2}+\sqrt{1-\alpha_{t-1} } \ast z_{t-1} )+\sqrt{1-\alpha_t } \ast z_{t} \\ &=\sqrt{\alpha_t } \sqrt{\alpha_{t-1} }\ast x_ {t-2}+\sqrt{\alpha_t }\sqrt{1-\alpha_{t-1} } \ast z_{t-1} +\sqrt{1-\alpha_t } \ast z_{t} \\ \end {aligned}$

其中：噪声 $z_{1},z_{2},...,z_{t-1},z_{t}$ 是均随机采样自标准正态分布 N(0,1).

因此:

$\sqrt{1-\alpha_t } \ast z_{t}$ 服从 N( 0, $1-\alpha_t$ )

$\sqrt{\alpha_t }\sqrt{1-\alpha_{t-1} } \ast z_{t-1}$ 服从 N(? 0, $\alpha_t (1-\alpha_{t-1})$ )

?看原式后两项，是两个分布相加，就是一个新的高斯分布 N(? 0, $\alpha_t (1-\alpha_{t-1})+1-\alpha_t$ ) 化简后：N(? 0, $1-\alpha_t \alpha_{t-1}$ ) 换成由标准正太分布表示的形式： $\sqrt{1-\alpha_t \alpha_{t-1}}z$ ,带回原式子：

$\begin {aligned} x_t&=\sqrt{\alpha_t } \sqrt{\alpha_{t-1} }\ast x_ {t-2}+\sqrt{\alpha_t }\sqrt{1-\alpha_{t-1} } \ast z_{t-1} +\sqrt{1-\alpha_t } \ast z_{t} \\ &=\sqrt{\alpha_t } \sqrt{\alpha_{t-1} }\ast x_ {t-2}+\sqrt{1-\alpha_{t-1}\alpha_{t} } \ast z \\ \end {aligned}$

一直的递归下去，直到x0,可以得到：其中z是标准正态分布做的随机噪声

$x_t=\sqrt{\prod_{i}^t \alpha i}\ast x_0+\sqrt{1-\prod_{i}^t \alpha i}\ast z$

那么这个 $x_t$ 就是我们想得到的任意时刻的加噪图片。

因此，训练流程：

??????? repeat:

??????????????? 1、数据集采样 $x_0$

??????????????? 2、随机选取一个时刻 t (1~2000)

??????????????? 3、制作标签： t 时刻图像上加的噪声 $\epsilon$ ~N(0,1）

??????????????? 4、计算梯度，由如下损失： $\epsilon _\theta$ 是噪声预测网络

$||\epsilon -\epsilon _\theta (x_t,t)||=||\epsilon -\epsilon _\theta (\sqrt{\overline{\alpha} }x_0+\sqrt{1-\overline{\alpha} }\epsilon ,t)||$

2.2 生成过程

现在再看逆向的过程：由 $x_t$ 逐渐得到 $x_0$ ，扩散模型的预测噪声是一步一步预测的，也就是一步一步逆向先看由 $x_t$ 到 $x_{t-1}$ ,那么由概率表示就是 $q(x_{t-1}|x_t)$ ，而我们已知 $q(x_t|x_{t-1})$ ，因此对其进行贝叶斯替换后：(第一行省略x0方便理解）

$\begin {aligned} q(x_{t-1}|x_t)&=q(x_t|x_{t-1})\frac{q(x_{t-1})}{q(x_t)}\\ q(x_{t-1}|x_t,x_0)&=q(x_t|x_{t-1},x_0)\frac{q(x_{t-1}|x_0)}{q(x_t|x_0)} \end{aligned}$

其中：等式右边的概率均可由前向推理表达出来，一切均由x0得到，上面第一行省略条件x0,由于下式子的展开需要用到x0因此不省略了

$q(x_t|x_{t-1},x_0)$ 就是迭代加噪：

$x_t=\sqrt{\alpha }\ast x_ {t-1}+\sqrt{1-\alpha } \ast z$ ? ，服从 $N(\sqrt{\alpha_t }x_0,1-\alpha_t)$

$q(x_t|x_0)$ 由 $x_0$ 前向加噪到 $x_t$ ：

$x_t=\sqrt{\prod_{i}^t \alpha i}\ast x_0+\sqrt{1-\prod_{i}^t \alpha i}\ast z$ ，服从 $N(\sqrt{\prod_{i}^t \alpha_i}\ast x_0,1-\prod_{i}^t \alpha_i)$

$q(x_{t-1}|x_0)$ 由 $x_0$ 前向加噪到 $x_{t-1}$ ：

$x_t=\sqrt{\prod_{i}^{t-1} \alpha_i}\ast x_0+\sqrt{1-\prod_{i}^{t-1} \alpha_i}\ast z$ ，服从 $N(\sqrt{\prod_{i}^{t-1} \alpha_i}\ast x_0,1-\prod_{i}^{t-1} \alpha_i)$

因此逆向的 $q(x_{t-1}|x_t,x_0)$ ，就可以由三个高斯分布重新表示：

由于已知三个高斯分布的均值和方差，因此其概率密度就可以表示出来，带回到原贝叶斯公式：

$\begin {aligned} q(x_{t-1}|x_t) &=q(x_t|x_{t-1})\frac{q(x_{t-1})}{q(x_t)}\\ q(x_{t-1}|x_t,x_0) &=q(x_t|x_{t-1},x_0)\frac{q(x_{t-1}|x_0)}{q(x_t|x_0)} \\ &=\frac{1}{\sqrt{2\pi (1-\alpha _t)}}exp(\frac{-(x_t-\sqrt{\alpha _t}*x_{t-1})^2}{2(1-\alpha _t)}) \times \frac{1}{\sqrt{2\pi (1-\prod_i^{t-1}\alpha _i)}}exp(\frac{-(x_{t-1}-\sqrt{\prod_i^{t-1}\alpha _i}*x_{0})^2}{2(1-\prod_i^{t-1}\alpha _i)}) \div \frac{1}{\sqrt{2\pi (1-\prod_i^{t}\alpha _i)}}exp(\frac{-(x_t-\sqrt{\prod_i^{t}\alpha _i}*x_{0})^2}{2(1-\prod_i^{t}\alpha _i)}) \\ \end{aligned}$

可以看到等号右边的所有exp前都有常数项，因此上面等式可以化简为，正比于：

$\begin {aligned} & \propto exp(-\frac{1}{2}(\frac{(x_t-\sqrt{\alpha _t}*x_{t-1})^2}{1-\alpha _t}+\frac{(x_{t-1}-\sqrt{\prod_i^{t-1}\alpha _i}*x_{0})^2}{1-\prod_i^{t-1}\alpha _i}-\frac{(x_t-\sqrt{\prod_i^{t}\alpha _i}*x_{0})^2}{1-\prod_i^{t}\alpha _i})) \\ & \propto exp(-\frac{1}{2}(\frac{x_t^2-2x_t\sqrt{\alpha _t}*x_{t-1}+\alpha _t*x_{t-1}^2}{1-\alpha _t}+\frac{x_{t-1}^2-2x_{t-1}\sqrt{\prod_i^{t-1}\alpha _i}*x_{0}+\prod_i^{t-1}\alpha _i*x_{0}^2}{1-\prod_i^{t-1}\alpha _i}-\frac{(x_t-\sqrt{\prod_i^{t}\alpha _i}*x_{0})^2}{1-\prod_i^{t}\alpha _i})) \\ & \propto exp(-\frac{1}{2}( (\frac{\alpha_t}{\beta _t} + \frac{1}{1-\prod _i^{t-1}\alpha _i})x_{t-1}^2- (\frac{2\sqrt{\alpha_t}}{\beta _t}x_t +\frac{2\sqrt{\prod _i^{t-1}\alpha _i}}{1-\prod _i^{t-1}\alpha _i}x_0 )x_{t-1} + C(x_t,x_0))) \\ \end{aligned}$

其中C是常数项，不用管。

对于任意高斯分布都有：

$exp(-\frac{(x-\mu)^2}{2\sigma ^2})=exp(-\frac{1}{2}(\frac{1}{\sigma^2 }x^2-\frac{2\mu}{\sigma ^2}x+\frac{\mu^2}{\sigma ^2}))$

通过平方项和一次项参数求解均值&方差因此：

令 $\prod_i^{t-1}\alpha _i$ 为 $\overline{\alpha}_{t-1}$ ? ;?? 令 $\prod_i^{t}\alpha _i$ 为 $\overline{\alpha}_{t}$

$\widetilde{\mu_t}(x_t,x_0)=\frac{\sqrt{\alpha _t}(1-\overline{\alpha }_{t-1})}{1-\overline{\alpha }_t}x_t+\frac{\sqrt{\overline{\alpha }_{t-1}}\beta _t}{1-\overline{\alpha }_t}x_0$

上面得到分布 $q(x_{t-1}|x_t,x_0)$ 的均值和方差，可以看到均值里面包含 $x_0$ ，由于推理阶段 $x_0$ 是未知的，但是可以由 $x_t$ 表达出来：

$x_t$ 由 $x_0$ 得到，逆向一下，那么 $x_0$ 也可以由 $x_t$ 表示:

$x_t=\sqrt{\overline{\alpha}_t}\ast x_0+\sqrt{1-\overline{\alpha}_t}\ast z \\ x_0=\frac{1}{\sqrt{\overline{\alpha}_t}}(x_t-\sqrt{1-\overline{\alpha}_t}\ast z)$

将 $x_0$ 重新代入均值表达式：

$\widetilde{\mu_t}(x_t)=\frac{1}{\sqrt{\alpha _t}}(x_t+\frac{1-\alpha _t}{\sqrt{1-\overline{\alpha} _t}}\epsilon (x_t,t))$

到此 $q(x_{t-1}|x_t,x_0)$ 的均值和方差都是已知的了，使用重采样方法得到 x t-1，其中z~N(0,1)

$x_ {t-1}=\mu+\sigma * z$

将均值和方差代入：(方差是固定值，暂时由σ表示)

$x_ {t-1}=\frac{1}{\sqrt{\alpha _t}}(x_t+\frac{1-\alpha _t}{\sqrt{1-\overline{\alpha} _t}}\epsilon (x_t,t))+\sigma * z$

到此已经得到所有公式的推导。

因此，推理流程：???????

???????? 1、随机生成个高斯噪声 $x_t$ ~N(0,1)，噪声预测模型 $\epsilon$

???????? 2、 for?? t?? in?? [T,T-1,......1]:

??????????????????? z ~N(0,1) ?? if t>1 else z=0

??????????????????? $x_ {t-1}=\frac{1}{\sqrt{\alpha _t}}(x_t+\frac{1-\alpha _t}{\sqrt{1-\overline{\alpha} _t}}\epsilon (x_t,t))+\sigma * z$

???????? 3、return $x_0$

下图理解起来更容易：

网络结构 ???????

噪声预测模型的网络结构总体是UNet的形状，其中的block是crossAttention

去噪的过程就是重复执行Unet,逐步降噪

具体网络结构如下：

可以看到每个block都有次数 t 的位置编码加入，本来代表加噪次数的 t 在模型中是正余弦位置编码

?上图是Unet网络中的Time Embedding & crossAttention，可以看到代表次数的位置编码Time Embedding是通过线性变换后直接加到原特征图上。

下图是具体的Block结构

第三部分：微调方法

上图可以看出其他模态的数据&条件均通过交叉注意力中的K和V添加进网络

四种模型训练方法：

Textual Inversion（Embeddings）：只训练成对的目标词语和图像,其他部分全部冻结
Hypernetwork：附加到Diffusion model的小型神经网络，用于修改其风格
LoRA：(Low-Rank Adaptation of Large Language Models) 改变权重来修改交叉注意力
DreamBooth：几张图像进行训练来更新整个扩散模型

Textual Inversion（Embeddings）

代码：GitHub - rinongal/textual_inversion

# 训练：如图，少量图像 和 新的词语 成对微调网络，其他词语冻结 
# 这样就可以使用模型原有的能力在我们提供的图像类别上了，风格角度等等
python main.py --base configs/latent-diffusion/txt2img-1p4B-finetune.yaml 
               -t 
               --actual_resume /path/to/pretrained/model.ckpt 
               -n <run_name> 
               --gpus 0, 
               --data_root /path/to/directory/with/images # 训练集图像
               --init_word <initialization_word> # 初始化提示词
               
注释：
txt2img-1p4B-finetune.yaml 配置文件中的↓ 需要修改
        placeholder_strings: ["*"]  # 为训练集图像类别
        initializer_words: ["sculpture"] # 初始化提示词
        
推理时，可以使用文字提示 "a photo of *" 来生成图像
通常适用于转换图像风格
模型关键字尽量是不常见的词语

Hypernetwork

它是一个附加到Stable Diffusion model的小型神经网络，用于修改其风格。

# 训练过程中原本的stable Diffusion冻结不训练

# 仅训练 Hypernetwork-1&Hypernetwork-2

# 大约几十MB

# 通常训练艺术风格

# 推荐训练画风

LoRA

LoRA 模型类似Hypernetwork,它们都很小并且只修改交叉注意力模块。区别在于他们如何修改它。 LoRA 模型通过改变权重来修改交叉注意力。超网络通过插入额外的网络来实现这一点。用户普遍发现 LoRA 模型能产生更好的结果。它们的文件大小相似，通常低于 200MB，并且比检查点模型小得多。

DreamBooth

base:embeding改的：https://github.com/XavierXiao/Dreambooth-Stable-Diffusion

是一种训练技术，通过对某个主题或风格的几张图像进行训练来更新整个扩散模型。它的工作原理是将提示中的特殊单词与示例图像相关联。

作者希望将输入图片中的物体与一个特殊标识符绑定在一起，即用这个特殊标记符来表示输入图片中的物体。因此作者为微调模型设计了一种prompt格式：

a [identifier] [class noun]

即:将所有输入图片的prompt都设置成这种形式，

其中

identifier 是一个与输入图片中物体相关联的特殊标记符，
class noun 是对物体的类别描述。

这里之所以在prompt中加入类别，是因为作者想利用预训练模型中关于该类别物品的先验知识，并将先验知识与特殊标记符相关信息进行融合，这样就可以在不同场景下生成不同姿势的目标物体

作者提出的方法，大致如下图所示，即仅仅通过3到5张图片去微调文生图模型，使得模型能将输入图片中特定的物品和prompt中的特殊标记符关联起来。

文章来源:https://blog.csdn.net/magic_shuang/article/details/135319620
本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若内容造成侵权/违法违规/事实不符，请联系我的编程经验分享网邮箱：veading@qq.com进行投诉反馈，一经查实，立即删除！