深度学习初始化Xavier、Kaiming

2024-01-08 19:13:21

初始化Init

$第l层网络神经元的输出: a^{(l)}$

$a^{(l)}_{i}$

$第l层网络神经元的激活前的输出: y^{(l)}$

$y^{(l)}_{i}$

$第l层网络神经元的参数个数: M_{l}$

$第l层网络神经元的参数：w^{l}$

$第l层网络神经元的参数第i个分量：w^{l}_{i}$

$激活函数： f$

文章目录

初始化Init

1.Xaiver初始化

1.1 公式推导

一个良好的初始化可以帮助神经网络更好地训练和更稳定地收敛。除去早期的全零初始化和随机初始化，Xaiver初始化是常用的初始化方法之一。

Xaiver初始化是一种维持前后输入、输出均值和方差一致的初始化方法，起初是针对sigmoid、tanh等激活函数而设计的。

考虑第l层的网络某一个神经元，其输出为 $a^{(l)}$ ，其参数为 $w^{l}$ ，则有：
$a^{(l)}=f(\sum_{i=1}^{M_{l-1}}w_{i}^{(l)}a_{i}^{(l-1)})$
现在，为了简化问题，我们认为激活函数为恒等函数吗，即 $f (x) = x$
假设 $w_{i}^{(l)}和a_{i}^{(l-1)}$ 服从均值为0，且互相独立，则有
$Var[w_{i}^{(l)}a_{i}^{(l-1)}]=E[(w_{i}^{(l)}a_{i}^{(l-1)})^2]-(E[w_{i}^{(l)}a_{i}^{(l-1)}])^2=(E[(w_{i}^{(l)})^2]-0)(E[(a_{i}^{(l-1)})^2]-0)=Var[w_{i}^{(l)}]Var[a_{i}^{(l-1)}]$
故推导期望与方差为
$E[a^{(l)}]=E[\sum_{i=1}^{M_{l-1}}w_{i}^{(l)}a_{i}^{(l-1)}]=\sum_{i=1}^{M_{l-1}}E[w_{i}^{(l)}]E[a_{i}^{(l-1)}]=0$ $Var[a^{(l)}]=Var[\sum_{i=1}^{M_{l-1}}w_{i}^{(l)}a_{i}^{(l-1)}]=\sum_{i=1}^{M_{l-1}}Var[w_{i}^{(l)}]Var[a_{i}^{(l-1)}]=M_{l-1}Var[w_{i}^{(l)}]Var[a_{i}^{(l-1)}]$
我们希望保持输入和输出的均值和方差一致，故有
$Var[w_{i}^{(l)}a_{i}^{(l-1)}]=M_{l-1}Var[w_{i}^{(l)}]Var[a_{i}^{(l-1)}]=Var[a_{i}^{(l-1)}]$ $Var[w_{i}^{(l)}]=\frac{1}{M_{l-1}}$
以上即为只考虑前向传播时的初始化。

同理，考虑反向传播时的初始化，有
$Var[w_{i}^{(l)}]=\frac{1}{M_{l+1}}$
综合考虑，即取前后神经元个数的平均值，有 $Var[w_{i}^{(l)}]=\frac{1}{\frac{M_{l+1}+M_{l-1}}{2}}=\frac{2}{M_{l+1}+M_{l-1}}$
因此，我们得到了Xavier初始化分布的均值与方差。

1.2 均匀分布

当我们考虑均匀分布 $\sim U(-bound,bound)$ 时，有
$E [x] = 0$ $Var[x]=\frac{bound^2}{3}$
因此，当我们采用均匀分布采样Xavier初始化时，有 $bound=\sqrt{\frac{6}{M_{l+1}+M_{l-1}}}$
具体使用时，还有一个参数 $g ain$ 用于手动调整均匀分布的边界，即 $bound=gain×\sqrt{\frac{6}{M_{l+1}+M_{l-1}}}$

1.3 正态分布

正态分布由均值和方差决定，因此，参数 $w_{i}^{(l)}$ 可直接采样于 $N(0,\frac{2}{M_{l+1}+M_{l-1}})$

1.4 截断正态分布

当然还有结合了均匀分布和正态分布的截断正态分布，其思想是先采样于正态分布 $N(\mu,\sigma^2)$ ，再根据设定的阈值 $[\mu-k\sigma,\mu+k\sigma]$ 进行判断，如果落在区间内就保留，否则就需要重新采样。

截断正态分布不改变采样结果的均值，但改变了采样结果的方差，实际方差为 $\eta\sigma^2$ ，其中 $\eta=\frac{\int^{k}_{-k}{x^2e^{-x^2}dx}}{\int^{k}_{-k}{e^{-x^2}dx}}$
实际输入方差应为 $\frac{\sigma}{\sqrt{\eta}}$

1.5 针对sigmoid和tanh激活的gain取值

之所以我们能够使用激活函数为恒等函数，即 $f (x) = x$ ，进行理论推导，是因为针对sigmoid函数和tanh函数，在 $x = 0$ 可以近似为一条直线。
其中，sigmoid函数的导数为 $f'(x)=\sigma(x)(1-\sigma(x))$ tanh函数的导数为 $f'(x)=1-tanh^2(x)$
对于sigmoid函数而言， $x = 0$ 附近斜率为0.25。 $Var[w_{i}^{(l)}a_{i}^{(l-1)}]=\frac{1}{16}M_{l-1}Var[w_{i}^{(l)}]Var[a_{i}^{(l-1)}]$ 因此， $g ain = 4$ 用以调整。
而tanh函数， $x = 0$ 附近斜率为1，保持 $g ain = 1$ 即可。

2. Kaiming初始化

2.1 公式推导

Kaiming初始化是针对ReLU激活函数的，其思想是使得激活函数的输入方差与输出方差相等。

我们认为ReLU所激活的神经元数量应为一半。

此时我们需要注意，我们依然可以假设假设 $w_{i}^{(l)}和a_{i}^{(l-1)}$ 互相独立，且 $w_{i}^{(l)}$ 均值为0，但此时，由于激活函数为ReLU，因此 $E[a_{i}^{(l-1)}]\neq0$
我们有 $a^{(l)}=ReLU(y_{i}^{(l)})$ $y^{(l)}=\sum_{i=1}^{M_{l-1}}w_{i}^{(l)}a_{i}^{(l-1)}$
具体地，我们有 $E[y^{(l)}]=\sum_{i=1}^{M_{l-1}}E[w_{i}^{(l)}]E[a_{i}^{(l-1)}]=0$ $Var[y^{(l)}]=M_{l-1}E[(w_{i}^{(l)}a_{i}^{(l-1)})^2]=M_{l-1}E[(w_{i}^{(l)})^2]E[(a_{i}^{(l-1)})^2]=M_{l-1}Var[w_{i}^{(l)}]E[(a_{i}^{(l-1)})^2]$
现在，我们只需要考虑 $y^{(l)}$ 的分布即可，因为激活函数都是一样的，因此，我们需要考虑 $E[(a_{i}^{(l-1)})^2]$ $\begin{align} E[(a_{i}^{(l-1)})^2]&=\int^{+\infty}_{-\infty}ReLU^2(y^{(l-1)})p(y^{(l-1)})dy^{(l-1)}\nonumber \\&=\int^{0}_{-\infty}ReLU^2(y^{(l-1)})p(y^{(l-1)})dy^{(l-1)}+\int^{+\infty}_{0}ReLU^2(y^{(l-1)})p(y^{(l-1)})dy^{(l-1)}\nonumber \\&=0+\int^{+\infty}_{0}ReLU^2(y^{(l-1)})p(y^{(l-1)})dy^{(l-1)}\nonumber \\&=\int^{+\infty}_{0}(y^{(l-1)})^2p(y^{(l-1)})dy^{(l-1)}\nonumber \quad【ReLU展开】 \\&=\frac{1}{2}\int^{+\infty}_{-\infty}(y^{(l-1)})^2p(y^{(l-1)})dy^{(l-1)}\nonumber \quad【对称性】 \\&=\frac{1}{2}E[(y^{(l-1)})^2]\nonumber \\&=\frac{1}{2}\{Var[y^{(l-1)}]+(E[(y^{(l-1)})])^2\}\nonumber \\&=\frac{1}{2}Var[y^{(l-1)}]\nonumber \end{align}$
因此， $Var[y^{(l)}]=M_{l-1}Var[w_{i}^{(l)}]E[(a_{i}^{(l-1)})^2]=\frac{1}{2}M_{l-1}Var[w_{i}^{(l)}]Var[y^{(l-1)}]$
故，我们保持 $y^{(l)}和y^{(l-1)}$ 的方差一致，则有: $Var[w_{i}^{(l)}]=\frac{2}{M_{l-1}}$
具体采样方法如Xavier一致，可采用均匀分布、正态分布、截断正态分布进行采样。

2.2 针对Leaky ReLU或PReLU的修正因子a

如果，激活函数为Leaky ReLU或PReLU，即 $LeakyReLU(x)=\begin{cases} x, & x\ge0\\ ax, & x < 0,a\ge0 \end{cases}$ 则有：
$\begin{align} E[(a_{i}^{(l-1)})^2]&=\int^{+\infty}_{-\infty}ReLU^2(y^{(l-1)})p(y^{(l-1)})dy^{(l-1)}\nonumber \\&=\int^{0}_{-\infty}ReLU^2(y^{(l-1)})p(y^{(l-1)})dy^{(l-1)}+\int^{+\infty}_{0}ReLU^2(y^{(l-1)})p(y^{(l-1)})dy^{(l-1)}\nonumber \\&=\int^{0}_{-\infty}(ay^{(l-1)})^2p(y^{(l-1)})dy^{(l-1)}+\int^{+\infty}_{0}(y^{(l-1)})^2p(y^{(l-1)})dy^{(l-1)}\nonumber \quad【ReLU展开】 \\&=(1+a^2)\int^{+\infty}_{0}(y^{(l-1)})^2p(y^{(l-1)})dy^{(l-1)}\nonumber \quad【对称性】 \\&=\frac{1+a^2}{2}\int^{+\infty}_{-\infty}(y^{(l-1)})^2p(y^{(l-1)})dy^{(l-1)}\nonumber \quad【对称性】 \\&=\frac{1+a^2}{2}Var[y^{(l-1)}]\nonumber \end{align}$
则有: $Var[w_{i}^{(l)}]=\frac{2}{(1+a^2)M_{l-1}}$
则针对均匀分布有 $w_{i}^{(l)} \sim U(-\sqrt{\frac{6}{(1+a^2)M_{l+1}}},\sqrt{\frac{6}{(1+a^2)M_{l+1}}})$
当 $a = 0$ 时，Leaky ReLU与ReLU等价。

文章来源:https://blog.csdn.net/Leafing_/article/details/135462517
本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若内容造成侵权/违法违规/事实不符，请联系我的编程经验分享网邮箱：veading@qq.com进行投诉反馈，一经查实，立即删除！