深度学习——第4.1章深度学习的数学基础

2023-12-14 05:08:43

第4章深度学习的数学基础

本章总结一下机器学习所需的数学知识，同时介绍如何在Python中使用这些知识。

4.1 向量

4.1.1 什么是向量

向量由几个数横向或纵向排列而成。

数纵向排列的向量叫作列向量，如下式4-1所示的变量就是列向量：
$\boldsymbol{a}=\left[\begin{array}{l} 1 \\ 3 \end{array}\right], \boldsymbol{b}=\left[\begin{array}{l} 2 \\ 1 \tag{4-1} \end{array}\right]$

数横向排列的向量叫作行向量，如下式4-2所示的变量就是行向量：
$\boldsymbol{c}=\left[\begin{array}{ll} 1 & 2 \end{array}\right], \boldsymbol{d}=\left[\begin{array}{llll} 1 & 3 & 5 & 4 \tag{4-2} \end{array}\right]$

构成向量的一个一个数叫作元素。向量中的元素个数叫作向量的维度。如上例所示， $\boldsymbol a$ 为二维列向量， $\boldsymbol d$ 为四维行向量。如 $\boldsymbol a$ 和 $\boldsymbol b$ 所示，向量一般用小写粗斜体表示。

与向量不同的普通的单个数叫作标量。标量一般用小写斜体表示为如 $a 、 b$ 。

向量右上角的 $T$ 是转置符号，表示将列向量转换为行向量，或者将行向量转换为列向量，如下式4-3所示：
$\boldsymbol{a}^{\mathrm{T}}=\left[\begin{array}{l} 1 \\ 3 \end{array}\right]^{\mathrm{T}}=\left[\begin{array}{ll} 1 & 3 \end{array}\right], \boldsymbol{d}^{\mathrm{T}}=\left[\begin{array}{llll} 1 & 3 & 5 & 4 \end{array}\right]^{\mathrm{T}}=\left[\begin{array}{l} 1 \\ 3 \\ 5 \\ 4 \tag{4-3} \end{array}\right]$

机器学习类教材中，除了从数学上来说必须使用转置符号的情况外，考虑到行距，有时也会把
$a=\left[\begin{array}{l} 1 \\ 3 \end{array}\right]$
写成 $\boldsymbol{a}=\left[\begin{array}{ll} 1 & 3 \end{array}\right]^{\mathrm{T}}$ 。

4.1.2 用Python定义向量

接下来，我们用Python定义向量。
要想使用向量，必须先使用import导入NumPy库。

# 代码清单 4-1-(1)
import numpy as np

然后，使用np.array定义向量a。

# 代码清单 4-1-(2)
a = np.array([2, 1])
print(a)

运行type，可以看到a的类型为numpy.ndarray。

# 代码清单 4-1-(3)
type(a)

运行结果：

numpy.ndarray

4.1.3 列向量的表示方法

事实上，一维的ndarray类型没有纵横之分，往往都表示为行向量。

不过用特殊形式的二维ndarray表示列向量也是可以的。

ndarray类型可以表示2×2的二维数组(矩阵)，如代码所示。

# 代码清单 4-1-(4)
c = np.array([[1, 2], [3, 4]])
print(c)

输出结果：

[[1 2]
 [3 4]]

用这个方式定义2×1的二维数组，就可以用它表示列向量。

# 代码清单 4-1-(5)
d = np.array([[1], [2]])
print(d)

输出结果：

[[1]
 [2]]

向量通常定义为一维ndarray类型，必要时可以用二维ndarray类型。

4.1.4 转置的表示方法

使用“变量名.T”表示。

# 代码清单 4-1-(6)
print(d.T)
print(d)
print(d.T.T)

输出结果：

[[1 2]]
[[1]
 [2]]
[[1]
 [2]]

使用d.T.T循环两次转置操作之后，就会变回原来的d。

注意：转置操作对于二维ndarray类型有效，对于一维ndarray类型是无效的。

print(a)
print(a.T)

输出结果：

[2 1]
[2 1]

4.1.5 加法和减法

接下来，我们思考下面两个向量 $\boldsymbol{a}$ 和 $\boldsymbol{b}$ ：
$\boldsymbol{a}=\left[\begin{array}{l} 2 \\ 1 \end{array}\right], \boldsymbol{b}=\left[\begin{array}{l} 1 \\ 3 \tag{4-4} \end{array}\right]$

首先进行加法运算。向量的加法运算 $\boldsymbol{a}+\boldsymbol{b}$ 是将各个元素相加：
$\boldsymbol{a}+\boldsymbol{b}=\left[\begin{array}{l} 2 \\ 1 \end{array}\right]+\left[\begin{array}{l} 1 \\ 3 \end{array}\right]=\left[\begin{array}{c} 2+1 \\ 1+3 \end{array}\right]=\left[\begin{array}{l} 3 \\ 4 \tag{4-5} \end{array}\right]$

向量的加法运算可以通过图形解释。首先，将向量的元素看作坐标点，将向量看作从坐标原点开始延伸到元素坐标点的箭头。这样的话，单纯地将各个元素相加的向量加法运算就可以看作，对以 $\boldsymbol{a}$ 和 $\boldsymbol{b}$ 为邻边的平行四边形求对角线(图4-1)。
在这里插入图片描述

图4-1 向量的加法运算

运行 $\boldsymbol{a}+\boldsymbol{b}$ 的加法运算之后，程序会返回预期的答案，可知 $\boldsymbol{a}$ 和 $\boldsymbol{b}$ 不是list类型，而是被当作向量处理的（对于list类型，加法运算的作用是连接）。

# 代码清单 4-1-(7)
a = np.array([2, 1])
b = np.array([1, 3])
la=list(a)
lb=list(b)
print(a + b)
print(la+lb)

输出结果：

[3 4]
[2, 1, 1, 3]

向量的减法运算与加法运算相同，是对各个元素进行减法运算：
$a-b=\left[\begin{array}{l} 2 \\ 1 \end{array}\right]-\left[\begin{array}{l} 1 \\ 3 \end{array}\right]=\left[\begin{array}{c} 2-1 \\ 1-3 \end{array}\right]=\left[\begin{array}{c} 1 \\ -2 \tag{4-6} \end{array}\right]$

Python计算代码如下：

# 代码清单 4-1-(8)
a = np.array([2, 1])
b = np.array([1, 3])
print(a - b)

输出结果：

[ 1 -2]

那么，减法运算该怎么借助图形解释呢？

$\boldsymbol{a}-\boldsymbol{b}$ 就是 $\boldsymbol{a}+\boldsymbol{(-b)}$ ，可以看作 $\boldsymbol{a}$ 和 $\boldsymbol{-b}$ 的加法运算。从图形上来说， $\boldsymbol{-b}$ 的箭头方向与 $\boldsymbol{b}$ 相反。所以， $\boldsymbol{a}+\boldsymbol{(-b)}$ 是以 $\boldsymbol{a}$ 和 $\boldsymbol{-b}$ 为邻边的平行四边形的对角线(图4-2)。
在这里插入图片描述

图4-2 向量的减法运算

4.1.6 标量积

在标量与向量的乘法运算中，标量的值会与向量的各个元素分别相乘，比如 $2\boldsymbol{a}$ ：
$\boldsymbol{a}=2 \times\left[\begin{array}{l} 2 \\ 1 \end{array}\right]=\left[\begin{array}{l} 2 \times 2 \\ 2 \times 1 \end{array}\right]=\left[\begin{array}{l} 4 \\ 2 \tag{4-7} \end{array}\right]$

在Python中，式4-7的计算如代码如下：

# 代码清单 4-1-(9)
print(2 * a)

输出结果：

[4 2]

从图形上来说，向量的长度变成了标量倍(图4-3)。
在这里插入图片描述

图4-3 向量的标量积

4.1.7 内积

向量与向量之间的乘法运算叫作内积。内积是由相同维度的两个向量进行的运算，通常用“ $\cdot$ ”表示，这在机器学习涉及的数学中很常见。内积运算是把对应的元素相乘，然后求和，比如 $\boldsymbol{b}=\left[\begin{array}{ll} 1 & 3 \end{array}\right]^{\mathrm{T}}、\boldsymbol{c}=\left[\begin{array}{ll} 4 & 2 \end{array}\right]^{\mathrm{T}}$ 的内积：
$\boldsymbol{b} \cdot \boldsymbol{c}=\left[\begin{array}{l} 1 \\ 3 \end{array}\right] \cdot\left[\begin{array}{l} 4 \\ 2 \tag{4-8} \end{array}\right]=1 \times 4+3 \times 2=10$

在Python中，我们使用“变量名1.dot(变量名2)”计算内积(代码清单4-1-(10))。

# 代码清单 4-1-(10)
b = np.array([1, 3])
c = np.array([4, 2])
print(b.dot(c))
print(b*c)

输出结果：

10
[4 6]

但是，内积表示的究竟是什么呢？如图4-4所示，设 $\boldsymbol{b}$ 在 $\boldsymbol{c}$ 上的投影向量为 $\boldsymbol{b'}$ ，那么 $\boldsymbol{b'}$ 和 $\boldsymbol{c}$ 的长度相乘即可得到内积的值。

当两个向量的方向大致相同时，内积的值较大。相反，当两个向量近乎垂直时，内积的值较小；当完全垂直时，内积的值为0。可以说，内积与两个向量的相似度相关。
在这里插入图片描述

图4-4 向量的内积

但是，请注意内积与向量自身的大小也相关。即使两个向量方向相同，只要其中一个向量变成原来的2倍，那么内积也会变成原来的2倍。

x = np.array([1,1])
y = np.array([-1,1])
print(x.dot(y))

z = np.array([0,1])
print(x.dot(z))

nz = np.array([-2,1])
print(x.dot(nz))

输出结果：

0
1
-1

4.1.8 向量的模

向量的模是指向量的长度，将向量夹在两个“ $\|$ ”之间，即可表示向量的模。二维向量的模可计算为：
$\|\boldsymbol{a}\|=\left\|\left[\begin{array}{c} a_{0} \\ a_{1} \tag{4-9} \end{array}\right]\right\|=\sqrt{a_{0}^{2}+a_{1}^{2}}$

三维向量的模可计算为：
$\|\boldsymbol{a}\|=\left\|\left[\begin{array}{c} a_{0} \\ a_{1} \\ a_{2} \tag{4-10} \end{array}\right]\right\|=\sqrt{a_{0}^{2}+a_{1}^{2}+a_{2}^{2}}$

在一般情况下，D维向量的模计算为：
$\|\boldsymbol{a}\|=\left\|\left[\begin{array}{c} a_{0} \\ a_{1} \\ \cdots \\ a_{D-1} \tag{4-11} \end{array}\right]\right\|=\sqrt{a_{0}^{2}+a_{1}^{2}+\cdots+a_{D-1}^{2}}$

在Python中，我们使用np.linalg.norm()求向量的模。

# 代码清单 4-1-(11)
a = np.array([3, 4])
print(np.linalg.norm(a))

输出结果：

5.0

4.2 求和符号

求和符号 $\Sigma$ (西格玛)会经常出现在机器学习教材中，比如，下式4-12的意思是“将从1到5的变量n的值全部相加”。
$\sum_{n=1}^{5} n=1+2+3+4+5 \tag{4-12}$

$n$ 用于简洁地表示长度较长的加法运算。对上式加以扩展，如式4-13所示，它表示“对于 $\Sigma$ 右边的 $f (n)$ ，令变量 $n$ 的取值从 $a$ 开始递增1，直到 $a$ 变为 $b$ ，然后把所有 $f (n)$ 相加”。
$\sum_{n=a}^{b} f(n)=f(a)+f(a+1)+\cdots+f(b) \tag{4-13}$

比如，令 $f(n)=n^2$ ，则结果如式4-14所示。这跟编程中的for语句很像。
$\sum_{n=2}^{5} n^{2}=2^{2}+3^{2}+4^{2}+5^{2} \tag{4-14}$

4.2.1 带求和符号的数学式的变形

在思考机器学习的问题时，我们常常需要对带求和符号的数学式进行变形。接下来，思考一下如何变形。最简单的情况是求和符号右侧的函数 $f (n)$ 中没有 $n$ ，比如 $f (n) = 3$ 。这时，只需用相加的次数乘以 $f (n)$ 即可，所以可以去掉求和符号：
$\sum_{n=1}^{5} 3=3+3+3+3+3=3 \times 5=15 \tag{4-15}$

当 $f (n)$ 为“标量×2的函数”时，可以将标量提取到求和符号的外侧(左侧)：
$\sum_{n=1}^{3} 2 n^{2}=2 \times 1^{2}+2 \times 2^{2}+2 \times 3^{2}=2\left(1^{2}+2^{2}+3^{2}\right)=2 \sum_{n=1}^{3} n^{2} \tag{4-16}$

当求和符号作用于多项式时，可以将求和符号分配给各个项：
$\sum_{n=1}^{5}\left[2 n^{2}+3 n+4\right]=2 \sum_{n=1}^{5} n^{2}+3 \sum_{n=1}^{5} n+4 \times 5 \tag{4-17}$

之所以可以这样做，是因为无论是多项式相加，还是各项单独相加再求和，答案都是一样的。

4.1.7节的向量的内积也可以使用求和符号表示。比如 $\boldsymbol{w}=\left[w_{0},w_{1} \cdots w_{D-1}\right]^{\mathrm{T}}$ 和 $\boldsymbol{x}=\left[x_{0},x_{1} \cdots x_{D-1}\right]^{\mathrm{T}}$ 的内积可以使用“ $\cdot$ ”表示为(图4-6)：
$\boldsymbol{w} \cdot \boldsymbol{x}=w_{0} x_{0}+w_{1} x_{1}+\cdots+w_{D-1} x_{D-1}=\sum_{i=0}^{D-1} w_{i} x_{i} \tag{4-18}$

在这里插入图片描述

图4-5矩阵表示法和元素表示法

图4-5左侧称为矩阵表示法（向量表示法），右侧称为元素表示法，而式4-18则可以看作在两者之间来回切换的一个式子。

4.2.2 通过内积求和

$\Sigma$ 跟编程中的for语句很像，根据式4-18， $\Sigma$ 也与内积有关，所以也可以通过内积计算 $\Sigma$ 。例如，从1加到1000的和为：
$1+2+\cdots+1000=\left[\begin{array}{c} 1 \\ 1 \\ \vdots \\ 1 \end{array}\right] \cdot\left[\begin{array}{c} 1 \\ 2 \\ \vdots \\ 1000 \tag{4-19} \end{array}\right]$

在Python中，式4-19的计算如代码如下所示。与for语句相比，这种方法的运算处理速度更快。

# 代码清单 4-2-(1)
import numpy as np

a = np.ones(1000)     # [1 1 1 ...     1]
b = np.arange(1,1001) # [1 2 3 ...  1000]
print(a.dot(b))

输出结果：

500500.0

4.3 累乘符号

累乘符号 $\Pi$ 与 $\Sigma$ 符号在使用方法上类似。 $\Pi$ 用于使 $f (n)$ 的所有元素相乘(图4-7)：
$\prod_{n=a}^{b} f(n)=f(a) \times f(a+1) \times \cdots \times f(b) \tag{4-20}$

下式是一个最简单的例子：
$\prod_{n=1}^{5} n=1 \times 2 \times 3 \times 4 \times 5 \tag{4-21}$

下式是累乘符号 $\Pi$ 作用于多项式的示例：
$\prod_{n=2}^{5}(2 n+1)=(2 \cdot 2+1)(2 \cdot 3+1)(2 \cdot 4+1)(2 \cdot 5+1) \tag{4-22}$

4.4 导数

大部分情况下，机器学习的问题可以归结为求函数取最小值（或最大值）时的输入的问题（最值问题）。因为函数具有在取最小值的地方斜率为0的性质，所以在求解这样的问题时，获取函数的斜率就变得尤为重要。推导函数斜率的方法就是求导。

4.4.1 多项式的导数

首先，我们以二次函数为例思考一下（图4-6左）：
$f(w)=w^2 \tag{4-23}$

在这里插入图片描述

图4-6左函数的导数表示斜率

import matplotlib.pyplot as plt  #导入matplotlib库
import numpy as np  #导入numpy库
import mpl_toolkits.axisartist as axisartist #并引入axisartist工具
%matplotlib inline

#创建画布
fig = plt.figure(figsize=(8, 8))
#使用axisartist.Subplot方法创建一个绘图区对象ax
ax = axisartist.Subplot(fig, 111)  
#将绘图区对象添加到画布中
fig.add_axes(ax)
#通过set_visible方法设置绘图区所有坐标轴隐藏
ax.axis[:].set_visible(False)
#ax.new_floating_axis代表添加新的坐标轴
ax.axis["x"] = ax.new_floating_axis(0,0)
#给x坐标轴加上箭头
ax.axis["x"].set_axisline_style("->", size = 1.0)
#添加y坐标轴，且加上箭头
ax.axis["y"] = ax.new_floating_axis(1,0)
ax.axis["y"].set_axisline_style("-|>", size = 1.0)
#设置x、y轴上刻度显示方向
ax.axis["x"].set_axis_direction("top")
ax.axis["y"].set_axis_direction("right")

#生成x步长为0.05的列表数据
x = np.linspace(-5,5,200)
y=x**2 
#设置x、y坐标轴的范围
plt.xlim(-5,5)
plt.ylim(-5, 25)
#绘制图形
plt.plot(x,y, c='violet')
plt.plot(x,-1-2*x,c='r')
plt.plot(x,2*x-1,c='g')
plt.plot(x,2*x,c='b')

输出结果：
在这里插入图片描述
函数 $f (w)$ 对 $w$ 的导数可以有如下多种表示形式：
$\frac{\mathrm{d} f(w)}{\mathrm{d} w}, \frac{\mathrm{d}}{\mathrm{d} w} f(w), f^{\prime}(w) \tag{4-24}$

导数表示函数的斜率（上图右）。由于当 $w$ 发生变化时，函数的斜率也会随之发生变化，所以函数的斜率也是一个关于 $w$ 的函数。这个二次函数就是：
$\frac{\mathrm{d}}{\mathrm{d} w}w^2=2w \tag{4-25}$

在一般的情况下，我们可以使用下式简单求出 $w^n$ 形式的函数的导数：
$\frac{\mathrm{d}}{\mathrm{d} w} w^{n}=n w^{n-1} \tag{4-26}$
在这里插入图片描述

图4-7 幂函数的导数公式

比如，四次函数的导数为：
$\frac{\mathrm{d}}{\mathrm{d} w} w^{4}=4 w^{4-1}=4 w^{3} \tag{4-27}$

如果是一次函数，则导数如下式所示。不过，由于一次函数是直线，所以无论 $w$ 取值如何，斜率都不会发生变化。
$\frac{\mathrm{d}}{\mathrm{d} w} w=1 w^{1-1}=w^{0}=1 \tag{4-28}$

4.4.2 带导数符号的数学式的变形

接下来，我们思考一下带导数符号的数学式该如何变形。跟求和符号 $\Sigma$ 一样，导数符号 $\frac{d}{dw}$ 也作用于式子的右侧。

如下面的 $2w^5$ 所示，当常数出现在 $w^n$ 的前面表示相乘时，我们可以把这个常数提取到导数符号的左侧：
$\frac{\mathrm{d}}{\mathrm{d} w} 2 w^{5}=2 \frac{\mathrm{d}}{\mathrm{d} w} w^{5}=2 \times 5 w^{4}=10 w^{4}$

与导数无关的部分(不是 $w$ 的函数的部分)，即使是字符表达式也可以把它提取到导数符号的左侧。

如果 $f (w)$ 中不包含 $w$ ，则导数为0：
$\frac{d}{dw}3=0$

那么，下式的导数是什么呢？
$f(w)=a^3+xb^2+2 \tag{4-29}$

这个式子里也不包含 $w$ ，所以导数为0：

当 $f (x)$ 包含多个带 $w$ 的项时，比如下面这个式子，它的导数是什么呢？
$f(w)=2w^3+3w^2+2$

此时，我们可以一项一项地分别进行导数计算：
$\frac{\mathrm{d}}{\mathrm{d} w} f(w)=2 \frac{\mathrm{d}}{\mathrm{d} w} w^{3}+3 \frac{\mathrm{d}}{\mathrm{d} w} w^{2}+\frac{\mathrm{d}}{\mathrm{d} w} 2=6 w^{2}+6 w \tag{4-30}$

4.4.3 复合函数的导数

在机器学习中，很多情况下需要求复合函数的导数，比如：
$f(w)=f(g(w))=g(w)^2 \tag{4-31}$
$\tag{4-32}$

只需简单地将式4-32代入式4-31中，然后展开，即可计算它的导数：
$f(w)=(aw+b)^2=a^2w^2+2awb+b^2 \tag{4-33}$
$\frac{d}{dw}f(w)=2a^2w+2ab \tag{4-34}$

4.4.4 复合函数的导数：链式法则

但是，有时式子比较复杂，很难展开。在这种情况下，可以使用链式法则。

链式法则的公式是：
$\frac{\mathrm{d} f}{\mathrm{~d} w}=\frac{\mathrm{d} f}{\mathrm{~d} g} \cdot \frac{\mathrm{d} g}{\mathrm{~d} w} \tag{4-35}$

接下来，我们借着式4-31和式4-32讲解一下链式法则。
$f(w)=f(g(w))=g(w)^2 \tag{4-31}$
$\tag{4-32}$

首先， $df / d g$ 的部分是“ $f$ 对 $g$ 求导”的意思，所以可以套用导数公式，得到：
$\frac{\mathrm{d} f}{\mathrm{~d} g}=\frac{\mathrm{d}}{\mathrm{d} g} g^{2}=2 g \tag{4-36}$

后面的 $d g / d w$ 是“ $g$ 对 $w$ 求导”的意思，所以可以得到
$\frac{\mathrm{d} g}{\mathrm{~d} w}=\frac{\mathrm{d}}{\mathrm{d} w}(a w+b)=a\tag{4-37}$

接下来，把式4-36和式4-37代入式4-35，就可以得到和式4-34的答案一样的答案了：
$\frac{\mathrm{d} f}{\mathrm{~d} w}=\frac{\mathrm{d} f}{\mathrm{~d} g} \cdot \frac{\mathrm{d} g}{\mathrm{~d} w}=2 g a=2(a w+b) a=2 a^{2} w+2 a b\tag{4-38}$

链式法则还可以扩展到三重甚至四重嵌套的复合函数中，比如函数：
$f(w)=f(g(h(w)))\tag{4-39}$

此时，需要使用如下公式：
$\frac{\mathrm{d} f}{\mathrm{~d} w}=\frac{\mathrm{d} f}{\mathrm{~d} g} \cdot \frac{\mathrm{d} g}{\mathrm{~d} h} \cdot \frac{\mathrm{d} h}{\mathrm{~d} w}\tag{4-40}$

4.4.5 基本函数的求导公式

$y = c (c 为常数)$
$y^{'} = 0$
$y=x^n$
$y'=nx^{(n-1)}$
$y=a^x$
$y'=a^x\ln a$
$特例：y=e^x时，y'=e^x$
$y=\log_ax$
$y'=\frac {1}{x \ln a}$
$特例： a = e 时， y^{'} = 1/ x$

4.5 偏导数

4.5.1 偏导数的概念

机器学习中不仅会用到导数，还会用到偏导数。

思考一下多变量函数，比如关于 $w_0$ 和 $w_1$ 的函数：
$f\left(w_{0}, w_{1}\right)=w_{0}^{2}+2 w_{0} w_{1}+3\tag{4-41}$

对于式4-41，如果只对其中一个变量（比如 $w_0$ ）求导，而将其他变量（这里是 $w_1$ ）当作常数，那么求出的就是偏导数。
在这里插入图片描述

图4-8 偏导数

“ $f$ 对 $w_0$ 的偏导数”的数学式是：
$\frac{\partial f}{\partial w_{0}}, \frac{\partial}{\partial w_{0}} f, f_{w_{0}}^{\prime}\tag{4-42}$

备注：偏导数的表示符号为：$\partial $ 。$\partial $读作 ro u n d 。$ \partial $是希腊字母$ \delta $的古典写法，数学里只用作表示偏导数的记号，在表示偏导数的时候，一般不念字母名称，大多念作 “ 偏 ” （例如$ z $对$ x $的偏导数, 念作 “ 偏$ z $偏$ x$”）。

求偏导数的方法是“只对要求偏导数的变量进行求导”，实际上它的求导过程与普通的导数（常微分）是一样的。

例如，以前面的式4-41中的 $\partial f / \partial w_{0}$ 来说，就是只关注其中的 $w_0$ ，像下式这样思考：
$f\left(w_{0}, w_{1}\right)=w_{0}^{2}+2 w_{1} w_{0}+3\tag{4-43}$

套用导数公式之后，得到：
$\frac{\partial f}{\partial w_{0}}=2 w_{0}+2 w_{1}\tag{4-44}$

而对于式4-41中的 $\partial f / \partial w_{1}$ ，则只关注其中的 $w_1$ ，像下式这样解释：
$f\left(w_{0}, w_{1}\right)=2 w_{0} w_{1}+w_{0}^{2}+3\tag{4-45}$

然后，就可以得到：
$\frac{\partial f}{\partial w_{1}}=2 w_{0}\tag{4-46}$

4.5.2 偏导数的图形

偏导数的图形是什么样的呢？

$f(w_0,w_1)$ 的函数可以使用matplotlib库绘制的三维图形或等高线图形表示。实际绘制之后会发现，它的图形就像一个两个角被提起来的方巾。
在这里插入图片描述

图4-9 偏导数的图形意义

为了理解 $\partial f / \partial w_{0}$ ，我们可以在与 $w_0$ 轴平行的方向上把 $f$ 切开，然后观察 $f$ 的截面（图4-9①）。

截面是一个向下凸出（向上开口）的二次函数，它的曲线斜率可以通过式4-44求得，式子为 $\partial f / \partial w_{0}=2w_0+2w_1$ 。

当在 $w_1=-1$ 的平面上切开时，把 $w_1=-1$ 代入式4-44，即可得到当 $w_1=-1$ 时斜率的计算式。

把 $w_1=-1$ 代入 $\partial f / \partial w_{0}$ 之后得到：
$\left.\frac{\partial f}{\partial w_{0}}\right|_{w_{1}=-1}\tag{4-47}$

这里，使用式4-44的结果，可以像下式这样去计算（图4-9②）。这是一条斜率为2、截距为-2的直线：
$\left.\frac{\partial f}{\partial w_{0}}\right|_{w_{1}=-1}=2 w_{0}+\left.2 w_{1}\right|_{w_{1}=-1}=2 w_{0}-2\tag{4-48}$

平行于 $w_0$ 轴的平面有无数个。比如，当在 $w_1=1$ 的平面上切开时， $f$ 的截面如图4-9③所示，截面的斜率是(图4-9④)：
$\left.\frac{\partial f}{\partial w_{0}}\right|_{w_{1}=-1}=2 w_{0}+\left.2 w_{1}\right|_{w_{1}=1}=2 w_{0}+2\tag{4-50}$

而 $\partial f / \partial w_{1}$ 是一个平行于 $w_1$ 轴的 $f$ 的截面，这个截面是一条直线。比如，当在 $w_0=1$ 的平面上切开时，得到的截面如图4-12⑤所示，它的斜率是(图4-12⑥)：
$\left.\frac{\partial f}{\partial w_{1}}\right|_{w_{0}=1}=\left.2 w_{0}\right|_{w_{0}=1}=2\tag{4-50}$

又如，当在 $w_0=-1$ 的平面上切开时，得到的截面的斜率是(图4-12⑦)：
$\left.\frac{\partial f}{\partial w_{1}}\right|_{w_{0}=1}=\left.2 w_{0}\right|_{w_{0}=-1}=-2\tag{4-51}$

总的来说，对 $w_0$ 和 $w_1$ 的偏导数就是分别求出 $w_0$ 方向的斜率和 $w_1$ 方向的斜率。

这两个斜率的组合可以解释为向量。这就是 $f$ 对 $w$ 的梯度（梯度向量，gradient），梯度表示的是斜率最大的方向及其大小。
$\nabla_{w} f=\left[\begin{array}{c} \frac{\partial f}{\partial w_{0}} \\ \frac{\partial f}{\partial w_{1}} \tag{4-52} \end{array}\right]$

梯度算子?应该如何来读呢？詹姆斯·克拉克·麦克斯韦（James Clerk Maxwell)为?发明了发音，叫作“纳布拉（Nabla）。Nabla原指一种希伯来竖琴，外形酷似倒三角。

4.5.3 梯度的图形

下面实际绘制一下梯度的图形。以下代码绘制了 $f$ 的等高线（图4-10左），并通过箭头绘制了把 $w$ 的空间分为网格状时各点的梯度 $\nabla_{w} f$ (图4-10右)。

# 代码清单 4-2-(2)
import numpy as np
import matplotlib.pyplot as plt
%matplotlib inline

def f(w0, w1):                                    # (A) 定义函数f
    return w0**2 + 2 * w0 * w1 + 3

def df_dw0(w0, w1):                               # (B) 定义用于返回w0方向的偏导数的函数df_dw0
    return 2 * w0 + 2 * w1

def df_dw1(w0, w1):                               # (C) 定义用于返回w1方向的偏导数的函数df_dwl
    return 2 * w0 + 0 * w1

w_range = 2
dw = 0.25
w0 = np.arange(-w_range, w_range + dw, dw)
w1 = np.arange(-w_range, w_range + dw, dw)

ww0, ww1 = np.meshgrid(w0, w1)                    # (D) 将网格状分布的w0和w1存储在二维数组ww0和ww1中

ff = np.zeros((len(w0), len(w1)))
dff_dw0 = np.zeros((len(w0), len(w1)))
dff_dw1 = np.zeros((len(w0), len(w1)))
for i0 in range(len(w0)):
    for i1 in range(len(w1)):
        ff[i1, i0] = f(w0[i0], w1[i1])
        dff_dw0[i1, i0] = df_dw0(w0[i0], w1[i1])
        dff_dw1[i1, i0] = df_dw1(w0[i0], w1[i1])
# (E) 根据ww0和wwl计算f和偏导数的值，并将值存储在ff和dff_dw0、dff_dw1中

plt.figure(figsize=(10, 4.5))
plt.subplots_adjust(wspace=0.3)
plt.subplot(1, 2, 1)
cont = plt.contour(ww0, ww1, ff, 10, colors='k')  # (F) 将ff显示为等高线
cont.clabel(fmt='%d', fontsize=8)
plt.xticks(range(-w_range, w_range + 1, 1))
plt.yticks(range(-w_range, w_range + 1, 1))
plt.xlim(-w_range - 0.5, w_range + 0.5)
plt.ylim(-w_range - 0.5, w_range + 0.5)
plt.xlabel('$w_0$', fontsize=14)
plt.ylabel('$w_1$', fontsize=14)

plt.subplot(1, 2, 2)
plt.quiver(ww0, ww1, dff_dw0, dff_dw1)           # (G) 将梯度显示为箭头
plt.xlabel('$w_0$', fontsize=14)
plt.ylabel('$w_1$', fontsize=14)
plt.xticks(range(-w_range, w_range + 1, 1))
plt.yticks(range(-w_range, w_range + 1, 1))
plt.xlim(-w_range - 0.5, w_range + 0.5)
plt.ylim(-w_range - 0.5, w_range + 0.5)
plt.show()

输出结果：
在这里插入图片描述
以上代码首先在(A)处定义了函数 $f$ ，然后在(B)处定义了用于返回 $w_0$ 方向的偏导数的函数df_dw0，在?处定义了用于返回 $w_1$ 方向的偏导数的函数df_dwl。

(D)处的ww0, ww1 = np.meshgrid(w0, w1)将网格状分布的 $w_0$ 和 $w_1$ 存储在了二维数组ww0和ww1中。(E)用于根据ww0和wwl计算 $f$ 和偏导数的值，并将值存储在ff和dff_dw0、dff_dw1中。(F)用于将ff显示为等高线，(G)用于将梯度显示为箭头。

用于显示箭头的代码(G)是通过plt.quiver(ww0, ww1, dff_dw0, dff_dw1)绘制从坐标点(ww0, wwl)到方向(dff_dw0, dff_dw1)的箭头的。

在这里插入图片描述

图4-10梯度向量

通过图4-10左侧的 $f$ 的等高线图形上的数值，我们可以想象到 $f$ 的地形是右上方和左下方较髙，左上方和右下方较低。图4-10右侧是这种地形的梯度，可以看到箭头朝向的是各个点中斜面较高的方向，而且斜面越陡(等高线间隔越短)，箭头越长。

观察可知，箭头无论从哪个地点开始，都总是朝向图形中地形较高的部分。相反，箭尾总是朝向地形较低的部分。因此，梯度是用于寻找函数的最大点或最小点的一个重要概念。在机器学习中，在求误差函数的最小点时会使用误差函数的梯度。

4.5.4 多变量的复合函数的偏导数

当嵌套的是多变量函数时，该怎么求导呢？我们会在推导多层神经网络的学习规则时遇到这个问题。
比如， $g_0$ 和 $g_1$ 都是关于 $w_0$ 和 $w_1$ 的函数， $f$ 是关于函数 $g_0$ 和 $g_1$ 的函数。现在我们使用链式法则来表示 $f$ 对 $w_0$ 和 $w_1$ 的偏导数(图4-11)：
$f\left(g_{0}\left(w_{0}, w_{1}\right), g_{1}\left(w_{0}, w_{1}\right)\right)\tag{4-53}$

在这里插入图片描述

图4-11 偏导数的链式法则

下面先说一下结论，对 $w_0$ 求偏导数的式子是：
$\frac{\partial}{\partial w_{0}} f\left(g_{0}\left(w_{0}, w_{1}\right), g_{1}\left(w_{0}, w_{1}\right)\right)=\frac{\partial f}{\partial g_{0}} \cdot \frac{\partial g_{0}}{\partial w_{0}}+\frac{\partial f}{\partial g_{1}} \cdot \frac{\partial g_{1}}{\partial w_{0}}\\ \tag{4-54}$

对 $w_1$ 求偏导数的式子是：
$\frac{\partial}{\partial w_{1}} f\left(g_{0}\left(w_{0}, w_{1}\right), g_{1}\left(w_{0}, w_{1}\right)\right)=\frac{\partial f}{\partial g_{0}} \cdot \frac{\partial g_{0}}{\partial w_{1}}+\frac{\partial f}{\partial g_{1}} \cdot \frac{\partial g_{1}}{\partial w_{1}}\\ \tag{4-55}$

比如，当 $f$ 如下式时，该如何求解 $\frac{\partial f}{\partial w_{0}}$ 呢？
$f=\left(g_{0}+2 g_{1}-1\right)^{2}, g_{0}=w_{0}+2 w_{1}+1, g_{1}=2 w_{0}+3 w_{1}-1\tag{4-56}$

此时，式4-54的构成要素就变成了：
$\frac{\partial f}{\partial g_{0}}=2\left(g_{0}+2 g_{1}-1\right)\tag{4-57}$
$\frac{\partial f}{\partial g_{1}}=2\left(g_{0}+2 g_{1}-1\right) \cdot 2 \tag{4-58}$
$\frac{\partial g_{0}}{\partial w_{0}}=1 \tag{4-59}$
$\frac{\partial g_{1}}{\partial w_{0}}=2 \tag{4-60}$

把它们代入式4-54，即可像下式这样求解，请注意，式4-57和式4-58也使用了链式法则：
$\frac{\partial f}{\partial w_{0}}=2\left(g_{0}+2 g_{1}-1\right) \cdot 1+2\left(g_{0}+2 g_{1}-1\right) \cdot 2 \cdot 2=10 g_{0}+20 g_{1}-10\tag{4-61}$

在实际推导神经网络的学习规则时，使用的往往是像 $f(g_0(w_0,w_1),g_1(w_0,w_1$ ),…, $g_m(w_0,w_1)$ 这样嵌套了至少两个函数的函数。此时，链式法则是：
$\frac{\partial f}{\partial w_{0}}=\frac{\partial f}{\partial g_{0}} \cdot \frac{\partial g_{0}}{\partial w_{0}}+\frac{\partial f}{\partial g_{1}} \cdot \frac{\partial g_{1}}{\partial w_{0}}+\cdots+\frac{\partial f}{\partial g_{M}} \cdot \frac{\partial g_{M}}{\partial w_{0}}=\sum_{m=0}^{M} \frac{\partial f}{\partial g_{m}} \cdot \frac{\partial g_{m}}{\partial w_{0}}\tag{4-62}$

4.5.5 交换求和与求导的顺序

在机器学习中，计算时常常需要对一个用求和符号表示的函数求导，比如（本节将偏导数也称为导数）：
$\frac{\partial}{\partial w} \sum_{n=1}^{3} n w^{2}\tag{4-63}$

单纯地说，应该可以先求和再求导：
$\frac{\partial}{\partial w}\left(w^{2}+2 w^{2}+3 w^{2}\right)=\frac{\partial}{\partial w} 6 w^{2}=12 w$

但是，实际上即使先求出各项的导数再求和，答案也是一样的：
$\frac{\partial}{\partial w}\left(w^{2}+2 w^{2}+3 w^{2}\right) =\frac{\partial}{\partial w} w^{2}+\frac{\partial}{\partial w} 2 w^{2}+\frac{\partial}{\partial w} 3 w^{2}=2w+4w+6w=12w$

如果使用求和符号表示上述计算过程，则具体为：
$\frac{\partial}{\partial w} w^{2}+2 \frac{\partial}{\partial w} w^{2}+3 \frac{\partial}{\partial w} w^{2}=\sum_{n=1}^{3} \frac{\partial}{\partial w} n w^{2}\tag{4-64}$

因此，根据式4-63和式4-64，下式成立：
$\frac{\partial}{\partial w} \sum_{n=1}^{3} n w^{2}=\sum_{n=1}^{3} \frac{\partial}{\partial w} n w^{2}\tag{4-65}$

我们可以把它一般化为下式。如图4-12所示，可以把导数符号提取到求和符号的右侧，先进行求导计算。
$\frac{\partial}{\partial w} \sum_{n} f_{n}(w)=\sum_{n} \frac{\partial}{\partial w} f_{n}(w)\tag{4-66}$

在这里插入图片描述

图4-12 导数符号和求和符号的互换

我们常常遇到先求导可以令计算更轻松，或者只能求导的情况。因此，机器学习中经常会用到式4-66。

比如，我们使用下式思考一下：
$J=\frac{1}{N} \sum_{n=0}^{N-1}\left(w_{0} x_{n}+w_{1}-t_{n}\right)^{2}\tag{4-67}$

在求上述函数对 $w_0$ 的导数时，要使用式4-66将导数符号移至求和符号的右侧：
$\frac{\partial J}{\partial w_{0}} =\frac{\partial}{\partial w_{0}} \frac{1}{N} \sum_{n=0}^{N-1}\left(w_{0} x_{n}+w_{1}-t_{n}\right)^{2} =\frac{1}{N} \sum_{n=0}^{N-1} \frac{\partial}{\partial w_{0}}\left(w_{0} x_{n}+w_{1}-t_{n}\right)^{2}\tag{4-68}$

然后，求出导数，得到：
$\begin{array}{l} =\frac{1}{N} \sum_{n=0}^{N-1} 2\left(w_{0} x_{n}+w_{1}-t_{n}\right) x_{n}\\ =\frac{2}{N} \sum_{n=0}^{N-1}\left(w_{0} x_{n}+w_{1}-t_{n}\right) x_{n}\tag{4-69} \end{array}$

这里，在计算 $\frac{\partial}{\partial w_{0}}\left(w_{0} x_{n}+w_{1}-t_{n}\right)^{2}=2\left(w_{0} x_{n}+w_{1}-t_{n}\right) x_{n}$ 时，我们使用了链式法则的式子，即 $f=g^{2}, \quad g=w_{0} x_{n}+w_{1}-t_{n}$ 。

文章来源:https://blog.csdn.net/A469333242/article/details/134914799
本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若内容造成侵权/违法违规/事实不符，请联系我的编程经验分享网邮箱：veading@qq.com进行投诉反馈，一经查实，立即删除！

深度学习——第4.1章 深度学习的数学基础

第4章 深度学习的数学基础

目录

第4章 深度学习的数学基础

4.1 向量

4.1.1 什么是向量

4.1.2 用Python定义向量

4.1.3 列向量的表示方法

4.1.4 转置的表示方法

4.1.5 加法和减法

4.1.6 标量积

4.1.7 内积

4.1.8 向量的模

4.2 求和符号

4.2.1 带求和符号的数学式的变形

4.2.2 通过内积求和

4.3 累乘符号

4.4 导数

4.4.1 多项式的导数

4.4.2 带导数符号的数学式的变形

4.4.3 复合函数的导数

4.4.4 复合函数的导数：链式法则

4.4.5 基本函数的求导公式

4.5 偏导数

4.5.1 偏导数的概念

4.5.2 偏导数的图形

4.5.3 梯度的图形

4.5.4 多变量的复合函数的偏导数

4.5.5 交换求和与求导的顺序

深度学习——第4.1章深度学习的数学基础

第4章深度学习的数学基础

第4章深度学习的数学基础