矩阵微分笔记（1）

2023-12-28 21:53:10

前言

前几天学习最优化的时候，发现里面有关于矩阵求导的问题，由于不是很明白当时，就先背了下来。前几天呢也没学别的，因为楼主去拍拖啦~好吧好吧，赶紧学习补回来。

由于我只是一个学统计的（数学边缘人），所写内容可能不是这么严谨，有错误的地方还请大家纠正。但尽管如此，还是得了解一下理论的，我也想当一个调参人- -

首先给定几个前提：

为简便起见，仅考虑实数域的矩阵求导，不考虑复数域。
如果没有特殊说明，向量 $\vec{x}$ 默认为列向量的形式，即 $\vec{x}=\left [ x_1,x_2,\cdots,x_n\right ]^T$

1. 矩阵求导的布局形式

1.1 矩阵求导的基本单元

首先我们来看看在矩阵求导中会遇到的一些概念，由于与参考内容的形式不一样，为了明显起见，我用了一种比较容易区分的方式做笔记，希望大家可以理解（什么粗体细体的我真的记不住TAT）

我们会遇到标量、向量、矩阵这三个概念。

先来简单说说标量和向量的区别：如果按照物理上的概念来说的话：标量是数量，没有方向，而向量是有方向的。但在这里有点不同，我们称形式上维度为 $1\times 1$ 的量为标量，形式上维度为 $1\times n$ 的量为行向量，形式上维度为 $n\times 1$ 的量为列向量。比如我们记标量为 $x$ ，向量 $\vec{x}=\left [ x_1,x_2,\cdots,x_n\right ]^T$

然后我们再简单说说矩阵和向量的关系，形式上维度为 $n\times m$ 的量称为矩阵，这里并不要求 $n$ 和 $m$ 都大于1，这也就说明了其实向量也可以看成一种矩阵。此外，矩阵也可以看成向量，比如我们有矩阵 $X=\begin{bmatrix} x_1& x_2 & x_3\\ x_4& x_5& x_6\\ x_7 & x_8&x_9 \end{bmatrix}$ ，令 $\vec{\alpha}_i$ 为矩阵 $X$ 的第 $i$ 列，则矩阵 $X$ 可以写成列向量组 $X=[\vec{\alpha}_1,\vec{\alpha}_2,\vec{\alpha}_3]$ 的形式；相应地，如果令 $\vec{\beta}_i$ 为矩阵 $X$ 的第 $i$ 行,则矩阵 $X$ 可以写成行向量组 $X=[\vec{\beta}_1,\vec{\beta}_2,\vec{\beta}_3]^T$ 的形式

下面考虑如下的一个函数
$f u n c t i o n (in p u t)$ 针对 $f u n c t i o n$ 的类型、 $in p u t$ 的类型，我们可以将这个函数 $f u n c i o n$ 分为不同的种类。

$f u n c t i o n$ 是一个标量

$f u n c t i o n$ 是一个实值标量函数，用字母 $f$ 表示。根据 $in p u t$ 的类型，我们又可以做如下的划分：

$in p u t$ 是标量

即 $f u n t i o n$ 的输入 $in p u t$ 是标量。用字母 $x$ 。比如 $f (x) = x + 1$ $x\in\mathbb{R}$ ， $f (x)$ 的结果是个取决于 $x$ 的值的标量

$in p u t$ 是向量

即 $f u n t i o n$ 的输入 $in p u t$ 是向量。用 $\vec{x}$ 表示或者粗体小写字母 $\boldsymbol{x}$ 表示，如果不做特殊说明，我们默认 $\vec{x}$ 是 $n$ 维列向量，即 $\vec{x}=\left [ x_1,x_2,\cdots,x_n\right ]^T$ ，比如设 $\vec{x}=\left[ x_1,x_2, x_3\right]^T$ ，且有 $f(\vec{x})=a_1x_1^2+a_2x_2^2+a_3x_3^2+a_4x_1x_2$ ，其中 $x_i$ 与 $a_i$ 均 $\in\mathbb{R}$

$in p u t$ 是矩阵

即 $f u n t i o n$ 的输入 $in p u t$ 是矩阵。用 $X$ 表示，比如这设 $\boldsymbol{X}_{3\times2}=(x_{ij})_{i=1,j=1}^{3,2}$ ，且有 $\begin{aligned}f(\boldsymbol{X})&=a_1x_{11}^2+a_2x_{12}^2+a_3x_{21}^2+a_4x_{22}^2+a_5x_{31}^2+a_6x_{32}^2\end{aligned}$ 其中 $x_i$ 与 $a_i$ 均 $\in\mathbb{R}$

$f u n c t i o n$ 是一个向量

$f u n c t i o n$ 是一个向量时，我们称 $f u n c t i o n$ 是一个实向量函数，用 $\vec{f}$ 或者粗体小写字母 $\boldsymbol{f}$ 表示。

含义：实向量函数 $\vec{f}$ 是由若干个标量函数 $f$ 组成的一个向量。

同样地，根据变元 $in p u t$ 的类型可以分类为如下三种：

$in p u t$ 是标量

例如： $\vec{f}_{3\times1}(x)=\begin{bmatrix}f_1(x)\\f_2(x)\\f_3(x)\end{bmatrix}=\begin{bmatrix}x+1\\2x+1\\3x^2+1\end{bmatrix}$ 其中 $x\in\mathbb{R}$ ，即 $x$ 是标量

$in p u t$ 是向量

例如：设 $\vec{x}=[x_1,x_2,x_3]^T$ ，且有

$\begin{aligned}\vec{f}(\vec{x})=\begin{bmatrix}f_1(\vec{x})\\f_2(\vec{x})\\f_3(\vec{x})\end{bmatrix}=\begin{bmatrix}x_1+x_2+x_3\\x_1^2+2x_2+2x_3\\x_1x_2+x_2+x_3\end{bmatrix}\end{aligned}$ 其中 $x\in\mathbb{R}$ ，向量 $\vec{x}\in\mathbb{R}^3$

$in p u t$ 是矩阵

例如：设 ${X}_{3\times2}=(x_{ij})_{i=1,j=1}^{3,2}$ ，且有 $\begin{aligned}\left.\vec{f}_{3\times1}(X)=\begin{bmatrix}f_1(X)\\f_2(X)\\f_3(X)\end{bmatrix}=\left[\begin{array}{c}x_{11}+x_{12}+x_{21}+x_{22}+x_{31}+x_{32}\\x_{11}+x_{12}+x_{21}+x_{22}+x_{31}+x_{32}+x_{11}x_{12}\\2x_{11}+x_{12}+x_{21}+x_{22}+x_{31}+x_{32}+x_{11}x_{12}\end{array}\right.\right]\end{aligned}$ 其中 $x_{ij}$ $\in\mathbb{R}$

$f u n c t i o n$ 是一个矩阵

如果 $f u n c t i o n$ 是一个矩阵我们称 $f u n c t i o n$ 是一个实矩阵函数，可以用大写字母 $F$ 表示。

含义： $F$ 是由若干个 $f$ 组成的一个矩阵。

同样地，根据变元 $in p u t$ 的类型可以分类为如下三种：

$in p u t$ 是标量

例如：
${F}_{3\times2}(x)=\begin{bmatrix}f_{11}(x)&f_{12}(x)\\f_{21}(x)&f_{22}(x)\\f_{31}(x)&f_{32}(x)\end{bmatrix}=\begin{bmatrix}x+1&2x+2\\x^2+1&2x^2+1\\x^3+1&2x^3+1\end{bmatrix}$ 其中 $f_{ij}$ 都是标量函数， $x\in\mathbb{R}$

$in p u t$ 是向量

例如：设 $\vec{x}=[x_1,x_2,x_3]^T$
$\begin{aligned}{F}_{3\times2}(\vec{x})=\begin{bmatrix}f_{11}(\vec{x})&f_{12}(\vec{x})\\f_{21}(\vec{x})&f_{22}(\vec{x})\\f_{31}(\vec{x})&f_{32}(\vec{x})\end{bmatrix}=\begin{bmatrix}2x_1+x_2+x_3&2x_1+2x_2+x_3\\2x_1+2x_2+x_3&x_1+2x_2+x_3\\2x_1+x_2+2x_3&x_1+2x_2+2x_3\end{bmatrix}\end{aligned}$ 其中 $f_{ij}$ 都是 $in p u t$ 为标量的函数， $x_{k}\in\mathbb{R}$

$in p u t$ 是矩阵

$\begin{aligned} F_{3\times2}({X})& =\begin{bmatrix}f_{11}({X})&f_{12}({X})\\f_{21}({X})&f_{22}({X})\\f_{31}({X})&f_{32}({X})\end{bmatrix} \\ &\left.=\left[\begin{array}{ll}x_{11}+x_{12}+x_{21}+x_{22}+x_{31}+x_{32}&2x_{11}+x_{12}+x_{21}+x_{22}+x_{31}+x_{32}\\3x_{11}+x_{12}+x_{21}+x_{22}+x_{31}+x_{32}&4x_{11}+x_{12}+x_{21}+x_{22}+x_{31}+x_{32}\\5x_{11}+x_{12}+x_{21}+x_{22}+x_{31}+x_{32}&6x_{11}+x_{12}+x_{21}+x_{22}+x_{31}+x_{32}\end{array}\right.\right] \end{aligned}$ 其中 $f_{ij}$ 都是 $in p u t$ 为矩阵的函数， $x_{km}\in\mathbb{R}$

实际上，我们仍然可以定义维度更高的矩阵，这个时候的形式就不再局限于以上九种，但再此不做赘述。

1.2 矩阵求导的本质

根据求导的自变量和因变量是标量，向量还是矩阵，我们有9种可能的矩阵求导定义，如下：

$f u n c t i o n / in p u t$	标量形式的 $in p u t$	向量形式的 $in p u t$	矩阵形式的 $in p u t$
标量形式的 $f u n c t i o n$	$f (x)$	$f(\vec{x})$	$f (X)$
向量形式的 $f u n c t i o n$	$\vec{f}(x)$	$\vec{f}(\vec{x})$	$\vec{f}(X)$
矩阵形式的 $f u n c t i o n$	$F (x)$	$F(\vec{x})$	$F (X)$

我们在高等数学中，对于如下的多元函数： $f(x_1,x_2,x_3)=x_1^2+x_1x_2+x_2x_3$ 我们可以求出 $f$ 对 $x_1,x_2,x_3$ 的偏导数： $\left.\left\{\begin{aligned}\frac{\partial f}{\partial x_1}&=2x_1+x_2\\\\\frac{\partial f}{\partial x_2}&=x_1+x_3\\\\\frac{\partial f}{\partial x_3}&=x_2\end{aligned}\right.\right.$ 这个时候我们会想：如果我们将每个变元 $x_1,x_2,x_3$ 看成是一个列向量 $\vec{x}=(x_1,x_2,x_3)^T$ ，那么我们就能够将函数 $f$ 关于向量 $\vec{x}$ 的导数表述如下： $\frac{\partial f}{\partial \vec{x}_{3\times1}}=\begin{bmatrix} \frac{\partial f}{\partial x_1} \\ \frac{\partial f}{\partial x_2}\\ \frac{\partial f}{\partial x_3} \end{bmatrix}\left.=\left[\begin{array}{c}2x_1+x_2\\x_1+x_3\\x_2\end{array}\right.\right]$

也就是说，上述过程便是一个标量函数对向量求导的例子。实际上，矩阵求导本质是 $f u n c t i o n$ 中的每个标量函数 $f$ 分别对变元中的每个标量元素逐个求偏导，只不过将结果写成了向量或者矩阵形式而已。

上述例子的向量是列向量，那么自然就会有疑问，我们能不能用标量函数对行向量求导数呢？答案当然是肯定的，其形式如下所示： $\frac{\partial f(\boldsymbol{x})}{\partial\vec{x}_{3\times1}^T}=\left[\frac{\partial f}{\partial x_1},\frac{\partial f}{\partial x_2},\frac{\partial f}{\partial x_3}\right]=[2x_1+x_2,x_1+x_3,x_2]$

如果 $f u n c t i o n$ 中有 $m$ 个标量函数 $f$ ，变元 $in p u t$ 中有 $n$ 个标量元素，那么，每个对变元中的每个元素逐个求偏导后，我们就会产生 $\times n$ 个结果。我们已经知道，矩阵求导的本质只是把标量求导的结果排列起来，至于是按行排列还是按列排列都是可以的。但是这样也有问题，在我们机器学习算法法优化过程中，如果行向量或者列向量随便写，那么结果就不唯一或者出错，那么如何解决这个问题呢？实际上，我们只需要一开始做一个规定，然后后面的运算都遵守这个规定即可，这便是我们接下来要说的内容

1.3 矩阵求导的布局形式

让我们回顾一下上一张关于不同形式求导数的表格：

$f u n c t i o n / in p u t$	标量形式的 $in p u t$	向量形式的 $in p u t$	矩阵形式的 $in p u t$
标量形式的 $f u n c t i o n$	$f (x)$	$f(\vec{x})$	$f (X)$
向量形式的 $f u n c t i o n$	$\vec{f}(x)$	$\vec{f}(\vec{x})$	$\vec{f}(X)$
矩阵形式的 $f u n c t i o n$	$F (x)$	$F(\vec{x})$	$F (X)$

下面以表格中标量对向量或矩阵求导，向量或矩阵对标量求导，以及向量对向量求导这5种情况为例来看看矩阵求导的布局形式到底是个什么东西

这里先给出一个结论，矩阵求导有两种布局，分别是分子布局(numerator layout)和分母布局(denominator layout)。首先我们先粗略的给出两种布局的解释，并以该解释为基础，再不加证明地给出各形式求导的结果以比较不同布局形式的特点

分子布局：就是分子是列向量形式，分母是行向量形式，如前面提到的例子： $\frac{\partial f}{\partial \vec{x}_{3\times1}}=\begin{bmatrix} \frac{\partial f}{\partial x_1} \\ \frac{\partial f}{\partial x_2}\\ \frac{\partial f}{\partial x_3} \end{bmatrix}\left.=\left[\begin{array}{c}2x_1+x_2\\x_1+x_3\\x_2\end{array}\right.\right]$ 式。如果这里的 $f u n t i o n$ 是实向量函数 $\vec{f}_{2\times1}$ 的话，结果就是 $2\times3$ 的矩阵： $\begin{align}\frac{\partial\vec {f}_{2\times1}(\vec{x})}{\partial\vec{x}_{3\times1}^T}=\begin{bmatrix}\frac{\partial f_1}{\partial x_1}&\frac{\partial f_1}{\partial x_2}&\frac{\partial f_1}{\partial x_3}\\\frac{\partial f_2}{\partial x_1}&\frac{\partial f_2}{\partial x_2}&\frac{\partial f_2}{\partial x_3}\end{bmatrix}_{2\times3}\end{align}$ 相应地我们可以推广到实向量函数 $\vec{f}_{m\times1}$ 为 $m$ 维列向量，向量 $\vec{x}=[x_1,x_2,\cdots,x_n]^T$ 为 $n$ 维列向量的形式，则结果布局的形式为 $m\times n$

分母布局，就是分母是列向量形式，分子是行向量形式，如上述例子中的 $\frac{\partial f(\boldsymbol{x})}{\partial\vec{x}_{3\times1}^T}=\left[\frac{\partial f}{\partial x_1},\frac{\partial f}{\partial x_2},\frac{\partial f}{\partial x_3}\right]=[2x_1+x_2,x_1+x_3,x_2]$ 是实向量函数 $\vec{f}_{2\times1}$ 的话，结果就是 $3\times2$ 的矩阵： $\begin{align}\frac{\partial\vec{f}_{2\times1}^T(\vec{x})}{\partial\vec{x}_{3\times1}}=\begin{bmatrix}\frac{\partial f_1}{\partial x_1}&\frac{\partial f_2}{\partial x_1}\\\frac{\partial f_1}{\partial x_2}&\frac{\partial f_2}{\partial x_2}\\\frac{\partial f_1}{\partial x_3}&\frac{\partial f_2}{\partial x_3}\end{bmatrix}_{3\times2}\end{align}$ 相应地我们可以推广到实向量函数 $\vec{f}_{m\times1}$ 为 $m$ 维列向量，向量 $\vec{x}=[x_1,x_2,\cdots,x_n]^T$ 为 $n$ 维列向量的形式，则上述结果布局的形式就会变为为 $n\times m$

1.3.1 向量对标量函数的导数

即向量变元的实值标量函数 $f(\vec{x})$ , $\vec{x}=[x_1,x_2,\cdots,x_n]^T$

有两种情况：

（1）：行向量偏导形式（又称行偏导向量形式）

$\begin{align}\operatorname{D}_{\vec{x}}f(\boldsymbol{x})=\frac{\partial f(\vec{x})}{\partial\vec{x}^T}=\left[\frac{\partial f}{\partial x_1},\frac{\partial f}{\partial x_2},\cdots,\frac{\partial f}{\partial x_n}\right]\end{align}$

（2）：梯度向量形式（又称列向量偏导形式、列偏导向量形式）

$\begin{align}\nabla_{\vec{x}}f(\vec{x})=\frac{\partial f(\vec{x})}{\partial\vec{x}}=\left[\frac{\partial f}{\partial x_1},\frac{\partial f}{\partial x_2},\cdots,\frac{\partial f}{\partial x_n}\right]^T\end{align}$

不难发现，上述的两种形式互为转置

1.3.2 矩阵对标量函数的导数

即矩阵变元的实值标量函数 $f (X)$ , $\boldsymbol{X}_{m\times n}=(x_{ij})_{i=1,j=1}^{m,n}$

为了后续叙述的便利，先介绍一个符号 $\mathbf{vec}( X)$ ，其作用是将矩阵 $X$ 按列堆栈来向量化，向量化后的结果是产生了一个新的列向量，其实就是把矩阵 $X$ 的第 1 列，第 2 列，直到第 $n$ 列取出来，然后按顺序组成一个列向量，即：
$\begin{align} \mathbf{vec}(\boldsymbol{X})=[x_{11},x_{21},\cdots,x_{m1},x_{12},x_{22},\cdots,x_{m2},\cdots,x_{1n},x_{2n},\cdots,x_{mn}]^T\end{align}$

（1）：行向量偏导形式（又称行偏导向量形式）

即先把矩阵变元 $X$ 按 $\mathbf{vec}(X)$ 向量化，转换成向量变元，再对该向量变元使用公式(3)可以得到 $\begin{align} \mathrm{D}_{\mathbf{vec}{X}}f({X})& =\frac{\partial f({X})}{\partial\mathbf{vec}^T({X})} \\ \notag &=\left[\frac{\partial f}{\partial x_{11}},\frac{\partial f}{\partial x_{21}},\cdots,\frac{\partial f}{\partial x_{m1}},\frac{\partial f}{\partial x_{12}},\frac{\partial f}{\partial x_{22}},\cdots,\frac{\partial f}{\partial x_{m2}},\cdots,\frac{\partial f}{\partial x_{1n}},\frac{\partial f}{\partial x_{2n}},\cdots,\frac{\partial f}{\partial x_{mn}}\right] \end{align}$

（2）： $\mathbf{Jacobian}$ 矩阵形式

即先把矩阵变元 $X$ 进行转置(分母位置转置)，再对转置后的每个位置的元素逐个求偏导，结果布局和转置布局一样。即因为矩阵变元 $X$ 是 $m\times n$ 维的，所以结果布局是 $n\times m$ 维的，即 $\begin{align} \operatorname{D}_{{X}}f({X})& =\frac{\partial f({X})}{\partial{X}_{m\times n}^T} \\ \notag &=\begin{bmatrix}\frac{\partial f}{\partial x_{11}}&\frac{\partial f}{\partial x_{21}}&\cdots&\frac{\partial f}{\partial x_{m1}}\\\frac{\partial f}{\partial x_{12}}&\frac{\partial f}{\partial x_{22}}&\cdots&\frac{\partial f}{\partial x_{m2}}\\\vdots&\vdots&\vdots&\vdots\\\frac{\partial f}{\partial x_{1n}}&\frac{\partial f}{\partial x_{2n}}&\cdots&\frac{\partial f}{\partial x_{mn}}\end{bmatrix}_{n\times m} \end{align}$

（3）：梯度向量形式（又称列向量偏导形式、列偏导向量形式，这个用到的比较多）

即先把矩阵变元 $X$ 按 $\mathbf{vec}(X)$ 向量化，转换成向量变元，再对该向量变元使用公式(4)，即分子位置转置，可以得到 $\begin{align} \nabla_{\mathbf{vec}{X}}f({X})& =\frac{\partial f({X})}{\partial\mathbf{vec}({X})} \\ \notag &=\left[\frac{\partial f}{\partial x_{11}},\frac{\partial f}{\partial x_{21}},\cdots,\frac{\partial f}{\partial x_{m1}},\frac{\partial f}{\partial x_{12}},\frac{\partial f}{\partial x_{22}},\cdots,\frac{\partial f}{\partial x_{m2}},\cdots,\frac{\partial f}{\partial x_{1n}},\frac{\partial f}{\partial x_{2n}},\cdots,\frac{\partial f}{\partial x_{mn}}\right]^T \end{align}$ 即得到的结果是一个梯度向量（列向量）

（4）：梯度矩阵形式

直接对矩阵变元 $X$ 的每个位置的元素逐个求偏导，结果布局和矩阵变元的维度一样。即矩阵变元 $X$ 是 $m\times n$ 维的，所以结果布局也是 $m\times n$ 维的，即 $\begin{align} \nabla_{{X}}f({X})& =\frac{\partial f({X})}{\partial{X}_{m\times n}} \\ \notag &=\begin{bmatrix}\frac{\partial f}{\partial x_{11}}&\frac{\partial f}{\partial x_{12}}&\cdots&\frac{\partial f}{\partial x_{1m}}\\\frac{\partial f}{\partial x_{21}}&\frac{\partial f}{\partial x_{22}}&\cdots&\frac{\partial f}{\partial x_{2m}}\\\vdots&\vdots&\vdots&\vdots\\\frac{\partial f}{\partial x_{m1}}&\frac{\partial f}{\partial x_{m2}}&\cdots&\frac{\partial f}{\partial x_{mn}}\end{bmatrix}_{m\times n} \end{align}$

由以上的公式可以发现，对于向量变元的实值标量函数 $f(\vec{x})$ , $\vec{x}=[x_1,x_2,\cdots,x_n]^T$ ,结果布局本质上有两种形式，一种是 Jacobian 矩阵(行向量) 形式，一种是梯度矩阵(列向量)形式，且这两种形式互为转置。

1.3.3 矩阵对矩阵函数的导数

即矩阵变元的实矩阵函数 $F(X)\textit{,}X_{m\times n}=\left(x_{ij}\right)_{i=1,j=1}^{m,n},{F}_{p\times q}=(f_{ij})_{i=1,j=1}^{p,q}$

（1）： $\mathbf{Jacobian}$ 矩阵形式

先把矩阵变元 $X$ 按 $\mathbf{vec}$ 向量化成一个列向量，即转换成向量变元： $\mathbf{vec}({X})=[x_{11},x_{21},\cdots,x_{m1},x_{12},x_{22},\cdots,x_{m2},\cdots,x_{1n},x_{2n},\cdots,x_{mn}]^T$ 然后再把实矩阵函数 $F (X)$ 也按 $\mathbf{vec}$ 向量化成一个列向量，即转换成实向量函数： $\begin{align} & \mathbf{vec}({F}({X})) =[f_{11}(\boldsymbol{X}),f_{21}(\boldsymbol{X}),\cdots,f_{p1}(\boldsymbol{X}),f_{12}(\boldsymbol{X}),f_{22}(\boldsymbol{X}),\cdots,f_{p2}(\boldsymbol{X}),\cdots,f_{1q}(\boldsymbol{X}),f_{2q}(\boldsymbol{X}), \cdots,f_{pq}(\boldsymbol{X})]^T \end{align}$ 那么我们可以利用前面的公式(1)来实现向量对向量函数的导数的行向量偏导形式，由于分子是维数是 $pq\times 1$ 的列向量，分母的维度是 $\times mn$ 的行向量，所以结果布局的维数是 $pq \times mn$ 维的，具体公式如下表示：(由于这里的Latex显示不了，于是就用图片替代了)

在这里插入图片描述

（2）：梯度矩阵形式

先把矩阵变元 $X$ 按 $\mathbf{vec}$ 向量化成一个列向量，即转换成向量变元： $\mathbf{vec}({X})=[x_{11},x_{21},\cdots,x_{m1},x_{12},x_{22},\cdots,x_{m2},\cdots,x_{1n},x_{2n},\cdots,x_{mn}]^T$ 然后再把实矩阵函数 $F (X)$ 也按 $\mathbf{vec}$ 向量化成一个列向量，即转换成实向量函数： $\begin{aligned} & \mathbf{vec}({F}({X})) =[f_{11}(\boldsymbol{X}),f_{21}(\boldsymbol{X}),\cdots,f_{p1}(\boldsymbol{X}),f_{12}(\boldsymbol{X}),f_{22}(\boldsymbol{X}),\cdots,f_{p2}(\boldsymbol{X}),\cdots,f_{1q}(\boldsymbol{X}),f_{2q}(\boldsymbol{X}), \cdots,f_{pq}(\boldsymbol{X})]^T \\ \tag{12} \end{aligned}$ 那么我们可以利用前面的公式(2)来实现向量对向量函数的导数的列向量偏导形式，由于分子是维数是 $1\times pq$ 的行向量，分母的维度是 $mn \times 1$ 的列向量，所以结果布局的维数是 $mn \times pq$ 维的，具体公式如下表示：(由于这里的Latex显示不了，于是就用图片替代了)

在这里插入图片描述

根据上面的计算可以发现，对于矩阵变元的实值标量函数 $f({X})$ , ${X}_{m\times n}=(x_{ij})_{i=1,j=1}^{m,n}$ ，结果布局本质上有四种形式，第一种是 Jacobian 矩阵(行向量) 形式，第二种是梯度矩阵(列向量)形式，第三种是 Jacobian 矩阵(矩阵)形式，第四种是梯度矩阵(矩阵)形式。其中第一种和第二种的结果布局形式互为转置，第三种和第四种的结果布局形式互为转置。

矩阵变元的实向量函数 $f (X)$ 、向量变元的实向量函数 $f (x)$ 、向量变元的实矩阵函数 $F(\vec{x})$ 这三个都可以看做是矩阵变元的实矩阵函数 $F (X)$ ,可使用矩阵对矩阵函数的导数的形式进行计算 (因为向量可以看出一种特殊的矩阵)。

1.3.4 分子布局和分母布局的本质

说到这，其实矩阵求导的结果布局实际上就是分子的转置、向量化，分母的转置、向量化的各种组合。为了方便记忆，我们总结如下：

分子布局的本质：分子是标量、列向量、矩阵向量化后的列向量；分母是标量、列向量转置后的行向量、矩阵的转置矩阵、矩阵向量化后的列向量转置后的行向量。包含公式 (3)式、(6)式、 (7) 式和 (11) 式。一句话就是：分子是列向量，分母是行向量

分母布局的本质：分子是标量、列向量转置后的行向量、矩阵向量化后的列向量转置后的行向量；分母是标量、列向量、矩阵自己、矩阵向量化后的列向量。包含公式(4) 式、(8)式、(9)式和 (12) 式。一句话就是：分子是行向量，分母是列向量

一般情况下，我们都想向量函数 $\vec{f}$ 和向量变元 $\vec{x}$ 都看成列向量，如果二者都不做转置直接求 $\frac{\partial \vec{f}}{\partial \vec{x}}$ ，理论上是不够严谨的，为此我们需要对其中一个进行转置，我们可以用一句话来总结：哪个位置不转置就是哪个位置的布局。比如分母不转置，就是分母布局；分子不转置，就是分子布局。

最后用一个表格将这次学习的内容做一个总结：

分子/分母	标量函数 $f$	(列)向量函数 $\vec{f}=[f_1,\cdots,f_m]^T$	矩阵函数 $F=(f_{ij})_{i=1,j=1}^{p,q}$
标量 $x$	高等数学中的导数	分子布局： $m$ 维列向量 $\frac{\partial \vec{f}}{\partial x}$ (默认形式) 分母布局： $n$ 维行向量 $\frac{\partial \vec{f}^T}{\partial x}$	分子布局： $\times q$ 矩阵 $\frac{\partial F}{\partial x}$ (默认形式) 分母布局： $\times p$ 矩阵 $\frac{\partial F^T}{\partial x}$
(列)向量 $\vec{x}=[x_1,\cdots,x_n]^T$	分子布局： $n$ 维行向量 $\frac{\partial{f}}{\partial \vec{x}}$ 分母布局： $n$ 维列向量 $\frac{\partial \vec{f}}{\partial \vec{x}^T}$ (默认形式)	分子布局： $\times n$ 维雅克比矩阵 $\frac{\partial \vec{f}}{\partial x^T}$ 分母布局： $\times m$ 维梯度矩阵 $\frac{\partial \vec{f}^T}{\partial x}$
矩阵 $X=(x_{ij})_{i=1,j=1}^{m,n}$	分子布局： $\times m$ 维矩阵 $\frac{\partial {f}}{\partial X^T}$ 分母布局： $\times m$ 维梯度矩阵 $\frac{\partial {f}}{\partial X}$ (默认形式)

以上便是矩阵求导的关于布局的内容，下一节将学习具体的矩阵求导法则以及一些典型例子

参考

矩阵求导的本质与分子布局、分母布局的本质（矩阵求导——本质篇）

张贤达《矩阵分析与应用（第二版）》

矩阵的求导

文章来源:https://blog.csdn.net/weixin_47255403/article/details/135263422
本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若内容造成侵权/违法违规/事实不符，请联系我的编程经验分享网邮箱：veading@qq.com进行投诉反馈，一经查实，立即删除！

矩阵微分笔记（1）

目录

前言

1. 矩阵求导的布局形式

1.1 矩阵求导的基本单元

f u n c t i o n function function 是一个标量

f u n c t i o n function function 是一个向量

f u n c t i o n function function 是一个矩阵

1.2 矩阵求导的本质

1.3 矩阵求导的布局形式

1.3.1 向量对标量函数的导数

1.3.2 矩阵对标量函数的导数

1.3.3 矩阵对矩阵函数的导数

1.3.4 分子布局和分母布局的本质

参考

$f u n c t i o n$ 是一个标量

$f u n c t i o n$ 是一个向量

$f u n c t i o n$ 是一个矩阵