矩阵求导常用公式

常见的求导有，标量对标量求导，向量对标量，矩阵对标量，标量对向量，向量对向量，标量对矩阵

小何才露尖尖角

11794人浏览 · 2022-03-28 22:26:56

小何才露尖尖角 · 2022-03-28 22:26:56 发布

矩阵求导常用公式

1 引言
2 向量的导数
3 矩阵的导数
- 3.1 矩阵对标量求导 Matrix-by-scalar
- 3.2 标量对矩阵求导 Scalar-by-matrix
4 常用求导公式
参考

1 引言

常见的求导有，标量对标量求导，向量对标量，矩阵对标量，标量对向量，向量对向量，标量对矩阵。求导的几种形式：
在这里插入图片描述
字符标示:
A 大写粗体表示矩阵
a 小写粗体表示向量
a 小写粗体表示标量
tr(X) 表示迹，主对角线之和
det(X) or |X| 表示
字母表前面部分表示常量(如 a,b,c…),字母表后面部分表示变量(如 t,x,y,…)

2 向量的导数

2.1 向量对标量求导 Vector-by-scalar

y 向量为 $\mathbf {y} ={\begin{bmatrix}y_{1}&y_{2}&\cdots &y_{m}\end{bmatrix}}^{\mathsf {T}}$ ，对 x 求导，结果为列

${\frac {\partial \mathbf {y} }{\partial x}}={\begin{bmatrix}{\frac {\partial y_{1}}{\partial x}}\\{\frac {\partial y_{2}}{\partial x}}\\\vdots \\{\frac {\partial y_{m}}{\partial x}}\\\end{bmatrix}}$

2.2 标量对向量求导 Scalar-by-vector

y 为标量，对向量 $\mathbf {x} ={\begin{bmatrix}x_{1}&x_{2}&\cdots &x_{n}\end{bmatrix}}^{\mathsf {T}}$ 求导，结果为行
在这里插入图片描述

2.3 向量对向量求导 Vector-by-vector

输出向量为 $\mathbf {y} ={\begin{bmatrix}y_{1}&y_{2}&\cdots &y_{m}\end{bmatrix}}^{\mathsf {T}}$ ，
输入向量为 $\mathbf {x} ={\begin{bmatrix}x_{1}&x_{2}&\cdots &x_{n}\end{bmatrix}}^{\mathsf {T}}$
神经网络中全连接层的形式就是如此
在这里插入图片描述
这种矩阵也称为雅各布矩阵

3 矩阵的导数

3.1 矩阵对标量求导 Matrix-by-scalar

在这里插入图片描述

3.2 标量对矩阵求导 Scalar-by-matrix

在这里插入图片描述

4 常用求导公式

字符标示:
a, b, c, d, and e 为常量, 标量 u, and v 由 x, x, or X中的一个计算而来;
a, b, c, d, and e 为常量向量, 向量 u, and v 由 x, x, or X中的一个计算而来;
A, B, B, D, and E 为常量矩阵, 向量 U, and V 由 x, x, or X中的一个计算而来;