nn.InstanceNorm2d和nn.BatchNorm2d比较

和都是 PyTorch 中常用的归一化层，用于提高神经网络的训练稳定性和泛化能力。

lqjun0827 · 2023-08-06 15:02:51 发布

介绍

nn.InstanceNorm2d 和 nn.BatchNorm2d 都是 PyTorch 中常用的归一化层，用于提高神经网络的训练稳定性和泛化能力。

它们之间的主要区别如下：

归一化对象：
- nn.InstanceNorm2d：实例归一化，对每个样本（实例）的特征进行归一化。适用于每个样本的特征分布不同的情况，如图像风格转换等任务。
- nn.BatchNorm2d：批归一化，对整个批次中的样本的特征进行归一化。适用于训练深度神经网络时，加速训练过程、提高模型的泛化能力。
归一化方式：
- nn.InstanceNorm2d：对每个样本的每个通道进行归一化，即对每个特征图的每个位置点进行归一化。
- nn.BatchNorm2d：对每个通道的特征图进行归一化，即对每个特征图的所有位置点进行归一化。
归一化参数：
- nn.InstanceNorm2d：没有可训练的参数，只有归一化的均值和方差。
- nn.BatchNorm2d：有可训练的参数，包括缩放因子（scale）、偏移量（shift）、归一化的均值和方差。
使用场景：
- nn.InstanceNorm2d：适用于图像风格转换、图像生成等需要保持每个样本特征独立性的任务。
- nn.BatchNorm2d：适用于深度神经网络的训练过程，加速训练、提高模型的泛化能力。

需要根据具体任务和网络结构的特点选择合适的归一化层。在一般情况下，nn.BatchNorm2d 是更常用的归一化层。

nn.InstanceNorm2d 和 nn.BatchNorm2d 在计算上的公式如下：

对于 nn.InstanceNorm2d，假设输入为 $\in \mathbb{R}^{N \times C \times H \times W}$ ，其中 $N$ 是批次大小， $C$ 是通道数， $H$ 和 $W$ 是特征图的高度和宽度。实例归一化的计算公式如下：

$\text{InstanceNorm2d}(x)_{n,c,h,w} = \frac{x_{n,c,h,w} - \mu_{n,c}}{\sqrt{\sigma^2_{n,c} + \epsilon}} \cdot \gamma_c + \beta_c$

其中：

$x_{n,c,h,w}$ 是输入张量 $x$ 在第 $n$ 个样本、第 $c$ 个通道、第 $h$ 行、第 $w$ 列的元素。
$\mu_{n,c}$ 是第 $n$ 个样本、第 $c$ 个通道的均值，计算公式为 $\mu_{n,c} = \frac{1}{H \times W} \sum_{h=1}^{H} \sum_{w=1}^{W} x_{n,c,h,w}$ 。
$\sigma^2_{n,c}$ 是第 $n$ 个样本、第 $c$ 个通道的方差，计算公式为 $\sigma^2_{n,c} = \frac{1}{H \times W} \sum_{h=1}^{H} \sum_{w=1}^{W} (x_{n,c,h,w} - \mu_{n,c})^2$ 。
$\gamma_c$ 是归一化的缩放因子（scale），是一个可学习的参数。
$\beta_c$ 是归一化的偏移量（shift），是一个可学习的参数。
$\epsilon$ 是一个小的常数，用于避免除以零的情况。

对于 nn.BatchNorm2d，假设输入为 $\in \mathbb{R}^{N \times C \times H \times W}$ ，其中 $N$ 是批次大小， $C$ 是通道数， $H$ 和 $W$ 是特征图的高度和宽度。批归一化的计算公式如下：

$\text{BatchNorm2d}(x)_{n,c,h,w} = \frac{x_{n,c,h,w} - \mu_c}{\sqrt{\sigma^2_c + \epsilon}} \cdot \gamma_c + \beta_c$

其中：

$x_{n,c,h,w}$ 是输入张量 $x$ 在第 $n$ 个样本、第 $c$ 个通道、第 $h$ 行、第 $w$ 列的元素。
$\mu_c$ 是第 $c$ 个通道的均值，计算公式为 $\mu_c = \frac{1}{N \times H \times W} \sum_{n=1}^{N} \sum_{h=1}^{H} \sum_{w=1}^{W} x_{n,c,h,w}$ 。
$\sigma^2_c$ 是第 $c$ 个通道的方差，计算公式为 $\sigma^2_c = \frac{1}{N \times H \times W} \sum_{n=1}^{N} \sum_{h=1}^{H} \sum_{w=1}^{W} (x_{n,c,h,w} - \mu_c)^2$ 。
$\gamma_c$ 是归一化的缩放因子（scale），是一个可学习的参数。
$\beta_c$ 是归一化的偏移量（shift），是一个可学习的参数。
$\epsilon$ 是一个小的常数，用于避免除以零的情况。