【指标原理】CNN和ViT的FLOPs、参数量计算

FLOPs（Floating Point Operations）是浮点运算次数的缩写，其计算包括所有的浮点数加法、减法、乘法和除法运算。在深度学习领域，FLOPs特别用来量化一个神经网络模型进行一次前向传播所需的浮点运算数量，这对于评估模型的计算效率和资源需求非常有用。

追风赶月。

2930人浏览 · 2024-03-14 16:59:06

追风赶月。 · 2024-03-14 16:59:06 发布

一、介绍

FLOPs（Floating Point Operations）是浮点运算次数的缩写，其计算包括所有的浮点数加法、减法、乘法和除法运算。在深度学习领域，FLOPs特别用来量化一个神经网络模型进行一次前向传播所需的浮点运算数量，这对于评估模型的计算效率和资源需求非常有用。

CNN（卷积神经网络）和ViT（Vision Transformer）的FLOPs（浮点运算次数）计算方法依赖于网络的具体架构和输入数据的维度。

二、CNN的FLOPs计算

卷积层的FLOPs计算公式通常如下：

$FLOPs = 2 \times K^{2} \times C_{in} \times C_{out} \times H_{out} \times H_{out}$

其中， K 是卷积核的大小，正常卷积核大小是 K×K ；

$C_{in}$ 和 $C_{out}$ 分别是输入、输出特征图的通道数；

$H_{out}$ 和 $W_{out}$ 分别是输出特征图的高度和宽度；

乘以2是因为，每个卷积操作都包含了一次乘法和一次加法运算。

卷积操作的计算过程

如果使用分组卷积（如在深度可分离卷积中），FLOPs的计算需要根据分组数量进行调整，因为每个分组只处理输入通道的一部分。

分组卷积：

FLOPs = $G \times (2 \times K^{2} \times \frac{C_{in}}{G} \times H_{out} \times W_{out} \times \frac{C_{out}}{G})$

= $2 \times K^{2} \times C_{in} \times H_{out} \times W_{out} \times \frac{C_{out}}{G}$

三、ViT的FLOPs计算

ViT模型的计算复杂度主要来自于其自注意力机制和前馈网络。

3.1 ViT的基本组成

自注意力（Self-Attention）层：允许模型在处理一个序列的不同位置时，根据其他位置的信息来加权当前位置的表示。这一机制的核心是通过计算序列中每个元素对于其他元素的注意力得分来实现的。
前馈网络（Feed-Forward Network, FFN）层：每个位置上应用相同的全连接层，通常包括两个线性变换和一个非线性激活函数。

3.2 自注意力的FLOPs计算

自注意力计算过程由3个部分组成：

（1）线性映射：就是通过线性层得到查询（Q）、键（K）和值（V）矩阵；

（2）注意力得分：要进行矩阵乘法操作 $QK^{T}$ ，计算得到相似度后再应用SoftMax函数，但是一般可以忽略，因为计算量相对比较小；

（3）应用注意力：得分矩阵和值V矩阵进行乘法；

假设N是序列长度（也就是输入的token数量），D是特征的维度。

对于一张图像而言，ViT首先会将其切割成多个小块（patches），每个块通常有相同的像素大小。然后，每个块的原始像素值平展成一个长向量，然后通过一个线性变换，将其映射到一个指定的维度D，如果一张图像被划分成N块，那么整个图像就可以表示为 $N \times D$ 的矩阵：

其中，每一行代表一个图像块转换后的D维向量；整个矩阵代表了原始的图像，由N个这样的D维向量组成。

对于线性映射部分，输入序列（也就是说的 $N \times D$ 矩阵）会被转化为Q、K、V。这个过程是通过权重矩阵进行转换的，这个矩阵是可以学习的。假设权重矩阵分别是 $W^{Q}$ 、 $W^{K}$ 和 $W^{V}$ ，每个矩阵大小是 $D \times D^{'}$ ，其中 $D^{'}$ 是映射后的维度，通常等于D。因此，Q、K和V就是下面公式得到的：