GPT与GAN结合生成图像——VQGAN原理解析

这篇文章，我们讲VQ_GAN，这是一个将特征向量离散化的模型，其效果相当不错，搭配Transformer（GPT）或者CLIP使用，达到的效果在当时可谓是令人拍案叫绝！[GPT与GAN结合生成图像——VQGAN原理解析-哔哩哔哩]效果演示：图像生成其他任务。

鬼魅森林☚

3576人浏览 · 2024-04-23 18:15:11

鬼魅森林☚ · 2024-04-23 18:15:11 发布

1、前言

这篇文章，我们讲VQ_GAN，这是一个将特征向量离散化的模型，其效果相当不错，搭配Transformer（GPT）或者CLIP使用，达到的效果在当时可谓是令人拍案叫绝！

视频：[GPT与GAN结合生成图像——VQGAN原理解析-哔哩哔哩]

效果演示：

图像生成
在这里插入图片描述

其他任务

在这里插入图片描述

2、VQVAE

VQGAN其实是VQVAE修改过来的，是VQVAE先对VAE中的编码向量离散化。而后，VQGAN就是在VQVAE的基础上进行了一些修改，以提高其生成效果

由于这篇文章讲的是VQGAN，所以不会涉及VQVAE里面的公式推导，我们就直观的理解就行了，后续我看看是否需要补一个VQVAE

3、VQGAN

论文里面提到，VQGAN的出现的动机是针对transformer，由于transformer在NLP（自然语言处理）取得了令人惊讶的效果。所以，就有很多人尝试，是否可以将transformer应用在图像处理领域

在这篇论文之前，已经有人进行尝试，transformer可以应用在图像领域，并且取得了相当不错的效果。然而，相对于NLP，图像处理的难度却比较大，在transformer中，一句话的长度往往不会很长，里面的自注意力机制的计算量仍然可以接收；可图像处理领域的每个像素如果都要做自注意力的话，在低像素的或许还可以接收，但是一旦到了高像素，其计算量往往令人望而生畏。

受VQVAE的启发，作者先把图像通过编码器，编码成维度较低的向量，从而减少自注意力机制的计算量。并且，会把编码后的向量离散化。作者认为，在自然界中，图像本身应该是由一个个离散的量组合而成的，就好比东一个西一个，就拼成了车。

4、VQGAN流程

在这里插入图片描述

首先，从左下角开始，有一张狗的照片（红框），把这张图送给一个卷积编码器（ $E$ ），输出向量 $\hat z$ 。

接着，初始化一个码本（Codebook $Z\in R^{(num,dim)}$ ，num是码本有多少行，dim是每行多少维度），把向量 $\hat z$ 在像素层面上，都在码本中找到与它最像的一个向量（使用最近邻搜索）。得到 $z_q$ （图中像素上面的数字代表码本对应位置向量）

把得到的 $z_q$ ，送给解码器G，恢复图像，然后把这张还原的图像和生成的图像，送给卷积判别器D，判断真伪。

这就是整个流程。

我们看图中的码本，码本中对应的向量，分别表示图中那只狗某一块的特征，这种就是特征的离散化，能够让特征充分解耦。

5、VQVAE的损失

VQGAN的目标，就是学习到一个足够好的码本，编码器和解码器。

在讲VQGAN之前，我们先来看VQVAE。

5.1、VQVAE重构损失

这是VQVAE的模型图（与VQGAN相比，少了判别网络D）

在这里插入图片描述

如果你知道VAE或者AE，就应该知道，我们要让编码后再解码得到的图像和原始图像很像，那就说明这两个编码和解码器足够好。所以，我们要让重构的损失最小。即
$L_{rec} = ||x-\hat x||^2=||x-G(z_q)||^2$
$\hat x$ 表示重构出来的图像， $G$ 是解码器。

这是一种非常朴素的想法，但是，这里有个问题，那就是里面的 $z_q$ 是 $\hat z$ 在码本中最近邻搜索弄出来，这种最近邻匹配的方法是没有办法把梯度传递会编码器E那边的。于是，作者提出了straight-through estimator，具体做法如下，我们令
$z_q = \hat z+ sg(z_q-\hat z)\tag{1}$
其中，里面的sg就是停止梯度的意思，也就是当反向传播的时候，括号里面那一项梯度不计。

于是，便有
$sg=\left\{\begin{matrix}sg = 1;正向传播\\sg=0;反向传播\end{matrix}\right.$
当正向传播，把 $s g = 1$ 代入式（1），等式成立；反向传播的时候， $s g = 0$ ，会导致直接传梯度到 $\hat z$

也就是说，当正向传播时，有损失
$L_{rec}=||x-G(\hat z+ sg(z_q-\hat z))||^2=||x-G(z_q)||^2$
反向传播时，有
$L_{rec}=||x-G(\hat z+ sg(z_q-\hat z))||^2=||x-G(\hat z)||^2$
或许你会想，为什么可以这样做，这样做真的可以收敛吗？是可以的！

试想一下，当 $\hat z$ 通过与码本中找到最相近的向量替代原来的向量，得到 $z_q$ ，换句话说， $\hat z$ 与 $z_q$ 是近似的，那么其更新方向也是近似相等的。

5.2、码本损失

我们要构造一个足够好的码本，去表示图像的离散特征。而我们知道 $\hat z$ 是编码器编码图像得到的特征，那么理所应当的，我们只需要让
$L_{code}=_{z_i\in Z}||E(x)-z_q||_2^2$
$z_q$ 是像素点，在码本的对应最近邻向量。

作者认为，编码器 $E$ 和码本向量不应该以一样的速率优化，码本的是要学习把自己的向量与编码器的向量尽量的接近，码本的学习速率必须要快于编码器，否则码本自己优化，而不是向着编码器的方向优化。

所以将其拆分成两项
$L_{code}=||sg(E(x))-z_q||_2^2+\beta ||E(x)-sg(z_q)||_2^2$
$\beta$ 是学习速率。取值 $0.1$ 到 $2.0$ 之间，但是作者经过实验发现， $\beta$ 的取值对结果的影响很小，几乎没有。在VQVAE中， $\beta=0.25$

5.3、总损失

故而，我们得到VQVAE的总损失函数
$\mathcal{L}_{VQ}=L_{rec}+L_{code}$

6、VQGAN损失

在这里插入图片描述

6.1、感知损失

与VQVAE相比，VQGAN的作者首先把里面的重构损失 $L_{rec}$ 换成感知损失（perceptual loss）

所谓的感知损失，在一般请看下，就是把真实的图像，和解码器复原的图像，一起送给一个神经网络，比如VGG16，把这两张图像经过VGG16，都编码成特征向量，然后计算特征向量的差别，比如
$L_{per}=||VGG(x)-VGG(\hat x)||_2\tag{2}$
这只是举个例子，在文章中VQGAN的代码中，比这个复杂一点，它是在很多层都进行都去计算式（2）。

另外，值得注意的是，虽然论文里面写的是把重构损失换成感知损失，但是在本文上面的代码中，其实两种损失都用到了。我个人觉得也没什么不妥的，很显然重构损失是在图像层面的差异，而感知损失是特征向量的差异，所以两者加起来应当不会有什么问题。

6.2、判别网络的损失

VQGAN比VQVAE多了一个判别网络，故而加上一个判别网络的损失，以优化参数让解码器G生成的图像更好。公式如下（这是GAN的基本公式，在此不过多赘述）
$\mathcal{L}_{GAN}(\{E,G,Z\},D)=[\log D(x)+\log(1-D(\hat x))]$
因此，最终的损失函数如下
$L=\min\limits_{E,G,Z}\max\limits_{D}\mathbb{E}_{x\sim p(x)}\left[\mathcal{L}_{VQ}(E,G,Z)+\lambda\mathcal{L}_{GAN}(\{E,G,Z\},D)\right]$
其中， $\lambda$ 是动态变化的，其公式如下
$\lambda = \frac{\nabla_{G_L}[\mathcal{L_{rec}}]}{\nabla_{G_L}[\mathcal{L}_{GAN}]+\delta}$
论文里面， $\delta=10^{-6}$ ， $\nabla_{G_L}$ 是关于解码器最后一层求梯度。