【文生图系列】基础篇-变分推理（数学推导）

此篇博文主要介绍什么是变分推理(Variational Inference , VI)，以及它的数学推导公式。变分推理，是机器学习中一种流行的方式，使用优化的技术估计复杂概率密度。变分推理的工作原理：**首先选择一系列概率密度函数，然后采用KL散度作为优化度量找到最接近于概率密度的函数**。引入evidence lower bound的方法更容易计算近似概率。

陶将

3504人浏览 · 2023-06-18 16:19:44

陶将 · 2023-06-18 16:19:44 发布

文章目录

此篇博文主要介绍什么是变分推理(Variational Inference , VI)，以及它的数学推导公式。变分推理，是机器学习中一种流行的方式，使用优化的技术估计复杂概率密度。变分推理的工作原理： 首先选择一系列概率密度函数，然后采用KL散度作为优化度量找到最接近于概率密度的函数。引入evidence lower bound的方法更容易计算近似概率。

KL散度

KL散度是两个分布之间的相对熵，量化概率分布 $\left( X \right)$ 与候选分布 $Q\left( X \right)$ 的相似程度。对于一个离散的随机变量 $X$ ，概率分布 $P$ 和分布 $Q$ 之间的KL散度的计算公式如下定义：

在这里插入图片描述

其中 $\mathbb{H}\left( P \right) = -\Sigma_{x \in X} P \left( x \right)log P \left( x \right)$ 是分布 $P$ 的熵， $\mathbb{H}\left( P \right) = -\Sigma_{x \in X} P\left( x \right)logQ\left( x \right)$ 是分布 $P$ 和分布 $Q$ 的交叉熵。

KL散度具有如下性质：1. 非负性；2. 非对称性；3. 当KL散度的取值位于 $(0,\infty)$ ，越接近于0，说明分布 $P$ 和分布 $Q$ 越匹配。

此外，概率分布 $P$ 和分布 $Q$ 之间的KL散度还可以表示为两个概率密度函数 $p$ 和 $q$ 之间对数差的期望。假设随机变量 $x$ 为概率分布函数 $P$ 的一个概率值， $\mathbb{E}$ 为期望，那么KL公式还可如下定义：
在这里插入图片描述

前向 vs 反向 KL

KL散度是非对称的，那也就是说 $D_{KL} \left( P \| Q \right) \neq D_{KL} \left( Q \| P \right)$ ，因此根据分布 $P$ 和分布 $Q$ 的位置，可分为前向KL和后向KL。

前向KL

前向KL的公式定义如下。只要近似值不能够覆盖实际概率分布，KL散度将会变得很大，用公式表示就是 $\lim_{q\left(x\right) \to 0} \frac{p\left(x\right)}{q\left(x\right)} \rightarrow \infty , p\left(x\right) > 0$ ，当 $p\left(x\right) > 0, q\left(x\right) \to 0$ 时， $\frac{p\left(x\right)}{q\left(x\right)}$ 的极限值将为 $\infty$ 。因此，当 $p\left(x\right) > 0$ 时，必须选择一个概率密度确保 $\left(x\right) > 0$ 。这种特殊的情况被称为"zero avoiding"，直观理解就是 $q$ 高估 $p$ 。
在这里插入图片描述

反向KL

反向KL的公式定义如下，其中 $\lim_{p \left(x\right) \to 0} \frac{q\left(x\right)}{p\left(x\right)} \rightarrow \infty , q\left(x\right) > 0$ ，当 $\left(x\right) = 0$ 时，迫使 $\left(x\right) = 0$ ，不然KL散度值将会很大。这种被称为“zero forcing”，直观理解就是 $q$ 低估 $p$ 。
在这里插入图片描述

可视化

下图展示了双峰分布上的正向和反向KL散度。蓝色轮廓表示实际概率密度 $p$ ，红色轮廓表示单峰近似 $q$ 。左一显示正向KL散度最小化， $q$ 倾向于覆盖 $p$ 。中间和右一显示了反向KL散度最小化， $q$ 倾向于锁定到两种模式中的其中一个。

在这里插入图片描述

问题描述

在这里插入图片描述

假设有两个随机变量 $X$ 和 $Z$ ，其中 $X$ 为观测变量， $Z$ 为潜在变量。 $X$ 和 $Z$ 的关系如上图所示，观测变量 $X$ 依赖于潜在变量 $Z$ ，从 $Z$ 到 $X$ 的箭头表示条件概率密度 $p\left( X | Z \right)$ 。依据贝叶斯公式，可计算后验概率密度 $p\left( Z| X \right)$ 。

$p\left( Z| X \right) = \frac{p\left(X|Z\right)p\left( Z \right)}{p\left(X\right)}$

其中，分母 $p\left( X \right)$ 的计算公式为 $p\left( X \right) = \int_{z \in Z} p \left( Z | z \right) p\left( z \right)dz$ ， $z$ 为样本空间 $Z$ 中的一个实例。 $p\left( Z \right)$ 为先验，它捕获了 $Z$ 的先验信息。

观察的边缘概率密度（marginal probability density） $p\left( X \right)$ 被成为evidence，对于很多模型，evidence的积分依赖于所选模型，要么在闭合形式下不可用，要么需要指数时间计算。

变分推理的目的是为潜在变量的统计推断提供后验概率密度 $p\left( Z| X \right)$ 的近似解析，它从可处理的概率密度族中选择潜在变量 $Z$ 的概率密度函数 $q$ 解决近似问题。变分推理能够有效地计算边缘概率密度（或者evidence）的下界，其基本思想是：一个更高的边缘相似性指示所选统计模型更好地拟合观察到的数据。

变分推理

变分推理VI的目的是从可处理的概率密度族 $\mathcal{Q}$ 中选择一个近似的概率密度 $q$ 。潜在变量 $Z$ 的每一个在 $\mathcal{Q}$ 中的概率密度 $q\left( Z \right) \in \mathcal{Q}$ 都是后验的一个近似候选，VI的目的就是从这些候选中选择最优的那一个。依据KL散度的性质，两个分布的KL值越小，两个分布越匹配。假设近似概率密度于观测变量于观测变量条件不相关，那么推理问题就可以看作一个优化问题，公式如下所示。

在这里插入图片描述

优化上述公式，就可从所选的概率家族中得到后验的最佳近似值 $q^{*}\left( \cdot \right)$ ，优化的复杂性取决于概率密度族的选择。计算上述公式中的KL散度，需要知道后验 $P$ ，但是后验的计算是棘手的。

一个替代的方案是用反向KL散度，这样后验和近似的平均交叉熵可以通过期望计算。因此上述公式可以重新被定义为如下公式。

在这里插入图片描述
然而，由于仍然需要知道后验 $P$ ，优化反向KL仍然是不可行的。但是可以最小化一个等于它的函数直到一个常数，这就是evidence lower bound，ELBO。

ELBO: Evidence Lower Bound

设上述公式中的KL散度为 $D$ ，依据下述推导可得到ELBO的公式。
$\begin{matrix} D &= D_{KL} \left( Q\left( Z \right) \| P \left( Z | X \right)\right) = \mathbb{E}_{z \in Q\left( Z \right) } log \frac{q\left( z \right)}{p \left( z | x \right)}\\ &= \mathbb{E} [ log q \left( z \right)] - \mathbb{E} [ log p \left( z | x \right)] \qquad \qquad \qquad \; \; \\ &= \mathbb{E} [ log q \left( z \right)] - \mathbb{E} [ log p \left( z , x \right)] + \mathbb{E} [ log p \left( x \right)] \; \; \; \\ &= \mathbb{E} [ log q \left( z \right)] - \mathbb{E} [ log q \left( z , x \right)] + log p \left( x \right) \qquad \end{matrix} \\ \Downarrow \\ -D + log p \left( x \right) = \mathbb{E} [ log p \left( z , x \right)] - \mathbb{E} [ log q \left( z \right)] = ELBQ\left( Q \right)$

ELBO等于KL散度的负值于常量 $log\left(x \right)$ 的和。从上述公式可以看出，最大化ELBO等价于最小化KL散度。依据贝叶斯概率 $p\left(z, x \right) = p\left(z \right) \cdot p\left(z | x \right) = p\left(x \right) \cdot p\left(x | z \right)$ ，ELBO公式又可做如下推导。
在这里插入图片描述
从上述公式可以看出，ELBO是数据的对数似然期望与先验和近似后验概率密度的KL散度之和。对数似然期望描述了所选统计模型与数据的拟合程度。KL散度促使变分概率密度接近于先验，因此，ELBO可看作对数据的正则拟合。

使用Jensen不等式（ $f\left( E[x] \right) \ge E[f\left( X \right)]$ ）可推到出ELBO和 $p\left( x \right)的关系，$ ELBO值是要低于 $p\left( x\right)$ 。问题描述中，我们也提到evidence的积分依赖于所选模型，要么在闭合形式下不可用，要么需要指数时间计算。ELBO和 $p\left( x\right)$ 的这种关系，促使研究人员使用变分下界作为模型选择的标准。

在这里插入图片描述

参考

开放原子开发者工作坊

开放原子开发者工作坊旨在鼓励更多人参与开源活动，与志同道合的开发者们相互交流开发经验、分享开发心得、获取前沿技术趋势。工作坊有多种形式的开发者活动，如meetup、训练营等，主打技术交流，干货满满，真诚地邀请各位开发者共同参与！

更多推荐

一文解决Cellphonedb单细胞互作分析及可视化作图（2）

开放原子开发者工作坊

[工具使用]——时序图与UML类图

开放原子开发者工作坊

CTFHub技能树 Web-SQL注入详解

整数型注入我们输入 1不断尝试发现闭合方式就是 1 ，整数型存在两列order by 2存在两个注入点/?id=-1 union select 8,9爆库，当前数据库为sqli/?id=-1 union select 8,database()爆出所有表名,这里我们需要吧sqli转换为16进制/?id=-1 union select 8,group_concat(table_name) from i