【基础知识】熵、交叉熵、相对熵(KL散度) 是什么以及它们之间的区别

熵（Entropy）和交叉熵（Cross-Entropy）是信息论中的两个基本概念，它们在机器学习、深度学习等领域有着广泛的应用。

页页读

2364人浏览 · 2024-03-14 10:16:53

页页读 · 2024-03-14 10:16:53 发布

1. 什么是熵，什么是交叉熵，区别是什么？

熵（Entropy）和交叉熵（Cross-Entropy）是信息论中的两个基本概念，它们在机器学习、深度学习等领域有着广泛的应用。

熵 (Entropy)

熵是用来衡量一组数据中的不确定性或信息量的指标。对于一个随机变量 $X$ ，其熵 $H (X)$ 可以通过下面的公式计算：

$-\sum_{i=1}^{n} P(x_i) \log P(x_i)$

其中， $P(x_i)$ 是随机变量 $X$ 取值 $x_i$ 的概率， $\log$ 通常以 2 为底或以 $e$ 为底，分别对应于信息单位为比特（bits）或纳特（nats）。

交叉熵 (Cross-Entropy)

交叉熵是衡量两个概率分布之间差异的指标，常用于机器学习中评价模型输出与真实标签之间的差异。给定两个概率分布 $P$ 和 $Q$ ， $P$ 代表真实分布， $Q$ 代表模型预测分布，它们之间的交叉熵 $H (P, Q)$ 可以通过以下公式计算：

$-\sum_{i=1}^{n} P(x_i) \log Q(x_i)$

对比

对比熵和交叉熵的公式，我们可以发现两者在形式上非常相似，都涉及到了概率乘以对数概率的形式。主要区别在于：

熵 $H (X)$ 只依赖于一个概率分布，它衡量的是这个概率分布本身的不确定性。
交叉熵 $H (P, Q)$ 依赖于两个概率分布，它衡量的是一个概率分布相对于另一个概率分布的不确定性。

在机器学习中，经常使用交叉熵作为损失函数，来衡量模型预测概率分布与真实概率分布之间的差异。通过最小化交叉熵，模型可以学习到更接近真实标签的预测分布。

2.交叉熵和KL散度的区别?

交叉熵（Cross-Entropy）和KL散度（Kullback-Leibler Divergence）都是衡量两个概率分布之间差异的指标，但它们在概念和应用上有所区别。

交叉熵 (Cross-Entropy)

交叉熵衡量的是在给定的真实分布 $P$ 下，用另一个分布 $Q$ 来编码事件所需的平均比特数。它的计算公式为：

$-\sum_{x} P(x) \log Q(x)$

其中， $P$ 是真实分布， $Q$ 是预测分布，和上文提到的一样。交叉熵常用于机器学习中的损失函数，特别是在分类问题中，用来衡量模型预测的概率分布与实际标签的概率分布之间的差异。

KL散度 (Kullback-Leibler Divergence)

KL散度，也称为相对熵，是衡量两个概率分布 $P$ 和 $Q$ 差异的非对称性指标。它的计算公式为：

$D_{KL}(P \Vert Q) = \sum_{x} P(x) \log \frac{P(x)}{Q(x)}$

KL散度测量了使用概率分布 $Q$ 来近似概率分布 $P$ 时所丢失的信息量。它是非对称的，即 $D_{KL}(P \Vert Q) \neq D_{KL}(Q \Vert P)$ 。

区别

概念上：交叉熵衡量的是在一个分布下编码另一个分布所需的信息量；而KL散度衡量的是两个概率分布之间的信息损失或差异。
计算公式：交叉熵的计算公式中不直接涉及真实分布 $P$ 相对于预测分布 $Q$ 的比率，而KL散度的公式直接涉及到这个比率 $\frac{P(x)}{Q(x)}$ 。
对称性：交叉熵是对称的，没有明确的方向性；KL散度是非对称的，明确区分了哪个是“真实”分布，哪个是“预测”或“近似”分布。
关系：二者之间有密切关系，实际上，KL散度可以被视为两个分布之间交叉熵和真实分布熵的差值：
$D_{KL}(P \Vert Q) = H(P, Q) - H(P)$

在机器学习和统计建模中，这两个指标都非常重要，用于评估和优化模型的性能。

开放原子开发者工作坊

开放原子开发者工作坊旨在鼓励更多人参与开源活动，与志同道合的开发者们相互交流开发经验、分享开发心得、获取前沿技术趋势。工作坊有多种形式的开发者活动，如meetup、训练营等，主打技术交流，干货满满，真诚地邀请各位开发者共同参与！

更多推荐

MATLAB实现控制系统的时域分析

目的用 MATLAB 对控制系统进行时域分析，包括典型响应、判断系统稳定性和分析系统的动态特性。理论二、典型响应及其性能分析1、单位阶跃响应单位阶跃响应调用格式为：(1) step(num,den)(2) step(num,den,t)(3) step(G)(4) step(G,t)该函数将绘制出系统在单位阶跃输入条件下的动态响应图，同时给出稳态值。其中 t 为图像

开放原子开发者工作坊

【深度学习2】基于Pytorch的WGAN理论和代码解析

参考文章：令人拍案叫绝的Wasserstein GAN - 知乎 (zhihu.com)1 原始GAN存在问题实际训练中，GAN存在着训练困难、生成器和判别器的loss无法指示训练进程、生成样本缺乏多样性等问题。这与GAN的机制有关。GAN最终达到对抗的纳什均衡只是一个理想状态，而现实情况中得到的结果都是中间状态（伪平衡）。大部分的情况是，随着训练的次数越多判别器D的效果越好，会导致一直可以将生成

开放原子开发者工作坊

RocketMQ的顺序消费问题MessageListenerOrderly()

consumer.registerMessageListener(new MessageListenerOrderly() {@Overridepublic ConsumeOrderlyStatus consumeMessage(List<MessageExt> msgs, ConsumeOrderlyContext context) {for (MessageExt msg : ms