交叉熵损失函数（Cross Entropy Loss）

交叉熵损失函数的理论和pytorch代码解析

咚咚锵咚咚锵

4314人浏览 · 2023-02-10 13:35:06

咚咚锵咚咚锵 · 2023-02-10 13:35:06 发布

文章目录

1. 理论知识
2. 代码

1. 理论知识

我们需要关注那些按常理来说不太可能发生的事情。『信息量』就是用来度量事件的不确定性， 事件包含的信息量应与其发生的概率负相关 。假设 $X$ 是一个离散型随机变量，它的取值集合为 ${x_{1},x_{2},...,x_{n}\}$ ，事件 $X=x_{i}$ 的信息量为：
$I(x_{i})=-logP(X=x_{i})$

其中， $P$ 为变量 $X$ 取值为 $x_{i}$ 的概率，这个概率值应该落在0到1之间，则事件 $X=x_{i}$ 的信息量的曲线图如下。当概率值 $P$ 趋于0时，信息量趋于无穷大，概率值 $P$ 等于1时，信息量为0。

在这里插入图片描述

进一步地，定义了『熵』来表示变量 $X$ 整个概率分布的平均信息量 。随机变量 $X$ 的熵的计算公式：

$H(X)=-\sum_{i=1}^{n}{P(X=x_{i})logP(X=x_{i})}$

《深度学习花书》中有一句结论：那些接近确定性的分布（输出几乎可以确定）具有较低的熵，那些接近均匀分布的概率分布具有较高的熵。即， 随机变量 $X$ 的取值情况越随机，那么它的熵越高 。

用『相对熵（或叫KL散度）』来计算随机变量 $X$ 的真实概率分布 $P (X)$ 和与其近似的分布 $Q (X)$ 两个的差异：

$D_{KL}(P||Q)=-\sum_{i=1}^{n}P(x_{i})logQ(x_{i})-(-\sum_{i=1}^{n}P(x_{i})logP(x_{i}))=-\sum_{i=1}^{n}P(x_{i})logQ(x_{i})-H(P(X))$

『交叉熵』 $H (P, Q)$ 为：

$H(P,Q)=H(P)+D_{KL}(P||Q)=-\sum_{i=1}^{n}P(x_{i})logQ(x_{i})$

由于 $P (X)$ 是真实概率分布，所以 $H (P (X))$ 就是随机变量 $X$ 的熵，那么 KL散度=交叉熵-熵 ，熵是已知的，求取 KL散度就等价于求交叉熵 ，所以交叉熵才会被用做神经网络训练中的损失函数。

2. 代码

Pytorch中使用交叉熵损失函数，直接调用nn.CrossEntropyLoss函数，使用一个例子来说明该函数的计算流程：

import torch.nn as nn
import torch

loss = nn.CrossEntropyLoss()
input = torch.randn(2, 3, requires_grad=True)
target = torch.empty(2, dtype=torch.long).random_(3)
output = loss(input, target)

# input
>>>tensor([[-0.0985,  1.6204, -0.5298],
           [-1.2966,  2.0098, -0.3128]])
# target
>>>tensor([1, 0])
# output
>>>tensor(1.8459)

用通俗点的方法来说明下计算流程

input为模型输出的概率分布，nn.CrossEntropyLoss函数内嵌了nn.softmax

第一步：input先进行softmax操作

softmax = nn.Softmax()
input_softmax = softmax(input)
# input_softmax
>>>tensor([[0.1383, 0.7718, 0.0899],
           [0.0323, 0.8813, 0.0864]])

第二步：以概率分布的形式表示target

# target
>>>tensor([[0, 1, 0],
          [1, 0, 0]])

该例子中minibatch=2，可以看作包含了两个随机变量 $X_{1}$ 和 $X_{2}$ ，那么input_softmax为这两个变量的预测分布[ $Q_{1}$ , $Q_{2}$ ]，target为两个变量的真实分布[ $P_{1}$ , $P_{2}$ ]

第三步：分别计算 $X_{1}$ 和 $X_{2}$ 的交叉熵

$H(P_{1}, Q_{1})=-\sum_{i=1}^{3}P_{1}(x_{i})logQ_{1}(x_{i})=-(0 * log(0.1383) + 1 * log(0.7718) + 0 * log(0.0899)) = 0.2591$
$H(P_{2}, Q_{2})=-\sum_{i=1}^{3}P_{2}(x_{i})logQ_{2}(x_{i})=-(1 * log(0.0323) + 0 * log(0.8813) + 0 * log(0.0864)) = 3.4328$

第四步：计算这一个批次的损失

CLASS torch.nn.CrossEntropyLoss(weight=None, size_average=None, ignore_index=- 100, reduce=None,   			 							reduction='mean', label_smoothing=0.0)

其中reduction参数有两个选项，'mean'和'sum'（默认'mean'），也就是一个批次的损失是输出所有样本的交叉熵的平均值还是总和值。上面的例子是用的默认值，所以最终的输出的
$\frac{H(P_{1}, Q_{1})+H(P_{2}, Q_{2})}{2}=\frac{0.2591+3.4328}{2}=1.8459$

【Tips】：torch从1.10.0版本开始支持两种target形式，除了上面Example of target with class indices，还有Example of target with class probabilities：

input = torch.randn(2, 3, requires_grad=True)
target = torch.randn(2, 3).softmax(dim=1)
output = loss(input, target)

参考：交叉熵损失函数（Cross Entropy Loss）

开放原子开发者工作坊

开放原子开发者工作坊旨在鼓励更多人参与开源活动，与志同道合的开发者们相互交流开发经验、分享开发心得、获取前沿技术趋势。工作坊有多种形式的开发者活动，如meetup、训练营等，主打技术交流，干货满满，真诚地邀请各位开发者共同参与！

更多推荐

“源”聚天大，码动未来|开放原子校源行（天津大学站）即将启幕！

11月22日，开放原子校源行（天津大学站）将在天津大学北洋园校区隆重举办。

开放原子开发者工作坊

openEuler系累计装机量突破1000万，树立操作系统产业新里程碑

11月15日，以“以智能，致世界”为主题的操作系统大会2024在北京中关村国际创新中心召开。

开放原子开发者工作坊

多模态大模型&科学计算双管齐下，百度飞桨两大赛项报名倒计时！

第二届开放原子大赛是由开放原子开源基金会组织举办的开源技术领域专业赛事，聚焦解决真问题，重点覆盖基础软件、工业软件、人工智能大模型等领域

开放原子开发者工作坊

所有评论(0)

查看更多评论

咚咚锵咚咚锵

@weixin_45977690

已为社区贡献4条内容