一文掌握Sigmoid激活函数：深度学习的“隐形”英雄

Sigmoid函数，有时也称作逻辑函数或Logistic函数，是深度学习和神经网络中最初期使用的一种激活函数。其中，e是自然对数的底数（约等于2.71828），x是神经元的输入。Sigmoid函数的图形是一个S形的曲线，也被称为S曲线（S-curve）。这个函数的核心特点是能够把输入值压缩到0到1的范围内。这种压缩的效果给予了它一些特别的优点，在机器学习和统计领域被广泛利用。Sigmoid函数曾是

weixin_42132035

2938人浏览 · 2024-07-08 23:00:10

weixin_42132035 · 2024-07-08 23:00:10 发布

在深度学习的世界里，激活函数扮演着至关重要的角色。它们决定了神经网络如何将输入信号转换为输出，从而在一定程度上决定了网络的性能。在众多的激活函数中，Sigmoid函数因其独特的特性和应用而备受关注。本文将深入浅出地解析Sigmoid激活函数，带你一步步揭开它的神秘面纱。

一、引言

在进入深度学习的奇妙旅程之前，我们需要了解神经网络的“神经元”如何做出决策。这个决策过程是通过激活函数完成的，而Sigmoid激活函数就是这个过程的关键参与者之一。Sigmoid激活函数因其形似S型曲线（S-shaped curve）在数学和工程领域中极具标志性。

二、什么是Sigmoid激活函数？

Sigmoid函数，有时也称作逻辑函数或Logistic函数，是深度学习和神经网络中最初期使用的一种激活函数。它在数学上的定义是：

\sigma(x) = \frac{1}{1 + e^{-x}}

其中，e 是自然对数的底数（约等于2.71828），x 是神经元的输入。Sigmoid函数的图形是一个S形的曲线，也被称为S曲线（S-curve）。

这个函数的核心特点是能够把输入值压缩到0到1的范围内。这种压缩的效果给予了它一些特别的优点，在机器学习和统计领域被广泛利用。

2.1 核心特性

输出界限：由于Sigmoid函数的输出范围在0到1之间，它可以被用于将任何值映射到概率空间。这使得Sigmoid函数非常适合于二分类任务的最后输出，比如在二分类问题中预测一个事件发生的概率。
非线性特性：Sigmoid函数是一个非线性函数，这意味着当我们使用它作为激活函数时，可以帮助神经网络学习到输入数据中的非线性复杂关系。如果没有非线性激活函数，无论神经网络有多少层，最终都只能学习到输入数据的线性组合。
平滑梯度：Sigmoid函数的梯度在其定义域内处处存在，这保证了在使用基于梯度的优化算法（如梯度下降）时，每一步都能够找到方向。它的平滑性质也使得模型的训练更加稳定。

2.2 数学解析

Sigmoid函数的导数（用于反向传播中梯度计算）表达式如下：

\sigma'(x) = \sigma(x) \cdot (1 - \sigma(x))

这表示Sigmoid函数的导数可以用函数自身来表示，这一特性使得在实际计算梯度时更加高效。

2.3 应用场景

最经典的Sigmoid函数应用场景是在神经网络的输出层，尤其是在处理二分类问题时。例如，在一个电子邮件分类器中，Sigmoid可以用来判断一封邮件是否为垃圾邮件。

2.4 边缘效应与局限性

尽管Sigmoid函数非常有用，但它也有其缺点。当输入值非常大或非常小的时候，Sigmoid函数的梯度几乎为零。这种现象称为梯度消失，可能导致在训练神经网络时更新权重变得异常缓慢，从而阻碍学习过程。

总的来说，虽然Sigmoid函数在现代神经网络中逐渐被ReLU和其他更加高效的激活函数取代，但了解其原理仍然对理解激活函数的发展和神经网络的工作原理至关重要。

三、Sigmoid函数的数学性质

Sigmoid函数不仅因其S形曲线而闻名，还因为它拥有一些重要的数学性质，使其在早期深度学习和神经网络的发展中发挥了重要作用。以下是Sigmoid函数的一些关键数学特性：

非线性：
Sigmoid函数是一个非线性函数，这意呈现出可以解决线性模型无法处理的问题。其非线性特性允许多层感知器（MLP）通过堆叠层来解决复杂的问题，而不仅仅是线性可分问题。
连续且可微：
Sigmoid函数在整个定义域内都是连续的，并且在任意一点都存在导数。这个特性是实现基于梯度的优化算法（如反向传播）的关键。
输出范围限定：
Sigmoid函数的输出严格位于0和1之间，这使得其输出可以被视作概率。这种限定在处理如二分类问题时尤其有用，因为输出可以直接被解释为某一类的概率预测。
平滑梯度：
Sigmoid函数的梯度在其活跃区间内是平滑的，这有利于进行梯度下降，因为小的改变会产生可预测的、渐变的更新。
梯度饱和：
当输入值远离原点时，Sigmoid函数的梯度接近于零。这意味着对于非常高或非常低的输入值，梯度的变化非常小，从而可能导致梯度消失问题。在实际训练中，这可能会导致权重更新过慢，使得学习过程变得不稳定或者停滞。
软步阶功能性：
Sigmoid函数可以被看作是一个平滑版本的阶跃函数。在早期的神经网络中，它经常被用来模拟神经元的开/关动作，适合作为输出层神经元的激活函数。
对称性：
Sigmoid函数是关于点（0, 0.5）对称的。这个中心点是其导数最大的点，对应于最大的变化率，也是学习最快的地方。离开这个点，学习速度逐渐减慢。
导数的性质：
Sigmoid函数的导数可以表示为其自身的函数：σ'(x) = σ(x)(1 - σ(x))。这意呴着一旦计算出函数的输出，我们可以很容易地得到它的导数，这在实现反向传播算法时非常有用。

四、Sigmoid在深度学习中的应用

虽然Sigmoid函数在现代深度学习模型中的使用已经较为有限，主要是因为梯度消失问题和计算效率方面的考虑，但它在特定场景和历史阶段中仍发挥着不可忽视的作用。

二分类问题的输出层：
在深度学习的早期，Sigmoid函数几乎是所有二分类问题输出层的默认选择。其输出可以被解释为概率，提供了一个介于0到1之间的平滑预测值。例如，在医学诊断、垃圾邮件检测、图像识别等问题中，Sigmoid激活函数帮助模型输出了一个事件发生的概率。
概率建模：
对于某些需要输出概率分布的模型，如某些类型的生成模型和与概率密度相关的任务，Sigmoid函数可以用来表示两个相互对立状态的概率，比如硬币的正面或反面。
作为激活函数的原型：
Sigmoid函数的广泛应用促进了后续其他激活函数的开发。对Sigmoid函数在实际应用中的局限性的认识催生了像ReLU（Rectified Linear Unit）及其变种这样的激活函数，它们在处理梯度消失问题和加速训练方面表现更优。
Logistic回归：
在深度学习的背景下，Logistic回归可以被视为一个单一神经元的神经网络。在这种情况下，Sigmoid函数被用作激活函数，将线性回归的输出压缩到0和1之间，以便进行二分类。
Autoencoders的隐藏层：
在某些特定类型的自编码器（autoencoders）中，Sigmoid激活函数仍会被用于隐藏层。由于其输出范围，它能够帮助模型学习数据的压缩表示，这对于输入数据标准化到[0, 1]范围内时尤其有用。
时间序列分析：
在处理时间序列数据时，如股市预测或气象建模，Sigmoid函数有时被用于循环神经网络（RNN）等模型的门控机制，尽管现代更多地使用了更为复杂的激活函数，如长短期记忆（LSTM）网络中的tanh函数。
模型校准：
在某些高级模型中，Sigmoid激活函数可以作为校准工具，将模型输出转换为更加可解释和可比较的形式，尤其是在模型集成和转换学习场景中。

在深度学习的发展历程中，Sigmoid函数的应用有其特定的时代背景和适用场景。了解其在深度学习中的应用历史有助于我们更好地理解激活函数的选择和神经网络设计的演变。尽管现在更偏好于使用其他激活函数，但在某些特定情况下，Sigmoid函数仍然保留着它的价值和适用性。

五、Sigmoid的缺陷及解决方案

尽管Sigmoid函数在某些场景和历史阶段发挥了重要作用，但它也有一些显著的缺点，这些缺点在深度学习的实践中可能会导致问题。这些问题包括：

梯度消失问题：
- Sigmoid函数的一个主要问题是在其输入值偏离原点时，梯度接近零。这意味着在反向传播过程中，梯度会在每一层被连续乘以一个小数，导致梯度在深层网络中迅速消失，从而导致权重更新缓慢，使得网络难以从训练数据中学习。这个问题被称为梯度消失问题。
解决方案：可以通过使用其它激活函数来解决，如ReLU、Leaky ReLU、Parametric ReLU和ELU等，它们在正区间内的梯度为常数，从而缓解了梯度消失问题。
计算成本高：
- Sigmoid函数的计算包括指数运算，这比其他一些激活函数的计算成本更高。在处理大规模数据或复杂模型时，计算效率是一个重要的考虑因素。
解决方案：使用计算成本较低的激活函数，如ReLU，ReLU只需要判断输入是否大于0，计算成本较低。
非零中心性：
- Sigmoid函数的输出不是以0为中心的。这意味着Sigmoid函数的输出总是正的，这可能会导致权重更新的方向有偏差。
解决方案：使用零中心性的激活函数，如tanh函数，它的输出范围在-1到1之间，以0为中心。
对于大的输入值，Sigmoid函数饱和且非常敏感：
- 对于具有大的正或负输入值的Sigmoid函数，函数会变得饱和，输出值的变化微乎其微，这可能会导致梯度消失。
解决方案：适当初始化权重，并使用批量归一化等技术可以一定程度上缓解这个问题。