2.13 向量化 Logistic 回归-深度学习-Stanford吴恩达教授

向量化 Logistic 回归 (Vectorizing Logistic Regression)课程PPT

Zhao-Jichao

6360人浏览 · 2020-04-05 15:37:53

Zhao-Jichao · 2020-04-05 15:37:53 发布

←上一篇	↓↑	下一篇→
2.12 向量化的更多例子	回到目录	2.14 向量化 Logistic 回归的梯度输出

向量化 Logistic 回归 (Vectorizing Logistic Regression)

我们已经讨论过向量化是如何显著加速你的代码，在本次视频中我们将讨论如何实现逻辑回归的向量化计算。这样就能处理整个数据集，甚至不会用一个明确的for循环就能实现对于整个数据集梯度下降算法的优化。我对这项技术感到非常激动，并且当我们后面谈到神经网络时同样也不会用到一个明确的 for 循环。

让我们开始吧，首先我们回顾一下逻辑回归的前向传播步骤。所以，如果你有 $m$ 个训练样本，然后对第一个样本进行预测，你需要这样计算。计算 $z$ ，我正在使用这个熟悉的公式 $z^{(1)}=w^Tx^{(1)}+b$ 。然后计算激活函数 $a^{(1)}=\sigma(z^{(1)})$ ，计算第一个样本的预测值 $y$ 。

然后对第二个样本进行预测，你需要计算 $z^{(2)}=w^Tx^{(2)}+b$ ， $a^{(2)}=\sigma(z^{(2)})$ 。然后对第三个样本进行预测，你需要计算 $z^{(3)}=w^Tx^{(3)}+b$ ， $a^{(3)}=\sigma(z^{(3)})$ ，依次类推。如果你有 $m$ 个训练样本，你可能需要这样做 $m$ 次，可以看出，为了完成前向传播步骤，即对我们的 $m$ 个样本都计算出预测值。有一个办法可以并且不需要任何一个明确的for循环。让我们来看一下你该怎样做。

首先，回忆一下我们曾经定义了一个矩阵 $X$ 作为你的训练输入，(如下图中蓝色 $X$ )像这样在不同的列中堆积在一起。这是一个 $n_x$ 行 $m$ 列的矩阵。我现在将它写为Python numpy的形式 $n_x,m)$ ，这只是表示 $X$ 是一个 $n_x$ 乘以 $m$ 的矩阵 $R^{n_x*m}$ 。

在这里插入图片描述

现在我首先想做的是告诉你该如何在一个步骤中计算 $z_1$ 、 $z_2$ 、 $z_3$ 等等。实际上，只用了一行代码。所以，我打算先构建一个 $1 * m$ 的矩阵，实际上它是一个行向量，同时我准备计算 $z^{(1)},z^{(2)},\cdots$ 一直到 $z^{(m)}$ ，所有值都是在同一时间内完成。结果发现它可以表达为 $w$ 的转置乘以大写矩阵然后加上向量 $[bb\cdots b]$ ， $([z^{(1)}z^{(2)}\cdots z^{(m)}]=w^T+[bb\cdots b])$ 。 $[bb\cdots b]$ 是一个 $1 * m$ 的向量或者 $1 * m$ 的矩阵或者是一个 $m$ 维的行向量。所以希望你熟悉矩阵乘法，你会发现的 $w$ 转置乘以 $x^{(1)}$ ， $x^{(2)}$ 一直到 $x^{(m)}$ 。所以 $w$ 转置可以是一个行向量。所以第一项 $w^TX$ 将计算 $w$ 的转置乘以 $x^{(1)}$ ， $w$ 转置乘以 $x^{(2)}$ 等等。然后我们加上第二项 $[bb\cdots b]$ ，你最终将 $b$ 加到了每个元素上。所以你最终得到了另一个 $1 * m$ 的向量， $[z^{(1)}z^{(2)}\cdots z^{(m)}]=w^TX+[bb\cdots b]=[w^Tx^{(1)}+b,w^Tx^{(2)}+b,\cdots, w^Tx^{(m)}+b]$ 。

$w^Tx^{(1)}+b$ 这是第一个元素， $w^Tx^{(2)}+b$ 这是第二个元素， $w^Tx^{(m)}+b$ 这是第 $m$ 个元素。

如果你参照上面的定义，第一个元素恰好是 $z^{(1)}$ 的定义，第二个元素恰好是 $z^{(2)}$ 的定义，等等。所以，因为 $X$ 是一次获得的，当你得到你的训练样本，一个一个横向堆积起来，这里我将 $[z^{(1)},z^{(2)},\cdots,z^{(m)}]$ 定义为大写的 $Z$ ，你用小写 $z$ 表示并将它们横向排在一起。所以当你将不同训练样本对应的小写 $x$ 横向堆积在一起时得到大写变量 $X$ 并且将小写变量也用相同方法处理，将它们横向堆积起来，你就得到大写变量 $Z$ 。结果发现，为了计算 $W^TX+[bb\cdots b]$ ，numpy命令是Z=np.dot(w.T,x)+b。这里在Python中有一个巧妙的地方，这里 $b$ 是一个实数，或者你可以说是一个 $1 * 1$ 矩阵，只是一个普通的实数。但是当你将这个向量加上这个实数时，Python自动把这个实数 $b$ 扩展成一个 $1 * m$ 的行向量。所以这种情况下的操作似乎有点不可思议，它在Python中被称作广播(brosdcasting)，目前你不用对此感到顾虑，我们将在下一个视频中进行进一步的讲解。话说回来它只用一行代码，用这一行代码，你可以计算大写的 $Z$ ，而大写 $Z$ 是一个包含所有小写 $z^{(1)}$ 到 $z^{(m)}$ 的 $1 * m$ 的矩阵。这就是 $Z$ 的内容，关于变量 $a$ 又是如何呢？

我们接下来要做的就是找到一个同时计算 $[a^{(1)},a^{(2)},\cdots,a^{(m)}]$ 的方法。就像把小写 $x$ 堆积起来得到大写 $X$ 和横向堆积小写 $z$ 得到大写 $Z$ 一样，堆积小写变量 $a$ 将形成一个新的变量，我们将它定义为大写 $A$ 。在编程作业中，你将看到怎样用一个向量在sigmoid函数中进行计算。所以sigmoid函数中输入大写 $Z$ 作为变量并且非常高效地输出大写 $A$ 。你将在编程作业中看到它的细节。