人工智能10大算法-CNN(Convolutional Neural Networks)-笔记
CNN目的:提特征Pooling池化目的:降采样(subsample),减小参数(防止过拟合)减少输入图片大小也使得神经网络可以经受一点图片平移,不收位置的影响有大小、步长、padding类型池化神经元没有权重值,只有取最大或者求平均...
卷积(CNN)
目的:提特征
CNN架构
池化(Pooling)
Dropout
权值共享
池化目的:
- 降采样(subsample),减小参数(防止过拟合)
- 减少输入图片大小也使得神经网络可以经受一点图片平移,不受位置的影响
- 有
大小
、步长
、padding类型
- 池化神经元没有权重值,只有
取最大
或者求平均
为什么卷积层的W参数少
- 局部连接
- 权值共享
Reverse-mode Autodiff
- 因为
n7
是输出节点,所以f=n7
,所以 α f α n 7 = 1 \frac{\alpha_f}{\alpha_n7}=1 αn7αf=1 n5
节点, α f α n 5 = α f α n 7 ∗ α n 7 α n 5 = 1 ∗ α n 7 α n 5 \frac{\alpha_f}{\alpha_n5}=\frac{\alpha_f}{\alpha_n7}*\frac{\alpha_n7}{\alpha_n5}=1*\frac{\alpha_n7}{\alpha_n5} αn5αf=αn7αf∗αn5αn7=1∗αn5αn7,因为n7 = n5 + n6
,所以 α n 7 α n 5 = 1 \frac{\alpha_n7}{\alpha_n5}=1 αn5αn7=1,
所以 α f α n 5 = 1 ∗ 1 = 1 \frac{\alpha_f}{\alpha_n5}=1*1=1 αn5αf=1∗1=1n4
节点, α f α n 4 = α f α n 5 ∗ α n 5 α n 4 = 1 ∗ α n 5 α n 4 \frac{\alpha_f}{\alpha_n4}=\frac{\alpha_f}{\alpha_n5}*\frac{\alpha_n5}{\alpha_n4}=1*\frac{\alpha_n5}{\alpha_n4} αn4αf=αn5αf∗αn4αn5=1∗αn4αn5,因为n5 = n4 * n2
,所以 α f α n 4 = 1 ∗ n 2 = 4 \frac{\alpha_f}{\alpha_n4}=1*n2=4 αn4αf=1∗n2=4- α f α x = α f α n 4 ∗ α n 4 α x = 4 ∗ 2 ∗ n 1 = 24 \frac{\alpha_f}{\alpha_x}=\frac{\alpha_f}{\alpha_n4}*\frac{\alpha_n4}{\alpha_x}=4*2*n1=24 αxαf=αn4αf∗αxαn4=4∗2∗n1=24
-
α
f
α
y
=
α
f
α
n
5
∗
α
n
5
α
n
2
+
α
f
α
n
6
∗
α
n
6
α
n
2
=
1
∗
n
4
+
1
∗
1
=
9
+
1
=
10
\frac{\alpha_f}{\alpha_y}=\frac{\alpha_f}{\alpha_n5}*\frac{\alpha_n5}{\alpha_n2} + \frac{\alpha_f}{\alpha_n6}*\frac{\alpha_n6}{\alpha_n2}=1*n4 + 1*1 = 9 + 1 =10
αyαf=αn5αf∗αn2αn5+αn6αf∗αn2αn6=1∗n4+1∗1=9+1=10
反向传播(Backpropagation)
- 令
y=1.00
-
w
−
1
=
−
0.53
=
y
∗
d
1
x
=
1.00
∗
−
1
x
2
=
1.00
∗
−
1
1.3
7
2
w_{-1} =-0.53=y*d{\frac{1}{x}}=1.00*-\frac{1}{x^2}=1.00*-\frac{1}{1.37^2}
w−1=−0.53=y∗dx1=1.00∗−x21=1.00∗−1.3721,这里的
x=1.37
-
w
−
2
=
−
0.53
=
w
−
1
∗
d
x
+
1
=
−
0.53
∗
1
=
−
0.53
w_{-2} =-0.53=w_{-1}*d{x+1}=-0.53*1=-0.53
w−2=−0.53=w−1∗dx+1=−0.53∗1=−0.53,这里的
x=0.37
-
w
−
3
=
−
0.20
=
w
−
2
∗
d
e
x
=
−
0.53
∗
−
(
1
/
e
)
w_{-3}=-0.20=w_{-2}*d{e^x}=-0.53*-(1/e)
w−3=−0.20=w−2∗dex=−0.53∗−(1/e),这里的
x=-1.00
-
w
−
4
=
0.20
=
w
−
3
∗
d
x
∗
(
−
1
)
=
0.2
w_{-4}=0.20=w_{-3}*dx*(-1)=0.2
w−4=0.20=w−3∗dx∗(−1)=0.2,这里的
x=1.00
,不过不需要知道是多少,也可以求导 - w − 5 a = w − 4 ∗ d x a ( x a + x b ) = w − 4 ∗ 1 = 0.20 w_{-5a}=w_{-4}*d^{x_a}(x_a+x_b)=w_{-4}*1=0.20 w−5a=w−4∗dxa(xa+xb)=w−4∗1=0.20
- w − 5 b = w − 4 ∗ d x b ( x a + x b ) = w − 4 ∗ 1 = 0.20 w_{-5b}=w_{-4}*d^{x_b}(x_a+x_b)=w_{-4}*1=0.20 w−5b=w−4∗dxb(xa+xb)=w−4∗1=0.20
- w − 6 a 1 = w − 5 a ∗ d x a 1 ( x a 1 + x a 2 ) = w − 5 a = 0.20 w_{-6a_1}=w_{-5a}*d^{x_a1}(x_a1+x_a2)=w_{-5a}=0.20 w−6a1=w−5a∗dxa1(xa1+xa2)=w−5a=0.20
- w − 6 a 2 = w − 5 a ∗ d x a 2 ( x a 1 + x a 2 ) = w − 5 a = 0.20 w_{-6a_2}=w_{-5a}*d^{x_a2}(x_a1+x_a2)=w_{-5a}=0.20 w−6a2=w−5a∗dxa2(xa1+xa2)=w−5a=0.20
-
w
−
7
a
11
=
w
−
6
a
1
∗
d
w
0
(
w
0
∗
x
0
)
=
−
0.20
w_{-7a_{11}}=w_{-6a_1}*d^{w_0}(w0*x0)=-0.20
w−7a11=w−6a1∗dw0(w0∗x0)=−0.20,这里的
x0=-1.00
-
w
−
7
a
12
=
w
−
6
a
1
∗
d
x
0
(
w
0
∗
x
0
)
=
0.4
w_{-7a_{12}}=w_{-6a_1}*d^{x0}(w0*x0)=0.4
w−7a12=w−6a1∗dx0(w0∗x0)=0.4,这里的
w0=2.00
-
w
−
7
a
21
=
w
−
6
a
1
∗
d
w
1
(
w
1
∗
x
1
)
=
−
0.40
w_{-7a_{21}}=w_{-6a_1}*d^{w1}(w1*x1)=-0.40
w−7a21=w−6a1∗dw1(w1∗x1)=−0.40,这里的
x1=-2.00
-
w
−
7
22
=
w
−
6
a
1
∗
d
x
1
(
w
1
∗
x
1
)
=
−
0.60
w_{-7_{22}}=w_{-6a_1}*d^{x1}(w1*x1)=-0.60
w−722=w−6a1∗dx1(w1∗x1)=−0.60,这里的
w1=-3.00
VGG16
待补充
Sigmode函数
f
(
x
)
=
1
1
+
e
−
x
f_{(x)}=\frac{1}{1+e^{-x}}
f(x)=1+e−x1
图像
Tanh函数
f
(
x
)
=
e
x
−
e
−
x
e
x
+
e
−
x
f_{(x)}=\frac{e^{x}-e^{-x}}{e^{x}+e^{-x}}
f(x)=ex+e−xex−e−x
图像
Tanh函数的导数
f ( x ) / = 1 − [ f ( x ) ] 2 f^/_{(x)}=1-[f_{(x)}]^{2} f(x)/=1−[f(x)]2
Relu函数
有缺点
梯度消失
梯度爆炸(弥散)
正则化
归一化
EalyStopping
防止过拟合
Batch Normalization(批量归一化)
目的:
1.减轻梯度弥散
2. 对权重初始化不那么敏感
3. 可以使用大一点的学习率来提速
4. 是一种正则化,提高泛化能力,就没必要使用Dropout了
开放原子开发者工作坊旨在鼓励更多人参与开源活动,与志同道合的开发者们相互交流开发经验、分享开发心得、获取前沿技术趋势。工作坊有多种形式的开发者活动,如meetup、训练营等,主打技术交流,干货满满,真诚地邀请各位开发者共同参与!
更多推荐
所有评论(0)