[双语字幕]吴恩达深度学习deeplearning.ai



loss function:在单个训练样本中定义的,衡量单个样本中的表现
cost function:衡量在全体样本中的表现



tanh(z)的值域为(-1,1),其表现常优于σ(z)。当输出结果为0或1时(二元分类),应选用σ(z)作为输出层的激活函数,其他单元使用ReLU(修正线性单元,常为默认激活函数)。leaky ReLU函数是ReLU的变化,在z为负数的部分导数不再为零。
恒等激活函数(不使用激活函数)就是把输入结果进行组合输出,使得隐藏层失效。线性激活函数的组合仍为线性函数,只用于输出层,隐藏层不适用线性激活函数。
反向传播时需要保持各层的维度一致

当所有参数初始化都为零时,两个隐藏单元一开始进行的计算相同,对输出单元的影响也相同,即两个隐藏单元相对称。权重矩阵通常初始化为较小的随机数(如0.01),当权重矩阵的初始值较大时,节点的计算结果极有可能落在激活函数接近包和的部分,使得梯度下降变得较为缓慢。


权重矩阵W的维度(当前层的维数,前一层的维数)
dW和W的维数相同,db和b的维数相同


实现过程中,将正向传播的参数w,b和结果z进行缓存。
# ---P43----
CNN (P108)
图像原始大小n*n,卷积核(过滤器)为f*f(f常为奇数,如3、5、7等,从而实现对称填充且有中心点),计算后图像大小为(n-f+1)*(n-f+1)。缺点:图像缩小,图像边缘信息丢失
padding:填充图像边缘。常见的两种卷积方法:valid:no padding;same:输入和输出大小一致,即计算后图像大小保持不变,补充的像素为p,计算后图像大小为(n+2p-f+1)*(n+2p-f+1),因此p=(f-1)/2。
当卷积的步幅S不为1时,输出图像大小为 ((n+2p-f)/s+1)*((n+2p-f)/s+1),当结果不为整数时,向下取整。



池化:常见的有最大池化和平均池化。池化层为静态属性,没有需要学习的参数和权重,只有超参数。


卷积层优势:参数共享和稀疏连接(sparsity of connections)
VGG:简化了网络,网络结构一致,但需要大量调参


残差神经网络:使用skip connection,在训练深度网络时有作用。假设后面增加的层是恒等映射,需要解决的是学习恒等映射函数,残差结构对输出变化更敏感,对权重的调整作用更大。残差的思想是去掉相同的主体部分,从而突出微小的变化。


1*1卷积核可以为神经网络添加一个非线性函数,从而减少或保持输入层中的信道数量不变。

使用1*1卷积核构建“瓶颈层”,压缩信道数,从而减少计算量。inception结构,如GoogLeNet
数据增强方式:图像镜像(mirroring)、随机裁剪(random cropping)、rotation、shearing、 local warping、color shifting
# ---P128---
RNN (P151)

缺点:在某一时刻的预测只使用了该序列中该时刻之前输入的信息。





门(Gate)控制是否更新,GRU可以用于解决梯度消失问题



LSTM和GRU都可以长时间记忆某一值。门影响是一对一的
- 双向RNN(bidirectional RNN)
- Deep RNN

RNN不像CNN,通常没有大量隐藏层,一般不多于3层