欢迎光临散文网会员登陆 & 注册

[双语字幕]吴恩达深度学习deeplearning.ai

2023-02-08 10:20 作者:glingfy-99 0人读过 | 我要投稿

loss function：在单个训练样本中定义的，衡量单个样本中的表现

cost function：衡量在全体样本中的表现

tanh(z)的值域为(-1,1)，其表现常优于σ(z)。当输出结果为0或1时（二元分类），应选用σ(z)作为输出层的激活函数，其他单元使用ReLU（修正线性单元，常为默认激活函数）。leaky ReLU函数是ReLU的变化，在z为负数的部分导数不再为零。

恒等激活函数（不使用激活函数）就是把输入结果进行组合输出，使得隐藏层失效。线性激活函数的组合仍为线性函数，只用于输出层，隐藏层不适用线性激活函数。

3.9 神经网络的梯度下降法 P33 - 06:15

反向传播时需要保持各层的维度一致

当所有参数初始化都为零时，两个隐藏单元一开始进行的计算相同，对输出单元的影响也相同，即两个隐藏单元相对称。权重矩阵通常初始化为较小的随机数（如0.01），当权重矩阵的初始值较大时，节点的计算结果极有可能落在激活函数接近包和的部分，使得梯度下降变得较为缓慢。

4.4 核对矩阵的维数 P39 - 03:05

权重矩阵W的维度（当前层的维数，前一层的维数）

dW和W的维数相同，db和b的维数相同

实现过程中，将正向传播的参数w，b和结果z进行缓存。

# ---P43----

CNN (P108)

图像原始大小n*n，卷积核（过滤器）为f*f（f常为奇数，如3、5、7等，从而实现对称填充且有中心点），计算后图像大小为（n-f+1)*(n-f+1）。缺点：图像缩小，图像边缘信息丢失

padding：填充图像边缘。常见的两种卷积方法：valid：no padding；same：输入和输出大小一致，即计算后图像大小保持不变，补充的像素为p，计算后图像大小为（n+2p-f+1)*(n+2p-f+1)，因此p=（f-1)/2。

当卷积的步幅S不为1时，输出图像大小为 ((n+2p-f)/s+1)*((n+2p-f)/s+1)，当结果不为整数时，向下取整。

1.9 池化层 P116 - 03:52

池化：常见的有最大池化和平均池化。池化层为静态属性，没有需要学习的参数和权重，只有超参数。

卷积层优势：参数共享和稀疏连接（sparsity of connections）

2.2 经典网络 P120 - 09:12

2.2 经典网络 P120 - 12:40

VGG：简化了网络，网络结构一致，但需要大量调参

残差神经网络：使用skip connection，在训练深度网络时有作用。假设后面增加的层是恒等映射，需要解决的是学习恒等映射函数，残差结构对输出变化更敏感，对权重的调整作用更大。残差的思想是去掉相同的主体部分，从而突出微小的变化。

1*1卷积核可以为神经网络添加一个非线性函数，从而减少或保持输入层中的信道数量不变。

使用1*1卷积核构建“瓶颈层”，压缩信道数，从而减少计算量。inception结构，如GoogLeNet

数据增强方式：图像镜像（mirroring）、随机裁剪（random cropping）、rotation、shearing、 local warping、color shifting

# ---P128---

RNN (P151)

缺点：在某一时刻的预测只使用了该序列中该时刻之前输入的信息。

1.5不同类型的循环神经网络 P155 - 07:56

1.9 GRU 单元 P159 - 00:17

门（Gate）控制是否更新，GRU可以用于解决梯度消失问题

LSTM和GRU都可以长时间记忆某一值。门影响是一对一的

双向RNN（bidirectional RNN）
Deep RNN

RNN不像CNN，通常没有大量隐藏层，一般不多于3层

标签：

[双语字幕]吴恩达深度学习deeplearning.ai的评论 (共条)