神经网络期末复习
期末考试卷面构成
• 选择题 ( 单选 ) : 2 分 * 10 = 20 分
• 判断题: 1 分 * 5 = 5 分
• 名词解释题: 2 分 * 5 = 10 分
• 简答题: 5 分 * 7 = 35 分
• 解答题: 4 道题目,分值 5~10 分,共 30 分。
Chapter 2 机器学习概述
• 机器学习的基本概念。
机器学习:通过算法使得机器能从大量数据中学习规律从而对新的样本做决策。
• 机器学习的三个基本要素:
模型:线性的(𝑓(𝒙; 𝜃) = 𝒘T𝒙 + 𝑏)、非线性的(𝑓(𝒙; 𝜃) = 𝒘T𝜙(𝒙) + 𝑏)
学习准则:期望风险、经验风险、损失函数 ( 交叉熵损失函数 ) 0-1损失函数不连续且导数为0难以优化;平方损失函数一般不适用于分类问题;比如对于三分类问题,一个样本的标签向量为 𝒚 = [0, 0, 1]T,模型预测的 标签分布为 𝑓(𝒙; 𝜃) = [0.3, 0.3, 0.4]T,则它们的交叉熵为 −(0 × log(0.3) + 0 × log(0.3) + 1 × log(0.4)) = − log(0.4)过拟合(数据增强、dropout、增加网络深度)和欠拟合。
优化算法:参数与超参数、最优化问题。
参数与超参数 在机器学习中,优化又可以分为参数优化和超参数优化.模型 𝑓(𝒙; 𝜃)中的𝜃 称为模型的参数,可以通过优化算法进行学习.除了可学习的参数 𝜃 之外,还有一类参数是用来定义模型结构或优化策略的,这类参数叫作超参数.常见的超参数包括:聚类算法中的类别个数、梯度下降法中的步长、正则化分布的参数、项的系数、神经网络的层数、支持向量机中的核函数等.超参数的选取一般都是组合优化问题,很难通过优化算法来自动学习.因此,超参数优化是机器学习的一个经验性很强的技术,通常是按照人的经验设定,或者通过搜索的方法对一组 超参数组合进行不断试错调整.
• 偏差 - 方差分解:偏差、方差

• 机器学习算法的类型:监督学习(样本有标签)、无监督学习(样本无标签)、强化学习 (通过交互来学习)
• 评价指标:准确率、错误率、精确率、召回率、 F 值等。
精确率:类别 𝑐 的查准率是所有预测为类 别𝑐的样本中预测正确的比例𝒫𝑐 = 𝑇𝑃𝑐 /𝑇𝑃𝑐 + 𝐹𝑃𝑐 .
召回率:类别𝑐的查全率是所有真实标签为类别𝑐的样本中预测正确的比例ℛ𝑐 = 𝑇𝑃𝑐 /𝑇𝑃𝑐 + 𝐹𝑁𝑐 .
Chapter 3 线性模型 (了解)
• 二分类、多分类问题
• Logistic 回归
• Softmax 回归
• 感知器
Chapter 4 前馈神经网络
• 神经元的基本结构

• 激活函数:
Sigmoid 、 Tanh 、 ReLU 、 Swish 、 GELU 、 Maxout 单元




在训练时,如果参数在一次不恰当的更新后,第一个隐藏层中的某个 ReLU 神经元在 所有的训练数据上都不能被激活,那么这个神经元自身参数的梯度永远都会是 0,在以后的训练过程中永远不能被激活.这种现象称为死亡 ReLU 问题,并且也有可能会发生在其他隐藏层。
• 激活函数的导函数

• 激活函数的性质
连续并可导(允许少数点上不可导)的非线性函数;
激活函数及其导函数要尽可能的简单;
激活函数的导函数的值域要在一个合适的区间内;
非饱和性,饱和指的是在某些区间梯度接近于零(即梯度消失),使得参数无法继续更新的问题。
单调性;
• 激活函数的选择
• 前馈神经网络:
• 结构、工作原理 、参数学习 ( 和的更新方式 )
在前馈神经网络中,各神经元分别属于不同的层.每一层的神经元可以接收 前一层神经元的信号,并产生信号输出到下一层.第0层称为输入层,最后一层称 为输出层,其他中间层称为隐藏层.整个网络中无反馈,信号从输入层向输出层 单向传播,可用一个有向无环图表示。



• 反向传播算法 ( 给定损失函数,计算损失函数关于每个参数的导数 )
Chapter 5 卷积神经网络
• 为什么使用 CNN ?
参数量少,利用到了目标的局部特征
• CNN 结构上的特性:
局部连接:在卷积层中的每一个神经元都只和前一层中某个局部窗口内的神经元相连,构成一个局部连接网络。
权重共享:一个卷积核只捕捉输入数据中的一种特定的局部特征。
汇聚:汇聚层也叫子采样层,其作用是进行特征选择,降低特征数量,从而减少参数数量。
• 卷积运算 ( 二维卷积、三维卷积 ) : Stride 、 Padding 、 参数数量计算、特征图维度计算
• 卷积的变种:
反卷积:我们将低维特征映 射到高维特征的卷积操作称为转置卷积,也称为反卷积
空洞卷积 :是一种不增加参数数量,同时增加输出 单元感受野的一种方法,也称为膨胀卷积。
• 池化运算 ( 最大池化、平均池化 ) : 参数数量计算、特征图维度计算
• 典型的 CNN : AlexNet ( 参数计算 ) 、 GoogleNet (Inception 模块 ) 、 ResNet ( 残差单元结构 )
Inception模块同时使用1 × 1、3 × 3、5 × 5等不同大小的卷积核,并将得到 的启发. 的特征映射在深度上拼接(堆叠)起来作为输出特征映射


Chapter 6 循环神经网络
• 为什么使用 RNN ?
能够处理长短不一的变量、提取时序的特征
• RNN 的基本结构:输入、输出、延时器及其状态更新

• 参数学习:随时间反向传播算法 (BPTT) 。
与反向传播相比多了时间这一个特性
• 长程依赖问题产生的原因及改进方案:
梯度爆炸:对激活函数求导结果大于1,随着层数的不断增加,梯度更新以指数形式增加,产生梯度爆炸。(梯度截断、权重正则化)
梯度消失:对激活函数求导结果小于1,随着层数的不断增加,梯度更新以指数形式衰减,产导致梯度消失。(使用更好的激活函数、采用跨时域的残差连接、采用LSTM门控机制作为RNN基本单元控制信息流入量)。
• LSTM :门控机制 ( 输入门、遗忘门、输出门 )
Chapter 7 网络优化与正则化
• “ 矛与盾”的关系:网络优化使模型达到收敛,正则化干扰模型收敛,整体目标是得到一个更加稳健的模型
• 平坦最小值、尖锐最小值
深度神经网络的参数非常多,并且有一定的冗余性,这使得每单个 参数对最终损失的影响都比较小,因此会导致损失函数在局部最小解附近通常 是一个平坦的区域,称为平坦最小值。

在一个平坦最小值的邻域内,所有点对应的训练损失都比较接近,表明我们在训练神经网络时,不需要精确地找到一个局部最小解,只要在一个局部最小解 的邻域内就足够了。平坦最小值通常被认为和模型泛化能力有一定的关系.一般而言,当一个模型收敛到一个平坦的局部最小值时,其鲁棒性会更好,即微小的参数变动不会剧烈影响模型能力;而当一个模型收敛到一个尖锐的局部最小值 时,其鲁棒性也会比较差.具备良好泛化能力的模型通常应该是鲁棒的,因此理想的局部最小值应该是平坦的。
• 梯度下降算法: BGD(批量梯度下降), MBGD(小批量梯度下降), SGD (随机梯度下降)。
👉参考博文https://www.cnblogs.com/lliuye/p/9451903.html

• 学习率调整:衰减、预热、周期性调整、 RMSprop 等。
1. 从经验上看,学习率在一开始要保持大些来保证收敛速度,在收敛到最优点附近时要小些以避免来回振荡.比较简单的学习率调整可以通过学习率衰减的方式来实现。
2. 在小批量梯度下降法中,当批量大小的设置比较大时,通常需要比较大的学习率。但在刚开始训练时,由于参数是随机初始化的,梯度往往也比较大,再加上比较大的初始学习率,会使得训练不稳定。为了提高训练稳定性,我们可以在最初几轮迭代时,采用比较小的学习 率,等梯度下降到一定程度后再恢复到初始的学习率,这种方法称为学习率预热。
3. 为了使得梯度下降法能够逃离鞍点或尖锐最小值,一种经验性的方式是在 训练过程中周期性地增大学习率。当参数处于尖锐最小值附近时,增大学习率有助于逃离尖锐最小值;当参数处于平坦最小值附近时,增大学习率依然有可能在 该平坦最小值的吸引域内。因此,周期性地增大学习率虽然可能短期内损害优化过程,使得网络收敛的稳定性变差,但从长期来看有助于 找到更好的局部最优解。
4. RMSprop算法是一种自适应学习率的方法,可以在有些情况下避免 AdaGrad 算法中学习率不断单调下降以至于过早衰减的缺点。RMSProp 算法和AdaGrad 算法的区别在于 𝐺𝑡 的计算由 累积方式变成了指数衰减移动平均。在迭代过程中,每个参数的学习率并不是呈衰减趋势,既可以变小也可以变大。
• 梯度估计修正:动量法、梯度截断。
• 综合方法: Adam 优化器
• 超参数优化:难点与方法。
超参数优化主要存在两方面的困难:
1) 超参数优化是一个组合优化问题,无法像一般参数那样通过梯度下降方法来优 化,也没有一种通用有效的优化方法;
2) 评估一组超参数配置的时间代价非常高,从而导致一些优化方法在超参数优化中难以应用。
对于超参数的配置,比较简单的方法有网格搜索、随机搜索、贝叶斯优化、动 态资源分配和神经架构搜索
• 数据预处理:数据集划分、批量归一化、层归一化等。
数据集划分:将原始数据集划分为训练集、验证集、测试集,或者划分为训练集和验证集。
训练集:训练模型;验证集:选择模型;测试集:评估模型
我们首先将数据集划分为训练集和验证集,由于模型的构建过程中也需要检验模型的配置以及训练程度是过拟合还是欠拟合,所以会将训练数据再划分为两个部分,一部分是用于训练的训练集,另一部分是进行检验的验证集。
训练集用于训练得到神经网络模型,然后用验证集验证模型的有效性,挑选获得最佳效果的模型。最后,当模型“通过”验证集之后,我们再使用测试集测试模型的最终效果,评估模型的准确率,以及误差等。
注意:我们不能用测试集数据进行训练,之所以不用测试集,是因为随着训练的进行,网络会慢慢过拟合测试集,导致最后的测试集没有参考意义。
图7.9给出了数据归一化对梯度的影响。其中, 图7.9a为未归一化数据的等高线图,尺度不同会造成在大多数位置上的梯度方向并不是最优的搜索方向。当使用梯度下降法寻求最优解时,会导致需要很多次迭代才能收敛.如果我们把数据归一化为相同尺度,如图7.9b所示,大部分位置的梯度方向近似于最优搜索方向。这样,在梯度下降求解时,每一步梯度的方向都基本指向最小值,训练效率会大大提高。



• 网络正则化: L1 和 L2 正则化、提前停止、 Dropout 、数据增强等
L1 和 L2 正则化:通过约束参数的ℓ1 和ℓ2 范数来减小模型在训练数据集上的过拟合现象
提前停止:当验证集上的错误率不再下降,就停止迭代。
Dropout:以随机丢弃一部分神经元来避免过拟合。
数据增强:通过算法对图像进行转变,引入噪声等方法来增加 数据的多样性。增强的方法主要有旋转、翻转、缩放、平移、加噪声、色彩的调整(锐化、灰度化)。
选择题参考
1. (单选) 以下哪张图正确表示了人工智能、机器学习和深度学习之间的关系?B

2. (单选) 神经网络由许多神经元(Neuron)组成,下列关于神经元的陈述中哪一个是正确的?D
A. 一个神经元仅有一个输入,且仅有一个输出。
B. 一个神经元可以有多个输入,但只有一个输出。
C. 一个神经元仅有一个输入,但可以有多个输出。
D. 一个神经元可以有多个输入和多个输出。
3. (单选) 以下哪张图可以表示过拟合现象?C

4. (单选) 梯度下降算法的正确步骤是什么?D
(1) 计算预测值和真实值之间的误差
(2) 迭代更新,直到找到最佳权重
(3) 将输入值传入网络,得到输出值
(4) 初始化随机权重和偏差
(5) 对每一个产生误差的神经元,改变相应的(权重)值以减小误差
A. 4, 5, 3, 1, 2 B. 4, 5, 3, 2, 1 C. 4, 3, 1, 2, 5 D. 4, 3, 1, 5, 2
5. (多选) 下列属于激活函数性质的是?BDE
A. 连续并可导的线性函数.(非线性)
B. 激活函数及其导函数要尽可能的简单.
C. 在某些区间,梯度需接近于0.
D. 单调性.
E. 激活函数的值域要在一个合适的区间内.
6. (多选) 以下关于静态图和动态图描述正确的是?A,C,D
A. 静态图在构建时可以进行优化,而动态图不容易优化.
B. 静态图难以进行并行计算,而动态图的并行能力较强.
C. 静态图的并行能力较强,而动态图难以进行并行计算.
D. 静态图的灵活性较差,而动态图的灵活性较好.
7. (单选) 当我们在训练一个神经网络时,如果使用较大的学习率,会出现以下哪种情况?C
A. 网络将快速收敛.
B. 网络将缓慢收敛.
C. 网络将无法收敛.
D. 以上3种情况都有可能发生.
8. (单选) 以下关于卷积神经网络,说法正确的是?C
A. 卷积神经网络只能有一个卷积核.
B. 卷积神经网络可以有多个卷积核,但是这些卷积核的尺寸必须相同.
C. 卷积神经网络可以有多个卷积核,这些卷积核的尺寸不必相同.
D. 卷积神经网络可以有多个卷积核,但是这些卷积核的尺寸只能是奇数.
9. (单选) 现有一个输入,大小为7*7,依次经过一层卷积(kernel size 3*3, padding 0, stride 1), 池化(kernel size 3*3, padding 0, stride 2),又经过一层卷积(kernel size 3*3, padding 1, stride 1),池化(kernel size 2*2, padding 0, stride 1)之后,得到的特征图的大小为? A
A. 1*1 B. 2*2 C. 3*3 D. 4*4
10. (单选) 现有一个输入矩阵,维度是96*96*3,第一个隐藏层使用了16个卷积核进行卷积操作,每个卷积核的大小为5*5,那么第一个隐藏层的参数个数为?D
A. 442368 B. 442384 C. 1200 D. 1216