机器学习课后题
第一讲测验
1下面哪种方法属于机器学习?( )(多选3 分).
A.在猫狗分类问题中,先将猫与狗的特点总结出来,再告诉机器,如果符合猫的特点,则判定为猫,如果符合狗的特点,则判定为狗。(错误答案)
B.将大量名画的真品与赝品输入计算机,让计算机自己从数据中学习出一个模型用来判断是真品还是赝品。(正确答案)
C.让计算机通过对以往的房价数据进行分析,预测未来房价走势。(正确答案)
D.通过人为编写好代码,符合条件则判定为人脸,否则不是人脸,从而制作出人脸识别系统。(错误答案)
2现在手头上有大量的猫与狗的图片,需训练出一个模型,能够区别出这张图片是猫还是狗,这是一个什么问题?(单选2 分).
A.回归(错误答案)
B.分类(正确答案)
C.聚类(错误答案)
D.以上都不是(错误答案)
3现在手头上有大量的动物的图片,为了方便处理,我们想让同一种动物的图片放到同一个文件夹,这是一个什么问题?(多选3 分).
A.聚类(正确答案)
B.回归(错误答案)
C.分类(错误答案)
D.无监督学习(正确答案)
4在无人驾驶时,希望程序能够根据路况决策汽车的方向盘的旋转角度,那么该任务是?
(单选2 分).
A.分类(错误答案)
B.回归(正确答案)
C.聚类(错误答案)
D.降维(错误答案)
5举个例子,假设西瓜的好坏由“色泽”,“根蒂”以及“敲声”决定,且"色泽"、"根蒂"和"敲声"分别有3、2、2 种可能取值,那么假设空间的规模大小为( )。(填空2 分)
数值精确:37
第二讲测验
1识别任务中,召回率是被预测为“正面”的测试数据中结果是正确的比例。(判断2 分)
A.正确(错误答案)
B.错误(正确答案)
解析: 识别任务中,精确度是被预测为“正面”的测试数据中结果是正确的比例,召回率是标签为“正面”的测试数据中预测正确的比例。
2不平衡问题的领域有?(多选3 分).
A.医学诊断(正确答案)
B.预测罕见事件(正确答案)
C.检测欺诈(正确答案)
D.预测故障/失效(正确答案)
3下面正确的是( )(单选2 分)
A.将手头上所有的数据拿来训练模型,预测结果正确率最高的模型就是我们所要选的模型。
(错误答案)
B.将所有数据中的前百分之70拿来训练模型,剩下的百分之30作为测试集,预测结果正确率最高的模型就是我们所要选的模型。(错误答案)
C.将所有数据先随机打乱顺序,一半用来训练模型,一半作为测试集,预测结果正确率最高的模型就是我们所要选的模型。(错误答案)
D.将所有数据先随机打乱顺序,百分之80用来训练模型,剩下的百分之20作为测试集,预测结果正确率最高的模型就是我们所要选的模型。(正确答案)
4如果一个模型在训练集上正确率为99%,测试集上正确率为60%。我们应该怎么做( )。(多选3 分)
A.加入正则化项(正确答案)
B.增加训练样本数量(正确答案)
C.增加模型复杂度(错误答案)
D.减少模型复杂度(正确答案)
5如果一个模型,它在训练集上正确率为85%,测试集上正确率为80%,则模型是过拟合还是欠拟合( ),其中,来自于偏差的误差为( ),来自方差的误差为( )。
(单选2 分)
A.欠拟合,5%,5%(错误答案)
B.欠拟合,15%,5%(正确答案)
C.过拟合,15%,15%(错误答案)
D.过拟合,5%,5%(错误答案)
6假设,我们现在利用5折交叉验证的方法来确定模型的超参数,一共有4组超参数,我们可以知道,5折交叉验证,每一组超参数将会得到5个子模型的性能评分,假设评分如下,我们应该选择哪组超参数( )。(单选2 分)
A.子模型1:0.8 子模型2:0.7 子模型3:0.8 子模型4:0.6 子模型5:0.5(错误答案)
B.子模型1:0.9 子模型2:0.7 子模型3:0.8 子模型4:0.6 子模型5:0.5(错误答案)
C.子模型1:0.5 子模型2:0.6 子模型3:0.7 子模型4:0.6 子模型5:0.5(错误答案)
D.子模型1:0.8 子模型2:0.8 子模型3:0.8 子模型4:0.8 子模型5:0.6(正确答案)
第三讲测验
1下列两个变量之间的关系,哪个是函数关系(单选2 分).
A.学生的性别与数学成绩(错误答案)
B.人的工作环境与健康状况(错误答案)
C.正方形的边长与面积(正确答案)
D.儿子的身高与父亲的身高(错误答案)
2下面属于多元线性回归的是( )。(多选3 分)
A.求得正方形面积与对角线之间的关系。(错误答案)
B.建立股票价格与成交量、换手率等因素之间的线性关系。(正确答案)
C.建立西瓜价格与西瓜大小、西瓜产地、甜度等因素之间的线性关系。(正确答案)
D.建立西瓜书销量与时间之间的线性关系。(错误答案)
第四讲测验
1支持向量分类器的判断规则只由训练观测的一部分(支持向量)确定。(判断2 分)
A.正确(正确答案)
B.错误(错误答案)
2支持向量机通过使用核函数来扩大特征空间。(判断2 分)
A.正确(正确答案)
B.错误(错误答案)
3支持向量机可看作是一类简单、直观的最大间隔分类器的推广。(判断2 分)
A.正确(正确答案)
B.错误(错误答案)
4怎样理解非完美分类的超平面分类器?(单选2 分)
A.允许小部分训练观测被误分。(正确答案)
B.允许大部分训练观测被误分。(错误答案)
C.两种说法都对。(错误答案)
D.两种说法都不对。(错误答案)
5 SVM算法的性能取决于?(单选2 分)
A.核函数的选择(错误答案)
B.核函数的参数(错误答案)
C.软间隔参数C(错误答案)
D.以上都是(正确答案)
6 SVM算法的最小时间复杂度是O(n*n)。基于这一点,以下哪种规格的数据集并不适用于该算法?(单选2 分)
A.大数据集(正确答案)
B.小数据集(错误答案)
C.中数据集(错误答案)
D.不受数据集大小的影响(错误答案)
7支持向量是最靠近决策表面的数据点。(判断2 分)
A.正确(正确答案)
B.错误(错误答案)
8常用的核函数有?(多选3 分)
A.线性核(正确答案)
B.径向核(正确答案)
C.拉普拉斯核(正确答案)
D.Sigmoid核(正确答案)
9下面哪些是SVM在实际生活中的应用?(多选3 分)
A.文本分类(正确答案)
B.图片分类(正确答案)
C.新闻聚类(正确答案)
D.手写字体识别(正确答案)
10假定现在有一个四分类问题,你要用One-vs-all策略训练一个SVM的模型,你需要训练几个SVM模型?(单选2 分)
A.1(错误答案)
B.2(错误答案)
C.3(错误答案)
D.4(正确答案)
第五讲测验
1我们要用概率模型对数据和标签进行学习,需要数据/标签对服从某种概率分布,称为 。(填空2 分)
文字模糊:数据生成分布
2树的内部结点用特征作标签,树枝用是否符合特征来标签。(判断2 分)
A.正确(正确答案)
B.错误(错误答案)
3过拟合发生在模型太过偏向训练数据时,对于决策树可以采用修剪的方法阻止过拟合。
(判断2 分)
A.正确(正确答案)
B.错误(错误答案)
4在构建决策树时,需要计算每个用来划分数据特征的得分,选择分数最高的特征,以下可以作为得分的是?(单选2 分)
A.熵(错误答案)
B.基尼系数(错误答案)
C.训练误差(错误答案)
D.以上都是(正确答案)
5对于实值特征,可以用比较测试将数据划分为两部分,或者选择范围过滤。(判断2 分)
A.正确(正确答案)
B.错误(错误答案)
6决策树的节点有两种类型:内部节点和叶节点。内部节点表示一个特征或属性,叶节点表示一个类。(判断2 分)
A.正确(正确答案)
B.错误(错误答案)
7在决策树学习中将已生成的树进行简化的过程称为 。(填空2 分)
文字精确:剪枝 或 修剪
8在决策树学习过程中,哪些情况可能会导致问题数据(特征相同但是标签不同)?
(单选2 分)
A.数据错误(错误答案)
B.数据有噪音(错误答案)
C.现有的特征不足以区分或决策(错误答案)
D.以上都是(正确答案)
9过拟合发生在模型太过偏向训练数据时。(判断2 分)
A.正确(正确答案)
B.错误(错误答案)
10决策树的修剪可以采用正则化的方法。(判断2 分)
A.正确(正确答案)
B.错误(错误答案)
11在构建决策树时,以下属于处理有多个值的特征的方法的是(单选2 分)
A.处理成多个二值划分(错误答案)
B.处理成多个划分(错误答案)
C.以上都是(正确答案)
D.以上都不是(错误答案)
12在构建决策树时,以下属于处理实值特征的方法的是(多选3 分)
A.用比较测试将数据划分为两个部分(正确答案)
B.处理成多个二值划分(错误答案)
C.选择范围过滤(正确答案)
D.以上都不是(错误答案)
13在下列哪些情况下可以为标签创建叶节点。(多选3 分)
A.达到一个足够小的训练误差(正确答案)
B.剩下一定数量/比例的数据(正确答案)
C.所有数据属于同一个类(正确答案)
D.所有数据具有相同的特征值(正确答案)
第六讲测试
1通过梯度下降的原理,求损失函数的极小值来对模型进行优化是在训练集上进行的。
(判断2 分)
A.正确(正确答案)
B.错误(错误答案)
2增加训练数据会导致以下哪些结果?(多选3 分)
A.减小方差(正确答案)
B.增大方差(错误答案)
C.向右移动最优复杂度(正确答案)
D.向左移动最优复杂度(错误答案)
3与采用权重的和作为正则化项相比,采用权重的平方和作为正则化项会给予权重的较大值更多的惩罚。(判断2 分)
A.正确(正确答案)
B.错误(错误答案)
4基于模型的机器学习包括以下步骤:1、选择一个优化标准(即目标函数),2、建立一个学习算法,3、选择一个模型。则正确步骤为(单选2 分)
A.213(错误答案)
B.312(正确答案)
C.321(错误答案)
D.123(错误答案)
5通过梯度下降法最小化训练集的损失函数得到的参数一般不会使测试集也最小。(判断2 分)
A.正确(正确答案)
B.错误(错误答案)
6随着分类器复杂度逐渐增加,测试集上的误差/损失会呈现先下降后上升的趋势。
(判断2 分)
A.正确(正确答案)
B.错误(错误答案)
7
随着模型复杂度逐渐增加,训练集的偏差平方和方差分别会如何变化?(单选2 分)
A.增加,减少(错误答案)
B.减少,增加(正确答案)
C.增加,增加(错误答案)
D.减少,减少(错误答案)
8
正则化项时损失函数的附加标准,以确保不会过拟合。(判断2 分)
A.正确(正确答案)
B.错误(错误答案)
9引入正则化项可以惩罚较大的权重。(判断2 分)
A.正确(正确答案)
B.错误(错误答案)
10 L1正则化往往会导致稀疏解决方案(大量零权重)。(判断2 分)
A.正确(正确答案)
B.错误(错误答案)
第七讲测试
1非线性机器学习算法具有以下的什么特性?(单选2 分)
A.针对难以用准则来描述的复杂模型(错误答案)
B.能够达到更深层次的抽象(错误答案)
C.能够进行广泛使用的分类算法(错误答案)
D.以上都是(正确答案)
2单层感知器能对线形可分的数据集进行分类,能解决逻辑问题异或。(判断2 分)
A.正确(错误答案)
B.错误(正确答案)
3前馈神经网络中偏置单元可以有输入。(判断2 分)
A.正确(错误答案)
B.错误(正确答案)
4使用均方误差作为代价函数,有什么特点?(多选3 分)
A.形式简单(正确答案)
B.通俗易懂(正确答案)
C.容易出现饱和现象(正确答案)
D.容易陷入局部最优解(正确答案)
5在某种意思上,小批量梯度下降算法是以迭代次数换取算法的运行速度。(判断2 分)
A.正确(正确答案)
B.错误(错误答案)
6神经网络中的神经元有两个状态:兴奋、抑制。这两个状态由阈值决定。(判断2 分)
A.正确(正确答案)
B.错误(错误答案)
7感知器可以解决一下哪些问题?(多选3 分)
A.实现逻辑关系中的与(正确答案)
B.实现逻辑关系中的或(正确答案)
C.实现逻辑关系中的非(正确答案)
D.线性分类和线性回归问题(正确答案)
8神经网络具有下面哪几个特点?(多选3 分)
A.能充分逼近复杂的非线性关系(正确答案)
B.具有高度的容错能力(正确答案)
C.具有自组织能力(正确答案)
D.可以并行分布处理(正确答案)
9前馈式神经网络层间有反馈。(判断2 分)
A.正确(错误答案)
B.错误(正确答案)
10在 模型中,每个神经元同时将自身的输出作为输入信号反馈给其他神经元(填空2 分)
文字模糊:反馈神经网络
11神经网络的学习步骤包括:1、求得权重等参数,2、定义代价函数,3、对测试数据进行预测,4、根据样本数据和标签采用梯度下降法进行学习,步骤的正确顺序为:(单选2 分)
A.4213(错误答案)
B.2413(正确答案)
C.2143(错误答案)
D.4123(错误答案)
12以下会造成梯度消失的激活函数有(多选3 分).
A.sigmoid函数(正确答案)
B.tanh函数(正确答案)
C.ReLU函数(错误答案)
D.softplus函数(错误答案)
13小批量梯度下降法在迭代的每一步中,参数的更新只用了小批量样本的信息(判断2 分).
A.正确(正确答案)
B.错误(错误答案)
14小批量梯度下降法和随机梯度下降算法收敛可能需要更多的迭代次数(判断2 分)
A.正确(正确答案)
B.错误(错误答案)