西瓜书第一、二章学习总结
第一章
机器学习:
基于经验做出的预判
关于在计算机上从数据中产生“模型”(model)的算法,即“学习算法”(learning algorithm)
基本术语
数据集(data set):D={x1,x2,...,xm}表示包含m个示例(instance/sample)的数据集;
属性(attribute)/特征(feature):xi=(xi1;xi2;...;xid),第i个样例包含d个属性,即样本xi的“维数”(dimensionality)为d,其中一个xid的取值大小为“属性值”(attribute value);
学习(learning)/训练(training):训练过程中使用的数据为“训练数据”(training data),其中每个样本称为一个“训练样本”(training set)。学得模型对应的关于数据的某种潜在规律为“假设”(hypothesis),这种潜在规律自身,则称为“真相”或“真实”(ground-truth),本书有时讲模型称为“学习器”(learner);
预测(prediction):使用训练好的模型对新的数据进行预测或分类;
分类(classification):任务所预测的结果是离散值,例如“好瓜”“坏瓜”;
回归(regression):任务所预测的结果是连续值,例如西瓜的成熟度为0.95、0.37;
二分类(binary classification)任务:其中一个类为“正类”(positive class),另一个类为“反类”(negative classification);
多分类(multi-class classification)任务:涉及多个类别分类的任务;
测试(testing):学得模型后进行预测的过程。被预测的样本称为“测试样本”(testing sample);
聚类(clustering):即将训练集中的西瓜分为若干组,每组称为一个“蔟”(cluster),例如“浅色瓜”,“深色瓜”,甚至“本地瓜”和“外地瓜”;
监督学习(supervised learning)和无监督学习(unsupervised learning):分类和回归是前者的代表,而聚类则是后者的代表;
泛化(generalization)能力:不仅能适用于训练样本的预测,还满足“新样本”的预测;
分布(distribution):在机器学习中,分布通常指代数据的概率分布或概率密度函数(PDF)。概率分布描述了数据集中每个可能的取值及其出现的概率,是机器学习算法中重要的统计工具和模型。在机器学习中,我们常常假设数据服从某种分布,并根据这个分布进行预测和决策。常见的分布包括高斯分布、泊松分布、伯努利分布等。我们获得的每个样本都是独立地从这个分布上采样获得的,即“独立同分布”(independent and identically distributed,简称i.i.d.)
第二章
经验误差与过拟合:
错误率(error rate):错误率E=a/m(错误预测/样本总数)
误差(error):
训练误差(training error)/经验误差(empirical error)
泛化误差(generalization error)
过拟合(overfitting):学习器在表现中的训练误差较小,而在新样本表现中泛化误差较大的现象,与之相对的是“欠拟合”(underfitting)。
评估方法(对泛化误差进行评估):
测试集(testing set):用以测试学习器对新样本的判别能力,然后以测试集上的“测试误差”(testing error)作为泛化误差的近似。测试集的选取应尽可能与训练集互斥(不重复)。
留出法(hold-out):a.保持数据分布一致性(例如:分层采样);b.多次重复划分(例如:100次随机划分);c.测试集不能太大、不能太小(例如1/5-1/3)
交叉验证法(cross validation)
自助法(boostrapping):亦称有放回采样或可重复采样,优点是训练集与原本集同规模,缺点是数据分布有所改变。
调参(parameter tuning):
算法的参数——一般由人工设定,亦称“超参数”;
模型的参数——一般由学习确定
调参过程相似——先产生若干模型,然后基于某种评估方法进行选择
性能度量:
性能度量(performance measure):是衡量模型泛化能力的评估标准,反映了任务需求,使用不同的性能度量往往会导致不同的评估结果
回归(regression)任务常用均分误差:

分类(classification)任务常用错误率:

真正例率 TPR 和假正例率 FPR,还有真反例率 TNR 和假反例率 FNR:
查准率:

查全率:
上面查准率和查全率的比对比较复杂,更方便的观察是F1度量:

若对查准率/查全率有不同偏好:
β>1时查全率有更大影响;β<1时查准率有更大影响