欢迎光临散文网 会员登陆 & 注册

西瓜书第一、二章学习总结

2023-07-22 02:26 作者:Julyan扬  | 我要投稿

 第一章

机器学习:

基于经验做出的预判

关于在计算机上从数据中产生“模型”(model)的算法,即“学习算法”(learning algorithm)


基本术语

数据集(data set):D={x1,x2,...,xm}表示包含m个示例(instance/sample)的数据集;

属性(attribute)/特征(feature):xi=(xi1;xi2;...;xid),第i个样例包含d个属性,即样本xi的“维数”(dimensionality)为d,其中一个xid的取值大小为“属性值”(attribute value);

学习(learning)/训练(training):训练过程中使用的数据为“训练数据”(training data),其中每个样本称为一个“训练样本”(training set)。学得模型对应的关于数据的某种潜在规律为“假设”(hypothesis),这种潜在规律自身,则称为“真相”或“真实”(ground-truth),本书有时讲模型称为“学习器”(learner);

预测(prediction):使用训练好的模型对新的数据进行预测或分类;

分类(classification):任务所预测的结果是离散值,例如“好瓜”“坏瓜”;

回归(regression):任务所预测的结果是连续值,例如西瓜的成熟度为0.95、0.37;

二分类(binary classification)任务:其中一个类为“正类”(positive class),另一个类为“反类”(negative classification);

多分类(multi-class classification)任务:涉及多个类别分类的任务;

测试(testing):学得模型后进行预测的过程。被预测的样本称为“测试样本”(testing sample);

聚类(clustering):即将训练集中的西瓜分为若干组,每组称为一个“蔟”(cluster),例如“浅色瓜”,“深色瓜”,甚至“本地瓜”和“外地瓜”;

监督学习(supervised learning)和无监督学习(unsupervised learning):分类和回归是前者的代表,而聚类则是后者的代表;

泛化(generalization)能力:不仅能适用于训练样本的预测,还满足“新样本”的预测;

分布(distribution):在机器学习中,分布通常指代数据的概率分布或概率密度函数(PDF)。概率分布描述了数据集中每个可能的取值及其出现的概率,是机器学习算法中重要的统计工具和模型。在机器学习中,我们常常假设数据服从某种分布,并根据这个分布进行预测和决策。常见的分布包括高斯分布、泊松分布、伯努利分布等。我们获得的每个样本都是独立地从这个分布上采样获得的,即“独立同分布”(independent and identically distributed,简称i.i.d.)


第二章

经验误差与过拟合:

错误率(error rate):错误率E=a/m(错误预测/样本总数)

误差(error):

  1. 训练误差(training error)/经验误差(empirical error)

  2. 泛化误差(generalization error)

过拟合(overfitting):学习器在表现中的训练误差较小,而在新样本表现中泛化误差较大的现象,与之相对的是“欠拟合”(underfitting)。

评估方法(对泛化误差进行评估):

测试集(testing set):用以测试学习器对新样本的判别能力,然后以测试集上的“测试误差”(testing error)作为泛化误差的近似。测试集的选取应尽可能与训练集互斥(不重复)。

  1. 留出法(hold-out):a.保持数据分布一致性(例如:分层采样);b.多次重复划分(例如:100次随机划分);c.测试集不能太大、不能太小(例如1/5-1/3)

  2. 交叉验证法(cross validation)

  3. 自助法(boostrapping):亦称有放回采样或可重复采样,优点是训练集与原本集同规模,缺点是数据分布有所改变。

调参(parameter tuning):

算法的参数——一般由人工设定,亦称“超参数”;

模型的参数——一般由学习确定

调参过程相似——先产生若干模型,然后基于某种评估方法进行选择

性能度量:

性能度量(performance measure):是衡量模型泛化能力的评估标准,反映了任务需求,使用不同的性能度量往往会导致不同的评估结果

回归(regression)任务常用均分误差:


分类(classification)任务常用错误率:


真正例率 TPR 和假正例率 FPR,还有真反例率 TNR 和假反例率 FNR:

查准率:


查全率:


上面查准率和查全率的比对比较复杂,更方便的观察是F1度量:


若对查准率/查全率有不同偏好:


β>1时查全率有更大影响;β<1时查准率有更大影响







西瓜书第一、二章学习总结的评论 (共 条)

分享到微博请遵守国家法律