西瓜书第一、二章学习总结

2023-07-22 02:26 作者:Julyan扬 0人读过 | 我要投稿

第一章

机器学习：

基于经验做出的预判

关于在计算机上从数据中产生“模型”（model）的算法，即“学习算法”（learning algorithm）

基本术语

数据集（data set）：D={x1,x2,...,xm}表示包含m个示例（instance/sample）的数据集；

属性（attribute）/特征（feature）：xi=(xi1;xi2;...;xid)，第i个样例包含d个属性，即样本xi的“维数”（dimensionality）为d，其中一个xid的取值大小为“属性值”（attribute value）；

学习（learning）/训练（training）：训练过程中使用的数据为“训练数据”（training data），其中每个样本称为一个“训练样本”（training set）。学得模型对应的关于数据的某种潜在规律为“假设”（hypothesis），这种潜在规律自身，则称为“真相”或“真实”（ground-truth），本书有时讲模型称为“学习器”（learner）；

预测（prediction）：使用训练好的模型对新的数据进行预测或分类；

分类（classification）：任务所预测的结果是离散值，例如“好瓜”“坏瓜”；

回归（regression）：任务所预测的结果是连续值，例如西瓜的成熟度为0.95、0.37；

二分类（binary classification）任务：其中一个类为“正类”（positive class），另一个类为“反类”（negative classification）；

多分类（multi-class classification）任务：涉及多个类别分类的任务；

测试（testing）：学得模型后进行预测的过程。被预测的样本称为“测试样本”（testing sample）；

聚类（clustering）：即将训练集中的西瓜分为若干组，每组称为一个“蔟”（cluster），例如“浅色瓜”，“深色瓜”，甚至“本地瓜”和“外地瓜”；

监督学习（supervised learning）和无监督学习（unsupervised learning）：分类和回归是前者的代表，而聚类则是后者的代表；

泛化（generalization）能力：不仅能适用于训练样本的预测，还满足“新样本”的预测；

分布（distribution）：在机器学习中，分布通常指代数据的概率分布或概率密度函数（PDF）。概率分布描述了数据集中每个可能的取值及其出现的概率，是机器学习算法中重要的统计工具和模型。在机器学习中，我们常常假设数据服从某种分布，并根据这个分布进行预测和决策。常见的分布包括高斯分布、泊松分布、伯努利分布等。我们获得的每个样本都是独立地从这个分布上采样获得的，即“独立同分布”（independent and identically distributed，简称i.i.d.）

第二章

经验误差与过拟合：

错误率（error rate）：错误率E=a/m（错误预测/样本总数）

误差（error）：

训练误差（training error）/经验误差（empirical error）
泛化误差（generalization error）

过拟合（overfitting）：学习器在表现中的训练误差较小，而在新样本表现中泛化误差较大的现象，与之相对的是“欠拟合”（underfitting）。

评估方法（对泛化误差进行评估）：

测试集（testing set）：用以测试学习器对新样本的判别能力，然后以测试集上的“测试误差”（testing error）作为泛化误差的近似。测试集的选取应尽可能与训练集互斥（不重复）。

留出法（hold-out）：a.保持数据分布一致性（例如：分层采样）；b.多次重复划分（例如：100次随机划分）；c.测试集不能太大、不能太小（例如1/5-1/3）
交叉验证法（cross validation）
自助法（boostrapping）:亦称有放回采样或可重复采样，优点是训练集与原本集同规模，缺点是数据分布有所改变。

调参（parameter tuning）：

算法的参数——一般由人工设定，亦称“超参数”；

模型的参数——一般由学习确定

调参过程相似——先产生若干模型，然后基于某种评估方法进行选择

性能度量：

性能度量（performance measure）：是衡量模型泛化能力的评估标准，反映了任务需求，使用不同的性能度量往往会导致不同的评估结果

回归（regression）任务常用均分误差：