机器学习(西瓜书笔记)第一章

一、绪论
1.1引言
1.1.1定义
机器学习是致力于通过计算的手段,利用数据来改善系统自身的性能的学科。
1.1.2研究内容
从数据中产生“模型”的算法(即学习算法)
1.1.3如何运用
有了学习算法,将经验数据传给学习算法后,产生相应模型;在面对新情况时,模型将会给出相应的判断。
1.2基本术语
数据集:一组记录的集合
示例/样本:每条记录
属性:反映事件或对象在某方面的表现或性质的事项。例如每条记录中的“色泽”、“根蒂”、“敲声”就是西瓜的属性
属性空间:属性张成的空间。例如我们把"色泽" "根蒂" "敲声"作为三个坐标轴,则它们张成一个用于描述西瓜的三维空间就是属性空间
特征向量:每个西瓜都可在这个空间中找到自己的坐标位置。由于空间中的每个点对应一个坐标向量,因此我们也把这个坐标向量称为一个特征向量。
将每个属性作为一个坐标轴,多个属性就多个坐标轴,从而形成一个描述物体的属性空间。此空间中的每个样本对应一个点,每个点都有一个坐标向量,把这个坐标向量称为特征向量。
学习/训练:从数据中学得模型的过程
训练数据:训练过程中使用的数据
训练样本:训练过程中使用的每一个样本
训练集:训练样本组成的集合
假设:学得模型对应了关于数据的某种潜在规律
真相/真实:这种潜在规律自身
如果希望学得一个能帮助我们判断没剖开的是不是"好瓜"的模型,仅有前面的示例数据显然是不够的要建立这样的关于"预测" 的模型,我们还需获得训练样本的"结果"信息,例如"((色泽=青绿;根蒂=蜷缩;敲声=浊响),好瓜)" 。
标记:关于示例结果的信息,比如上面例子中的 "好瓜" 就属于标记。
样例:拥有了标记信息的示例,则称为样例。一般地,用 (xi,yi) 表示第 i 个样例,其中 xi 是特征向量,yi 是这个样本的标记。
标记空间/输出空间:一般的用(xi,yi)表示第i个样例,其中yi∈Y是示例xi的标记,Y是所有标记的集合
根据预测结果的类型,可以将机器学习任务分为二类。
分类:预测结果的类型是离散值,例如"好瓜","坏瓜";
回归:预测结果的类型是连续值,例如西瓜的成熟度0.37、0.95。
学得模型后,使用其进行预测的过程称为测试
测试样本:被预测的样本被称为测试样本
我们还可以对西瓜做聚类
在聚类学习中,“浅色瓜”,“外地瓜”这样的概念我们事先是不知道的,而且学习过程中使用的训练样本通常不拥有标记信息
根据训练数据是否拥有标记信息,学习任务也可大致划分为两大类。
监督学习:训练数据有标记信息,其中分类与回归属于监督学习
无监督学习:训练数据没有标记信息,代表有聚类
机器学习的目标:使得学到的模型能够很好的适用"新样本"
泛化:学得模型适用于新样本的能力
1.3假设空间
1.3.1归纳与假设
归纳:从特殊到一般的“泛化”过程,即从具体的事实归结出一般性规律
假设:从一般到特殊的“特化”过程,即从基础原理推演出具体情况
1.3.2假设空间定义
所有假设构成的集合
1.3.3版本空间
只保留了假设空间中与训练数据集中正例一致的假设,由这些正确的假设构成的集合成为版本空间(简单来说,版本空间就是正例的泛化)。
假设空间大小计算、构建假设空间以及版本空间
举个例子,假设西瓜的好坏由“色泽”,“根蒂”以及“敲声”决定,且"色泽"、"根蒂"和"敲声"分别有3、2、2 种可能取值。
1.3.4假设空间大小


1.3.5假设空间图示

1.3.6训练集

1.4归纳偏好
定义:机器学习算法在学习过程中对某种类型假设的偏好。
任何一个有效的机器学习算法必有其归纳偏好,否则它将被假设空间中看似在训练集上"等效"的假设所迷惑,无法产生确定的学习结果。如果没有偏好,刚才那个例子就没有确定的答案了。这样的学习结果显得没有意义。
归纳偏好可以看做学习算法自身在一个可能很庞大的假设空间对假设进行选择的启发式或“价值观”
奥卡姆剃刀:若有多个假设与观察一直,则选择最简单的那个。
1.5发展历程
20世纪80年代,“从样例中学习”的一大主流师符号主义学习,其代表包括决策树和基于逻辑学习。
20世纪90年代中期之前,“从样例中学习”的另一主流技术是基于神经网络的连接主义学习。
20世纪90年代中期, “统计学习(statistical learning)”闪亮登场并迅速占据主流舞台,代表技术是支持向量机(Support Vector Machine,简称SVM)以及更一般的“核方法”(kernel methods)
21世纪初,连接主义卷土重来,掀起了以“深度学习”为名的热潮。深度学习的前身是连接主义学习。

小贴士:
点击下方左右箭头,自动跳转到文集的上一篇和下一篇。
机器学习系列文档持续更新,求关注求三连!