读书笔记——西瓜书绪论
引言
机器学习所研究的主要内容,是关于在计算机上从数据中产生“模型”的算法,即“学习算法”术语
基本属于
(色泽=青绿;根蒂=蜷缩;声=浊响),(色泽=乌黑;根蒂= 蜷;敲声=沉闷),(色泽=浅白;根蒂=硬挺;敲声=清脆),……,每对括号内数一条记录,‘=’意思是取值为。这组记录的集合称为一个“数据集”,其中每条记录是关于一个事件或对象的描述,称为一个“样本”。反映事件或对象在某方面的表现或性质的事项,如“色泽”称为“属性”或“特征”。属性上的取值称为“属性值”。属性张成的空间称为“属性空间”或“样本空间”。
从数据中学得模型的过程称为“学习”或“训练”。训练过程中使用的数据称为“训练数据”。其中每个样本称为一个“训练样本”,训练样本组成的集合称为“训练集”。
例如“((色泽=青绿;根蒂=蜷缩敲声=浊响),好瓜)”,“好瓜”称为“标记”(label);拥有了标记信息的示例,则称为“样例”(example)。一般的用的(xi,yi)表示第i个样例。
若我们欲预测的是离散值,例如“好瓜”“坏瓜”,此类学习任务称为“分类”(classifcation);若欲预测的是连续值,例如西瓜成熟度 0.95、0.37,此类学习任务称为“回归”(regression)。对只涉及两个类别的“二分类”(binary classifcation)任务,通常称其中一个类为“正类”(positive class)另一个类为“反类”(negative class);涉及多个类别时,则称为“多分类”(multi-class classifcation)任务。一般地,预测任务是希望通过对训练集 {(x1,y1),(x2,y2),...,(xm,ym}进行学习,建立一个从输入空间X到输出空间Y的映射 f:X->Y。对二分类任务,通常令 y =-1,+1或0,1;对多分类任务,|y|> 2;对回归任务,y=R,R 为实数集。
根据训练数据是否拥有标记信息,学习任务可大致划分为两大类:“监督学习”(supervised learning)和“无监督学习”(unsupervised learning),分类和回归是前者的代表,而聚类则是后者的代表。