机器学习随谈(一)
我一直找想应该用什么样的视角来理解机器学习的模型,因此我想把目前为止我的理解全部摆出来理一理。
学习方式
喂的数据的不同其实就可以作为一种分类与理解机器学习模型的视角,我们通常分成四类。
监督学习
当喂入的数据同时包含特征与对应的输入时,它就被称为监督学习。
我们现在往池子中放入了许多确定的数据,我们欣喜若狂地随机把它们分开成不均匀的几份,把最多的那份单独放一个池子,把模型浸没在里面,让模型吞吐数据,直到趋于饱和。
当我们把模型从池子中拿出来的时候,它已经变成了池子的形状了——池子的内部存在一些结构,而模型在浸没在池子中的时候,自己调节内部的参数,把这种结构(的一部分)表示了出来。
在我上面的描述中,值得注意的是“池子”这个描述。
我们首先来理解“池子”这个描述,这个描述有个妙处。一条条数据在我们的视角中是向量,这些向量又有两个相似之处。一,它们的维度相同,存在于同一个线性空间中;二,它们被认为满足于同一个概率分布(在某一次的机器学习任务中)。因此,池子实际上可以理解为数据的概率分布本身。从贝叶斯学派的视角看来,模型学习了这个概率分布。从统计学派的视角,模型根据这个概率分布,学习了一个从自变量到因变量的映射。
其实”浸没“这个描述也很有意思,模型根据参数调节策略的不同,被池水“浸润”的速度和程度也有所不同,但无论如何,我们永远都希望模型在训练过程中,可以充分地遇到这个概率分布中的所有数据。因此我们才会去做数据增强。
因此,在我的视角中,可解释较强的传统机器学习方法与数据挖掘不谋而合。