机器学习是学习什么
诞生于20 世纪 50 年代的人工智能(Artificial Intelligence,AI),因旨在实现人脑部分思维的计算机模拟,完成人类智力任务的自动化实现,从研究伊始就具有浓厚的神秘色彩。
• 人工智能的研究经历了从符号主义人工智能(symbolic AI),到机器学习 (Machine Learning)到深度学习(Deep Learning)的不同发展阶段。
• 符号主义人工智能:基于“一切都可规则化编码”的基本信念
• 机器学习概念的提出源于“人工智能之父”阿兰·图灵的图灵测试: “思考的机器”是可能的
• 相对于经典的程序设计范式,机器学习是一种新的编程 范式 • 机器学习的最大突破是2006年提出的深度学习:从数据 中学习“数据表示”。强调基于训练数据,通过众多连 续的神经网络层(layer),过滤和提取数据中的服务 于预测的重要特征。相对于拥有众多层的深度学习,机 器学习有时也被称为浅层学习(Shallow Learning)
机器学习的任务:
数据建模
• 基于数据集,机器学习通过数据建模,完成以下两大主要任务:
第一,数据预测
第二,数据聚类
• 数据预测,简而言之就是基于已有数据集,归纳出输入变量和输出变量 之间的数量关系。
基于这种数量关系: 一方面,可发现对输出变量产生重要影响的输入变量;另一方面,在数量关系具有普适性和未来不变的假设下,可用于对新数据输出变量取值的预测。

举个简单例子,比如通过线性回归分析,将上图中的三个点用一条直线连起来以后,那我们就可以预测第四个点也会出现在这条直线上面。
• 数据预测可细分为:
• 回归预测和分类预测
• 分类预测可细分为:二分类预测和多分类预测
举例如下:
用一个人身高(cm)与脚码(尺码)大小来作为特征值,类别为男性或者女性。我们现在如果有5个训练样本,分布如下:
A [(179,42),男] B [(178,43),男] C [(165,36)女] D [(177,42),男] E [(160,35),女]
现在来了一个测试样本 F(167,43),让我们来预测他是男性还是女性。
下面用欧式距离分别算出F离训练样本的欧式距离,然后选取最近的3个,多数类别就是我们最终的结果,计算如下:

由计算可以得到,最近的前三个分别是C,D,E三个样本,那么由C,E为女性,D为男性,女性多于男性得到我们要预测的结果为女性。
这个分类结果存在问题,因为女性的脚码一般不会有43,所以上述分类方法需要进一步调整,也就是学习。
• 数据聚类:发现数据中可能存在的小类,并通过小类刻画和揭示数据的 内在组织结构。
聚类结果:给每个样本观测指派一个属于哪个小类的标 签,称为聚类解。聚类解将保存在一个新生成的分类型变量中。


上图表示采取一定的数学方法对五个推销员进行聚类的结果,结果表明,先是G1G2聚成一类,再是G3G4,然后G3G4G4。
其他方面:
• 关联分析:寻找到事物之间的联系规律,发现它们之间 的关联性
比如:

在表中,鸡蛋—金丝猴豆干上汤鸡汁30g的概率40%表示购买了鸡蛋的顾客同时购买
金丝猴豆干上汤鸡汁30g可能性,而金丝猴豆干上汤鸡汁30g—鸡蛋的概率则正
相反,表示购买了金丝猴豆干上汤鸡汁30g的顾客同时购买鸡蛋的可能性。根据这些概率的大小,就可以调整商品在超市中的摆放位置,从而增加商品的销量。
当然还包括模式诊断等其他方面,以后慢慢介绍。
经过上面叙述和举例,我们似乎可以这样理解机器学习:
通过把已经获得的对象资料数据化,然后采用某种数学方法建立规则,在根据这些规则对这些数据进行预测、分类、关联等等方面的分析,以获得我们想要的结果。并且那些规则可以根据实际情况进行不断的调整。那么,利用规则进行数据分析并且对这些规则进行调整的过程就是机器学习的过程。