欢迎光临散文网 会员登陆 & 注册

ApacheCN 机器学习实战讲义 十三、利用 PCA 来简化数据

2018-05-03 00:04 作者:绝不原创的飞龙  | 我要投稿

降维技术

场景

  • 我们正通过电视观看体育比赛,在电视的显示器上有一个球。

  • 显示器大概包含了100万像素点,而球则可能是由较少的像素点组成,例如说一千个像素点。

  • 人们实时的将显示器上的百万像素转换成为一个三维图像,该图像就给出运动场上球的位置。

  • 在这个过程中,人们已经将百万像素点的数据,降至为三维。这个过程就称为降维(dimensionality reduction)

数据显示 并非大规模特征下的唯一难题,对数据进行简化还有如下一系列的原因:

  • 1) 使得数据集更容易使用

  • 2) 降低很多算法的计算开销

  • 3) 去除噪音

  • 4) 使得结果易懂

适用范围:

  • 在已标注与未标注的数据上都有降维技术。

  • 这里我们将主要关注未标注数据上的降维技术,将技术同样也可以应用于已标注的数据。

在以下3种降维技术中, PCA的应用目前最为广泛,因此本章主要关注PCA。

  • 1) 主成分分析(Principal Component Analysis, PCA)

    • 通俗理解:就是找出一个最主要的特征,然后进行分析。

    • 例如: 考察一个人的智力情况,就直接看数学成绩就行(存在:数学、语文、英语成绩)

  • 2) 因子分析(Factor Analysis)

    • 假设观察数据的成分中有一些观察不到的隐变量(latent variable)。

    • 假设观察数据是这些隐变量和某些噪音的线性组合。

    • 那么隐变量的数据可能比观察数据的数目少,也就说通过找到隐变量就可以实现数据的降维。

    • 通俗理解:将多个实测变量转换为少数几个综合指标。它反映一种降维的思想,通过降维将相关性高的变量聚在一起,从而减少需要分析的变量的数量,而减少问题分析的复杂性

    • 例如: 考察一个人的整体情况,就直接组合3样成绩(隐变量),看平均成绩就行(存在:数学、语文、英语成绩)

    • 应用的领域:社会科学、金融和其他领域

    • 在因子分析中,我们

  • 3) 独立成分分析(Independ Component Analysis, ICA)

    • 通俗理解:ICA 认为观测信号是若干个独立信号的线性组合,ICA 要做的是一个解混过程。

    • 例如:我们去ktv唱歌,想辨别唱的是什么歌曲?ICA 是观察发现是原唱唱的一首歌【2个独立的声音(原唱/主唱)】。

    • ICA 是假设数据是从 N 个数据源混合组成的,这一点和因子分析有些类似,这些数据源之间在统计上是相互独立的,而在 PCA 中只假设数据是不 相关(线性关系)的。

    • 同因子分析一样,如果数据源的数目少于观察数据的数目,则可以实现降维过程。

阅读全文:http://ml.apachecn.org/mlia/pca/

ApacheCN 机器学习实战讲义 十三、利用 PCA 来简化数据的评论 (共 条)

分享到微博请遵守国家法律