经管毕业论文常用主成分分析(PCA)

大家好,今天给大家再介绍一种经济管理中毕业论文(设计)中常用的一种方法——主成分分析法

(1)是什么
主成分分析(Principal Component Analysis,PCA),也有别称:主分量分析、矩阵数据分析
它利用数理统计方法找出系统中的主要因素和各因素之间的相互关系,由于系统的相互关联性,当出现异常情况时或对系统进行分析时,抓住几个主要参数的状态,就能把握系统的全局。这几个参数反映了问题的综合指标,也是系统的主要因素。
不太好理解对吧,实际就是:在生活中,为全面分析问题,一般把和这个问题有关的因素都找出来,这些因素多多少少都会反映这个问题的一些信息,而且这些因素多多少少还会有点相关性,但是因素太多就是分析问题起太**复杂性。
所以就有了这个方法——PCA,目的就是把太多的因素组成彼此之间没关系的新变量。并且尽量多保留原来的信息。

给大家举个例子:粉色的因素可以描述这个椭圆95%,但是因素之间可能有关系而且这么多不好描述,然后把这堆因素转化成两个因素分别是PC1和PC2,但是只能表达椭圆的90%,你看PC1与PC2是垂直的,所以这两个是相互独立的没关系的,其次才两个,是不是很好表达这个椭圆。
(2)为什么
为啥要用这个?这个问题也可以回答这个有啥用?
□主成分分析能降低所研究数据空间的维数。即用研究 q 维的Y空间代替p 维的 X空间(q<p),而低维的Y空间代替高维的X空间所损失的信息很少。
□有时可通过因子负荷的结论,弄清变量间的某些关系。
□多维数据的一种图形表示方法。当维数大于3时便不能画出几何图形,经过主成分分析后,可以选取前两个主成分或其中某两个主成分,画出在二维平面上的分布状况。
不太好理解,说简单一点:可以用在因子分析、系统评价,最常用的就是用在评价。

(3)怎么做
假设数据样本等于n,每个样本都有p个变量,那么就构成了一个n×p阶矩阵,如式(1)所示的线性方程组:

在式(1)的n×p阶矩阵中,当p值较大时,空间维度较大,分析问题较为复杂。利用线性关系降维后,提取几个综合指标(主成分)代替原来较多的变量指标。具体方法为取原变量的线性组合,经过对组合系数的调整,使新的变量间的代表性和相互独立性最好。设原变量指标为X1、X2、…、Xp,它们的综合指标为Z1、Z2、…、Zm(m≤p),则可得到如式(2)所示的线性方程组:

其中:Zi与Zj(i≠j;i、j=1,2,…,m)相互无关。Z1是X1、X2、…、Xp的一切线性组合中方差最大者,Z2是与Z1不相关的X1、X2、…、Xp的所有线性组合中方差最大者;Zm是与Z1、Z2、…、Zm-1都不相关的X1、X2、…、Xp的所有线性组合中方差最大者。所得的新变量Z1、Z2、…、Zm分别为原变量指标X1、X2、…、Xp的第一、第二…第m主成分。其中,Z1在总方差中的贡献率最大,Z2、Z3、…、Zm的方差贡献率依次递减。一般选取方差贡献率较大的几个主成分,减少变量的数目,简化变量之间的关系。主成分就是确定原变量Xj(j=1,2,…,p),在各主成分Zi(i=1,2,…,m)上的载荷Lij(i=1,2,…,m;j=1,2,…,p)。根据线性代数可知,它们是相关矩阵X1、X2、…、Xp的m个较大特征值所对应的特征向量。
注意:
因子分析法与主成分分析法都是基于统计分析法,但二者有较大的区别。主成分分析法是通过坐标变换提取主成分,也就是将一组具有相关性的变量变换为一组独立的变量,将主成分表示为原始观察变量的线性组合。而因子分析法是要构造因子模型将原始观察变量分解为因子的线性组合。所以,因子分析法是主成分分析法的发展。
参考文献
[1]基于主成分分析的中学生研学旅游需求动机研究——以太原市为例[J].经济问题,2016,No.443(07):119-124.DOI:10.16011/j.cnki.jjwt.2016.07.023.