因子分析

时间:2024.4.13

 

学    院:   统计学院        

课程名称:  多元统计分析     

专业班级:    11统计3班     

姓    名:      马丽平       

学    号:      0112797      

学生实验报告

一、实验目的及要求:

1、目的

了解怎样运用SPSS软件对数据进行因子分析,熟悉因子分析的原理,以及运用软件进行因子分析输出数据的意义。

2、内容及要求

对20##年我国88个房地产上市公司做因子分析

二、仪器用具


三、实验方法与步骤:

1、录入数据

  为方便查看,将数据中的10个指标市盈、净资产收益率、总资产报酬率、毛利率、资产现金率、应收应付比、营业利润占比、流通市值、总市值、成交量(手)分为记为X1、X2、X3、X4、X5、X6、X7、X8、X9、X10

2、进行因子分析


四、实验结果与数据处理:

1、表1给出了该次分析从每个原始变量中提取的信息,表格下面的标注表明,该次分析是用因子分析模块默认的信息提取方法即主成分分析完成的。

表1

2、表2显示了各主成分解释原始变量总方差的情况,SPSS默认保留特征根大于1的主成分,在本次分析中可以看到保留了4个主成分为宜,这4个主成分集中了原始变量信息的72.343%,可见效果比较好。

表2

3、表3得到的是未旋转的公共因子系数,但是由于该公共因子的实际意义不好解释,因此不作为因子分析的最终结果。

表3

4、表4为旋转成分矩阵表。从表中可以得出

X1=-0.06*F1-0.458*F2-0.701*F3-0.017*F4

X2=-0.013*F1-0.707*F2+0.029*F3+0.328*F4

其余以此类推

表4

5、最后,计算因子得分,以各因子的方差贡献率占4个因子总方差贡献率的比重作为权重进行加权汇总,得到各房地产上市公司的综合得分

F=(29.269*F1+19.043*F2+13.541*F3+12.491*F4)/72.343

表5为各主成分的综合得分表

表5

6、由因子分析结果中旋转后的因子载荷矩阵可以看出,公共因子F1在X8(流通市值)、X9(总市值)、X10(成交量)上的载荷都很大。公共因子F2在X3(总资产报酬率)上的载荷最大。公共因子F3在X7(营业利润占比)上的载荷最大。公共因子F4在X5(资产现金率)上的载荷最大。

从此次因子分析得出的综合得分表中可以看出排名前五的房地产上市公司分别为万科A、保利地产、陆家嘴、金地集团、金融街。综合得分最低的分别是粤宏远A、金宇车城、成城股份、阳光城、中江地产。

五、讨论与结论

在进行试验时,试验的步骤并不是特别难,进行因子分析基本上来说只要一步就能够完成,只是做完之后那些输出的数据表格比较多,偶尔会搞不太清楚那些表格所代表的含义,对输出数据进行分析时容易弄混分析时所需的数据。


六、指导教师评语及成绩:

评语:

成绩:           指导教师签名:

                                               批阅日期:


第二篇:因子分析.ppt.Convertor


第十章

SPSS 因子分析

本章内容

10.1 因子分析概述

10.2 因子分析的基本内容

10.3 因子分析的基本操作及案例

10.1 因子分析概述

10.1.1因子分析的意义

在实际问题的分析过程中,人们往往希望尽可能多的搜集关于分析对象的数据信息,进而能够比较全面的、完整的把握和认识它。于是,对研究对象的描述就会有很多指标。但是效果如何呢?如果搜集的变量过多,虽然能够比较全面精确的描述事物,但在实际建模时这些变量会给统计分析带来计算量大和信息重叠的问题。而消减变量个数必然会导致信息丢失和信息不完整等问题的产生。

因子分析是解决上述问题的一种非常有效的方法。它以最少的信息丢失,将原始众多变量综合成较少的几个综合指标(因子),能够起到有效降维的目的。

因子分析的特点

1、因子个数远远少于原有变量的个数;

2、因子能够反应原有变量的绝大部分信息;

3、因子之间不存在线性关系;

4、因子具有命名解释性。

10.1.2因子分析的数学模型和相关概念

数学模型

假设原有变量有p个,分别用 表示,且每个变量的均值是0,标准差是1,现将每个原有变量用k(k<p)个因子 的线性组合来表示,即:

在这个数学模型中,F称为公共因子,因为它出现在每个变量的线性表达式中,简称因子。因子可理解为高维空间中互相垂直的k个坐标轴;A称为因子载荷矩阵, 称为因子载荷,是第i个原始变量在第j个因子上的负荷; 称为特殊因子,表示原始变量不能被因子解释的部分。其均值为0,相当于多元线性回归模型中的残差。

因子分析的几个相关概念

1、因子载荷

在因子不相关的前提下,因子载荷是第i个变量与第j个因子的相关系数。因子载荷越大说明因子与变量的相关性越强,所以因子载荷说明了因子对变量的重要作用和程度。

2、变量共同度

变量共同度也称为公共方差。第i个变量的共同度定义为因子载荷矩阵中第i行元素的平方和,即:

3、因子的方差贡献

因子方差贡献是因子载荷矩阵中第j列元素的平方和,反映了第j个因子对原有变量总方差的解释能力。该数值越高,说明相应因子的重要性越高。

10.2 因子分析的基本内容

10.2.1因子分析的基本步骤

1、因子分析的前提条件;

因子分析的前提条件是原始变量之间应存在较强的相关关系。

2、因子提取;

3、使因子更具有命名可解释性;

4、计算各样本的因子得分。

10.2.2因子分析的前提条件

1、计算相关系数并进行统计检验

如果相关系数矩阵中的大部分相关系数小于0.3,那么这些变量不适合进行因子分析。

2、计算反映象相关矩阵

3、Bartlett’s球度检验

以原有变量的相关系数矩阵为出发点,假设相关系数为单位矩阵,如果该检验对应的P值小于给定的显著性水平a,则应拒绝原假设,认为原有变量适合进行因子分析。

4、KMO检验

该统计量取值在0-1之间,越接近于1说明变量间的相关性越强,原有变量适合做因子分析。0.9以上表示非常合适;0.8-0.9表示合适;0.7-0.8表示一般;0.6-0.7表示尚可;0.5-0.6表示不太合适;0.5以下表示极不合适。

10.2.3因子提取和因子载荷矩阵的求解

因子载荷矩阵的求解一般采用主成分法。主成份分析法通过坐标变换的手段,将原有的p个变量标准化后进行线性组合,转换成另一组不相关的变量y,即:

式中的系数按以下原则进行求解:

(1)

(2)

根据以上原则确定的变量依次为原始变量的第1、第2…第p个主成分。其中第一个主成分在总方差中所占比例最大,其余主成分在总方差中所占比例依次递减,即主成分综合原始变量的能力依次减弱。在主成份的实际应用中,一般只选取前面几个主成分即可,这样既减少了变量的数目,又能够用较少的主成分反映原始变量的绝大部分信息。

可见,主成分分析关键的步骤是如何求出上述方程中的系数。通过方程的推导可以发现,每个方程中的系数向量是原始变量相关系数矩阵的特征值对应的特征向量。具体求解步骤如下:

(1)将原有变量进行标准化处理;

(2)计算变量的相关系数矩阵;

(3)求相关系数矩阵的的特征根 及对应的特征向量

因子分析利用主成分分析得到的p个特征根和对应的特征向量,在此基础上计算因子载荷矩阵:

由于因子分析的目的是减少变量个数,因此在计算因子载荷矩阵时,一般不选取所有特征值,而只选取前k个特征值和特征向量,得到下面包含k个因子的因子载荷矩阵: 因子个数的确定方法:

(1)根据特征根确定因子数:一般选取大于1的特征根,还可规定特征根数与特征根值的碎石图并通过观察碎石图确定因子数;

(2)根据因子的累计方差贡献率确定因子数:通常选取累计方差贡献率大于85%的特征根个数为因子个数。

例: 成绩数据(student.sav)

100个学生的数学、物理、化学、语文、历史、英语的成绩如下表(部分)。

从本例可能提出的问题

能不能把这个数据的6个变量用一两个综合变量来表示呢?

这一两个综合变量包含有多少原来的信息呢?

能不能利用找到的综合变量来对学生排序呢?这一类数据所涉及的问题可以推广到对企业,对学校进行分析、排序、判别和分类等问题。

例中的的数据点是六维的;也就是说,每个观测值是6维空间中的一个点。我们希望把6维空间用低维空间表示。

先假定只有二维,即只有两个变量,它们由横坐标和纵坐标所代表;因此每个观测值都有相应于这两个坐标轴的两个坐标值;如果这些数据形成一个椭圆形状的点阵,那么这个椭圆有一个长轴和一个短轴。在短轴方向上,数据变化很少;在极端的情况,短轴如果退化成一点,那只有在长轴的方向才能够解释这些点的变化了;这样,由二维到一维的降维就自然完成了。

当坐标轴和椭圆的长短轴平行,那么代表长轴的变量就描述了数据的主要变化,而代表短轴的变量就描述了数据的次要变化。

但是,坐标轴通常并不和椭圆的长短轴平行。因此,需要寻找椭圆的长短轴,并进行变换,使得新变量和椭圆的长短轴平行。

如果长轴变量代表了数据包含的大部分信息,就用该变量代替原先的两个变量(舍去次要的一维),降维就完成了。

椭圆(球)的长短轴相差得越大,降维也越有效果。

对于多维变量的情况和二维类似,也有高维的椭球,只不过无法直观地看见罢了。

首先把高维椭球的主轴找出来,再用代表大多数数据信息的最长的几个轴作为新变量;这样,主成分分析就基本完成了。

注意,和二维情况类似,高维椭球的主轴也是互相垂直的。这些互相正交的新变量是原先变量的线性组合,即主成分(principal component)。

正如二维椭圆有两个主轴,三维椭球有三个主轴一样,有几个变量,就有几个主成分。

原则上如果有n个变量,则最多可以提取出n个主成分,但如果将它们全部提取出来就失去了该方法简化数据的实际意义。多数情况下提取出前 2~3个主成分已包含了85%以上的信息,其他的可以忽略不计。

提取出的主成分能包含主要信息即可,不一定非要有准确的实际含义。

9.2.4因子的命名

观察因子载荷矩阵,如果因子载荷的绝对值在第j列的多个行上都有较大的取值,则表明因子fj能够同时解释许多变量的信息,且对每个变量只能揭示较少部分信息,但不能代表任何一个原有变量。这种情况下,因子fj的含义是模糊不清的,为解决这个问题,可通过因子旋转的方式是一个变量值在尽可能少的因子上有比较高的载荷。因子旋转一般采用正交旋转使新生成的变量仍可保持不相关,正交旋转一般采用方差最大法(varimax)。然后再根据各因子对各原始变量的解释程度进行命名。

9.2.5 计算因子得分

在因子分析实际应用中,当因子确定以后,便可计算各因子在每个样本上的具体数值,这些数值称为因子得分,形成的变量称为因子变量。计算因子得分的途径是用原有变量描述因子,第j个

因子在第i个样本上的值可表示为:

估计因子得分系数的方法有很多,通常采用最小二乘意义下的回归法进行估计。

9.3 因子分析的基本操作

1、选择菜单Analyze-Data Reduction-Factor,出现主窗口:

2、把参与因子分析的变量选到Variables框中。

3、选择参与因子分析的样本。把作为条件变量的变量指定到Selection Variable框中并单击Value按钮输入变量值,只有满足条件的样本数据才参与因子分析。

4、在主窗口中单击Descriptives按钮指定输出结果。Statistics框中指定输出哪些基本统计量,其中Univariate descriptives表示输出各个变量的基本描述统计量;Initial solution表示输出因子分析的初始解。Correlation Matrix框中指定考察因子分析条件的方法及输出结果,其中Coefficients表示输出相关系数矩阵;Significance levels表示输出相关系数检验的概率p值;Determinant表示输出变量相关系数矩阵的行列式值;Inverse表示输出相关系数矩阵的逆矩阵;Anti-image表示输出反映象相关矩阵;KMO and Bartlett’s test of sphericity表示进行巴特利特球度检验和KMO检验。

5、在主窗口中单击Extraction按钮指定提取因子的方法。在Method框中提供了多种提取因子的方法,其中Principal components是主成分分析法,是SPSS默认的方法;在Analyze框中指定提取因子的依据,其中Correlation matrix为相关系数矩阵,当原有变量存在数量级的差异时,通常选择该选项;Covariance matrix为协方差阵。在Extract框中选择如何确定因子数目:在Eigenvaluse over后输入一个特征根值(默认值为1),SPSS将提取大于该值的特征根;也可在Number of factors框后输入提取因子的个数。在Display框中选择输出哪些与因子提取有关的信息,其中Unrotated factor solution表示输出未旋转的因子载荷矩阵;Scree plot表示输出因子的碎石图。

6、在主窗口中单击Rotation按钮选择因子旋转方法。在Method框中选择因子旋转方法,其中None表示不旋转(默认选项);Varimax为方差最大法;Quartimax为四次方最大法;Equamax为等量最大法;其他为斜交旋转法。在Display框指定输出与因子旋转相关的信息,其中Rotated Solution表示输出旋转后的因子载荷矩阵B;Loading plots表示输出旋转后的因子载荷散点图。

7、在主窗口中单击Scores按钮选择计算因子得分的方法。选中Save as variables项表示将因子得分保存到SPSS变量中,生成几个因子便产生几个SPSS变量。变量名的形式为FACn_m,其中n为因子编号,以数字序号的形式表示;m表示是第几次分析的结果。选中Display factor score coefficient matrix项表示输出因子得分函数中的各因子得分系数。在Method框中指定计算因子得分的方法,其中Regression为回归法。

8、在主窗口中单击Options按钮指定缺失值的处理方法和因子载荷矩阵的输出方法。在Missing Values框中指定如何处理缺失值。在Coefficient Display Format框中指定因子载荷矩阵的输出方式,其中Sorted by size表示以第一因子得分的降序输出因子载荷矩阵;在Suppress absolute values less than框后输入一数值,表示输出大于该值的因子载荷。

9.4 因子分析的应用举例

为研究全国各地区年人均收入的差异性和相似性,收集到19xx年全国31个省市自治区各类经济单位包括国有经济单位、集体经济单位、联营经济单位、股份制经济单位、外商投资经济单位、港澳台经济单位和其他经济单位的年人均收入数据。由于涉及的变量较多,直接进行地区间的比较分析较为繁琐,因此首先考虑采用因子分析方法减少变量个数,之后再进行比较和综合评价。

9.4.1 考察原有变量是否适合进行因子分析

这里借助变量的相关系数矩阵、巴特利特球度检验和KMO检验方法进行分析。 同时,由于数据中存在缺失值,采用均值替代法处理缺失值。

9.4.2 提取因子

首先进行尝试性分析,根据原有变量的相关系数矩阵,采用主成分分析法提取因子并选取特征根值大于1的特征根,输出因子分析的初始解。

重新指定提取特征根的标准,指定提取两个因子。

9.4.3 因子的命名解释

采用方差最大法对因子载荷矩阵实施正交旋转以使因子具有命名解释性。指定按第一因子载荷降序的顺序输出旋转后的因子载荷以及旋转后的因子载荷图。

9.4.4 计算因子得分

采用回归法估计因子得分系数,并输出因子得分系数。

9.4.5 各省市自治区的综合评价

可利用因子得分变量对地区进行对比研究。首先,绘制两因子得分变量的散点图;其次,对各地区人均年收入进行综合评价,采用计算因子加权总分的方法,以两个因子的方差贡献率为权数。

练习

根据基本建设投资数据判断是否适合作因子分析,如果可以作,提取几个因子比较合适?并对因子进行命名,计算综合得分。

因子分析和主成分分析的一些注意事项

可以看出,因子分析和主成分分析都依赖于原始变量,也只能反映原始变量的信息。所以原始变量的选择很重要。

另外,如果原始变量都本质上独立,那么降维就可能失败,这是因为很难把很多独立变量用少数综合的变量概括。数据越相关,降维效果就越好。

在得到分析的结果时,并不一定会都得到如我们例子那样清楚的结果。这与问题的性质,选取的原始变量以及数据的质量等都有关系。

Thank you

更多相关推荐:
SPSS试验五(因子分析报告)

试验五因子分析一实验目的运用因子分析方法分析数据二实验内容1SPSS操作2因子分析下表资料为25名健康人的7项生化检验结果7项生化检验指标依次命名为X1至X7请对该资料进行因子分析

主成分分析、因子分析实验报告 SPSS

一实验目的及要求1目的用SPSS软件实现主成分分析因子分析及其应用2内容及要求用SPSS对20xx年我国88个房地产上市公司做因子分析并做出相关解释二仪器用具三实验方法与步骤准备工作把实验所用数据从Word文档...

第7章 因子分析实验报告

课程实验报告专业年级课程名称指导教师学生姓名学号实验日期实验地点实验成绩教务处制20xx年10月28日23456789注可根据实际情况1011

SPSS因子分析实验报告

实验十一因子分析报告一数据来源各地区年平均收入sav二基本结果1考察原有变量是否适合进行因子分析首先考察原有变量之间是否存在线性关系是否采用因子分析提取因子借助变量的相关系数矩阵反映像相关矩阵巴特利球度检验和K...

因子分析步骤范例

因子分析步骤范例来源语言研究应用SPSS软件实例大全某对外汉语培训中心对在该中心学习的外国留学生进行了一项汉语学习动机问卷调查使用李克特五级式量表第一级为最不喜欢第五级为最喜欢随机抽取18人参加调查其中个项目调...

因子分析实验报告

青海大学财经学院实验报告实验项目名称因子分析所属课程名称统计分析软件实验类型验证性实验实验日期20xx年5月23日班级11国贸学号姓名成绩

因子分析实验报告范本

实验课程名称多元统计分析123456789101112131415

spss课程实验因子分析

实验名称通过因子分析寻找影响商业银行业绩的主要因素一实验目的因子分析是降维所采用的主要方法之一基于对原始变量的相关系数矩阵内部结构的研究通过导出非观测综合变量去描述原始的多个变量之间的相关关系影响商业银行业绩的...

统计专业实验-实验7-因子分析和综合评价

实验报告

统计专业实验-实验07-因子分析和综合评价

实验报告234567

多元统计因子分析

大连民族学院数学实验报告课程多元统计分析实验题目因子分析系别理学院专业数学与应用数学姓名班级信息102指导教师腾颖俏完成学期月

实验:SPSS主成分分析和因子分析

实验SPSS主成分分析和因子分析实验目的1掌握如何确定主成分的个数2熟练解释主成分分析的结果载荷矩阵共同度方差贡献率等3掌握应用主成分分析进行数据降维和综合评价的方法4了解因子分析法的应用条件5掌握因子分析法的...

因子分析报告(29篇)