基于全国36个省市主要经济指标数据的spss分析
一.数据来源与描述
1.数据来源——《中国劳动统计年鉴─2008》
(http://www.stats.gov.cn/tjsj/ndsj/2008/indexch.htm)
2.数据描述
本数据集记录了20##年全国36个省市(港、澳、台除外)的主要经济指标,其中包括各省市的年底总人口、地区生产总值、在岗职工平均工资、固定资产投资总额等。
二.问题:
1.对36个省市的主要经济指标数据进行分布特征检验。
方法:K-S检验
2.通过全国36各省市的主要经济指标,分析各省市生活水平的差异与共性。
方法:系统聚类
3.提取公共因子,分析衡量各省市生活水平的指标。
方法:因子分析
三.具体分析步骤
1.数据基本处理:修改小数点、修改度量标准。
2.描述统计分析
(1)“分析”→“描述统计”→“描述”
(2)“变量”选择: 年底总人口(万人)、地区生产总值(当年价格)(万元)、客运量(万人)、货运量(万吨)、地方财政预算内收入(万元)、地方财政预算内支出(万元)、固定资产投资总额(万元)、城乡居民储蓄年末余额(万元)、在岗职工平均工资(元)、年末邮政局(所)数(处)、年末固定电话用户数(万户)、社会商品零售总额(万元)、货物进出口总额(万美元)、年末实有公共(汽)电车营运车辆数(辆)、剧场、影剧院数(个)、普通高等学校在校学生数(人)、
医院、卫生院(个)、执业(助理)医师(人) 。
(3) 单击“选项”按钮选择:“均值”、“标准差”、“最大值”、“最小值”。
(4)单击“确定”按钮,输出描述统计分析结果。
(5)得出数据显示:
分析:由上表可以看出,各类主要经济指标的最大值和最小值相差很大,说
明不同省市之间的生活水平有明显差异。
3.正态分布检验
(1)“分析”→“非参数检验”→“旧对话框”→“1样本K-S”
(2)“检验变量列表”选择:年底总人口(万人)、地区生产总值(当年价格)(万元)、客运量(万人)、货运量(万吨)、地方财政预算内收入(万元)、地方财政预算内支出(万元)、固定资产投资总额(万元)、城乡居民储蓄年末余额(万元)、在岗职工平均工资(元)、年末邮政局(所)数(处)、年末固定电话用户数(万户)、社会商品零售总额(万元)、货物进出口总额(万美元)、年末实有公共(汽)电车营运车辆数(辆)、剧场、影剧院数(个)、普通高等学校在校学生数(人)、医院、卫生院(个)、执业(助理)医师(人) 。
(3)单击“确定”按钮,输出结果。
(4) 得出数据显示:
分析:在0.001的显著性水平下,各省市主要经济指标的P值均大于0.001,因此上述数据均服从正态分布。
4.系统聚类分析
(1)“分析”→“分类”→“系统聚类”
(2)“变量”选择:年底总人口(万人)、地区生产总值(当年价格)(万元)、客运量(万人)、货运量(万吨)、地方财政预算内收入(万元)、地方财政预算内支出(万元)、固定资产投资总额(万元)、城乡居民储蓄年末余额(万元)、在岗职工平均工资(元)、年末邮政局(所)数(处)、年末固定电话用户数(万户)、社会商品零售总额(万元)、货物进出口总额(万美元)、年末实有公共(汽)电车营运车辆数(辆)、剧场、影剧院数(个)、普通高等学校在校学生数(人)、医院、卫生院(个)、执业(助理)医师(人) 。
(3)“标注个案”选择:城市名称。
(4)“分群”选择:“个案”。
(5)单击“绘制”按钮选择:“树状图”。
(6)单击“方法”按钮:在“聚类方法”下拉列表中选择“质心聚类法”。
(7)单击“确定”按钮,输出系统聚类分析结果。
(8)得出数据显示:
分析:上表显示的是聚类表,该表反映的是每一阶段聚类的结果,系
数表示的是“聚合系数”,第2列和第3列表示的是聚合的类。
分析:上图为系统聚类分析的冰柱图,它反映了各类之间的距离,从最后一
行向前我们可以依次看出不同的聚类数量下的分类方式。
分析:上图为使用“质心联接”聚类法生成的树状聚类图,它反映了
聚类每一次合并的情况。
5.因子分析:
(1)“分析”→“降维”→“因子分析”
(2)“变量”选择: 年底总人口(万人)、地区生产总值(当年价格)(万元)、
客运量(万人)、货运量(万吨)、地方财政预算内收入(万元)、地方财政预算内支出(万元)、固定资产投资总额(万元)、城乡居民储蓄年末余额(万元)、在岗职工平均工资(元)、年末邮政局(所)数(处)、年末固定电话用户数(万户)、社会商品零售总额(万元)、货物进出口总额(万美元)、年末实有公共(汽)电车营运车辆数(辆)、剧场、影剧院数(个)、普通高等学校在校学生数(人)、
医院、卫生院(个)、执业(助理)医师(人) 。
(3)单击“描述”按钮选择:“原始分析结果”和“KMO和Bartlett的球形度检验”。
(4)单击“抽选”按钮选择:“碎石图”,其他为系统默认选择。
(5) 单击“旋转”按钮选择:“最大方差法”,其他为系统默认选择。
(6)单击“得分”按钮选择:“保存为变量”和“因子得分系数”。
(7)单击“确定”按钮,输出因子分析结果。
(8)得出数据显示:
分析:上表给出了KMO和Bartlett的检验结果,其中KMO值越接近1表示越适合做因子分析,从该表可以得到KMO的值为0.828,表示非常适合做因子分。Bartlett球形度检验的原假设为相关系数矩阵为单位阵,Sig值为0.000小于显著水平0.05,因此拒绝原假设,说明变量之间存在相关关系,适合做因子分析。
分析:上表给出了每个变量共同度的结果。表格数据表左侧表示每个变量可以被所有因素所能解释的方差,右侧表示变量的共同度。从该表可以得到,因子分析的变量共同度都非常高,表明变量中的大部分信息均能被因子所提取,说明因
子分析的结果是有效的。
分析:上表给出了因子贡献率的结果。该表中的左侧部分为初始特征值,中间为提取主因子结果,右侧为旋转后的主因子结果。“合计”指因子的特征值,“方差的%”表示该因子的特征值占总特征值得百分比,“累积%”表示累积的百分比。其中只有前三个因子的特征值大于1,并且前三个因子的特征值之和占总特征值的85.34%,因此,提取前三个因子作为主因子。
分析:上表给出了未旋转的因子载荷。从该表可以得到利用主成份方法提取的三个主因子的载荷值。从该表的因子分析模型为:
年底总人口(万人)=0.644F1+0.662F2-0.264F3
地区生产总值(当年价格)(万元)=0.965F1-0.183F2+0.113F3
客运量(万人)=0.475F1+0.735F2 +0.115F3
货运量(万吨)=0.804F1+ 0.191F2+0.125F3
地方财政预算内收入(万元)=0.929F1-0.316F2-0.065F3
地方财政预算内支出(万元)=0.953F1-0.228F2-0.078F3
固定资产投资总额(万元)=0.933 F1+0.110F2-0.087F3
城乡居民储蓄年末余额(万元)=0.968F1-0.161F2+0.073F3
在岗职工平均工资(元)=0.643F1 -0.464F2+0 .114F3
年末邮政局(所)数(处)=0.551F1+0.448F2+0.513f3
年末固定电话用户数(万户)=0.978F1+0.097 F2-0.025F3
社会商品零售总额(万元)=0.977F1-0.090F2+0.118F3
货物进出口总额(万美元)=0.757F1-0.534F2+0.041F3
年末实有公共(汽)电车营运车辆数(辆)=0.945F1 -0.169F2+0.027F3
剧场、影剧院数(个)=0.746F1-0.230F2-0.423F3
普通高等学校在校学生数(人)=0.514F1+0.380F2+0.351F3
医院、卫生院(个)=0.482F1+0.552F2-0.522F3
执业(助理)医师(人)=0.956 F1+.135F2-0.069F3
分析:上表给出了旋转后的因子载荷值,其中旋转方法采用的是Kaiser标准化的正交旋转法。通过因子旋转,各个因子有了比较明确的含义。可以看出,地区生产总值、地方财政预算内收入、地方财政预算内支出、固定资产投资总额、城乡居民储蓄年末余额、在岗职工平均工资、年末固定电话用户数、社会商品零售总额、货物进出口总额、年末实有公共(汽)电车营运车辆数、剧场、影剧院数在第一个因子里有较高载荷;客运量、货运量、年末邮政局(所)数、普通高等学校在校学生数在第二个因子里有较高载荷,其他的在第三个因子里有较高载荷。
分析:上图给出了特征值的碎石图,通常该图显示大因子的陡峭斜率和剩余因子平缓的尾部,之间有明显的中断。一般选取主因子在非常陡峭的斜率上,而处于平缓斜率上的因子对变异的解释非常小。从该图可以看出前三个因子都处于非常陡峭的斜率上,而从第四个因子开始斜率变平缓,因此选择前三个因子作为主因子。
分析:由上表数据可得,因子分析得分函数为:
F1=-0.089年底总人口+0.104地区生产总值-0.129客运量+0.012货运量+0.136方财政预算内收入+0.119地方财政预算内支出+0.045固定资产投资总额+0.101城乡居民储蓄年末余额+0.142在岗职工平均工资-0.075年末邮政局(所)数+0.049年末固定电话用户数+0.085社会商品零售总额+0.168货物进出口总额+0.103年末实有公共(汽)电车营运车辆数+0.117剧场、影剧院数-0.057普通高等学校在校学生数-0.068医院、卫生院+0.041执业(助理)医师
F2=-0.004年底总人口+0.068地区生产总值+0.269客运量+0.159货运量-0.087地方财政预算内收入-0.075地方财政预算内支出-0.002固定资产投资总额+0.046城乡居民储蓄年末余额-0.008在岗职工平均工资+0.479年末邮政局(所)数+0.040年末固定电话用户数+0.094社会商品零售总额-0.071货物进出口总额+0.011年末实有公共(汽)电车营运车辆数-0.321剧场、影剧院数+0.350普通高等学校在校学生数-0.213医院、卫生院+0.017执业(助理)医师
F3=0.366年底总人口-0.095地区生产总值+0.108客运量-0.019货运量-0.001方财政预算内收入+0.030地方财政预算内支出+0.116固定资产投资总额-0.061城乡居民储蓄年末余额-0.173在岗职工平均工资-0.242年末邮政局(所)数+0.070年末固定电话用户数-0.077社会商品零售总额-0.134货物进出口总额-0.031年末实有公共(汽)电车营运车辆数+0.270剧场、影剧院数-0.144普通高等学校在校学生数+0.518医院、卫生院+0.110执业(助理)医师
四.回答问题
1.答:在0.001的显著性水平下,各省市的主要经济指标服从正态分布,因此可以为随后的深入分析做基础。
2.答:通过系统聚类分析,可以将各省市的生活水平分为三类,北京、上海为一类,城市生活水平较高;天津、重庆、广州、深圳为一类,城市生活水平中等;其余省市为一类,城市生活水平较低。
3. 答:通过因子分析可以看出,每个因子只有少数几个指标的因子载荷较大,因此可以分类,将18个指标按高载荷分成三类:地区生产总值(当年价格)、地方财政预算内收入、地方财政预算内支出、固定资产投资总额、城乡居民储蓄年末余额、在岗职工平均工资、年末固定电话用户数、社会商品零售总额、货物进出口总额、年末实有公共(汽)电车营运车辆数、剧场、影剧院数在第一个因子里有较高载荷;客运量、货运量、年末邮政局(所)数、普通高等学校在校学生数在第二个因子里有较高载荷,其他的在第三个因子里有较高载荷。
五.归纳总结或意见
答:由上述内容可以看出,K-S检验数据的分布特征,通过检验得出数据为正态分布,而正态分布是一个在数学、物理及工程等领域都非常重要的概率分布,在统计学的许多方面有着重大的影响力。系统聚类将各省市主要经济指标清晰地分类,为我们分析各省市城市生活水平提供了便利,因子分析则可以提取公共因子,分析衡量城市生活水平的指标,从众多的经济指标中挖掘出三个潜在的综合因子,让我们对各省市主要经济指标有个更深的解读。但是,这三种方法对数据有一定要求。总之,三种方法在分析不同的问题上各有所长。
第二篇:spss分析报告(相关性)
spss实验分析报告
以下针对中国民航客运量进行数据分析。
一、对所给数据进行分析,见下表(为1978 年到1993 年数据):
其中y民航客运量(万人) x1国民收入 (亿元) x2 消费额 (亿元)x3铁路客运量 (万人) x4 民航航线里程(万公里) x5来华旅游入境人数
二、各个因素的基本统计量:
从上述表格中可以看出:
(1) 1978--1993年数据量N为16组。
(2) 与民航客运量相比较,铁路客运量的极差、极小值和极大值都较大,民航航线里程(万公里)从1978 —1993年间变化较其他数据较小。
(3) 除民航航线里程外,各数据的标准误差均较大。
(4) 铁路客运量的标准差明显较其他数据较大,但将各组标准差与其均值相除,可得铁路客运量的波动性最小;而消费额和国民收入的波动性相近。
(5) 从峰度值可以看出消费额 (亿元)、铁路客运量 (万人)、来华旅游入境人数 峰度为负,即较正态分布平缓。国民收入 (亿元)、民航航线里程(万公里)峰度为正,即较正态分布陡峭。
(6) 从偏度值可以看出铁路客运量 (万人)的偏度为负,为左偏态。而消费额、来华旅游入境人数偏度为负,为右偏态,其中民航客运量、国民收入、民航航线里程偏度大于1,为右偏态程度较大;
三、相关性.
从上述相关性表格可以看出:
(1)y民航客运量(万人) 与 x1国民收入,x2 消费额,x4 民航航线里程,x5来华旅游入境人数有显著相关性(线性相关);而x3民航客运量与铁路客运量无显著相关性。
(2)x1国民收入和y民航客运量、x2消费额、x4民航航线里程、x5来华旅游入境人数都呈现显著相关性,且都呈强的且为正的近似于直线的相关性。
(3)X2消费额和y民航客运量、x1国民收入、x4民航航线里程、x5来华旅游入境人数呈现显著相关性,且都呈强的且为正的近似于直线的相关性。且x2消费额和x1国民收入的相关性极其接近于1。
(4)x3铁路客运量与其他任何因素都没有显著相关性。
(5)x1国民收入,x2 消费额,x4 民航航线里程,x5来华旅游入境人数两两之 间都有显著相关性。