SPSS总结

时间:2024.5.8

SPSS的基本统计功能

1、数据的预处理

2、描述性统计和探索性统计

3、假设检验(包括参数检验、非参数检验等)

4、方差分析(包括一般的方差分析和多元方差分析)

5、相关分析

6、回归分析

7、多元统计分析,包括聚类分析、判别分析、因子分析、对应分析、主成分分析等

8、时间序列分析

9、信度分析

10、数据挖掘:决策树与神经网络

SPSS 统计分析的一般步骤

1、建立SPSS数据文件: 在【变量视图】定义SPSS数据文件的结构,在【数据视图】进行录入数据文件的录入。

2、SPSS数据的管理数据的预处理 : 集中于【数据】和【转换】两个菜单项。

3、SPSS数据的统计分析阶段 : 在【分析】菜单中选择正确的统计方法。

4、SPSS分析结果的阅读和解释 : 读懂SPSS输出窗口中的分析结果

5、明确其统计含义,并结合背景知识做出合理的解释。

第2章 SPSS统计分析前的准备

一、SPSS数据文件的特点

1、SPSS数据文件是一种有结构的数据文件(一般文本文件仅有纯数据部分,而没有关于结构的描述);

2、由数据的结构和内容两部分构成;

3、其中数据的结构记录数据类型、取值说明、数据缺失等必要信息(在【变量视图】,每一列大家都要明白你在定义什么,有什么用);

4、数据的内容是那些待分析的具体数据;

5、在【数据视图】每一列代表一个变量(variable),变量名显示在表格顶部;

6、在【数据视图】的每一行代表一个记录(case)(即一个案例,或称一个对象、一个观察、

一个个体) ,记录序号显示在表格的左侧;

7、 在【数据视图】可以输入和编辑数据,但是不能输入数学表达式和函数

二、定义变量

1、【数据视图】是进行数据输入、数据编辑的界面,对应的表格用于查看、录入和修改数据。

2、【变量视图】 是定义数据文件的变量的界面,对应的表格用于输入和修改变量的定义。

3、用SPSS读取其他格式的数据:

1)数据文件:*。sav 语法文件:*。sps 结果文件:*。spo 脚本文件: *。sbs

2)文件-打开-数据,可打开多种文件类型(。sav、。xls、。dbf、 。txt、。dat等)

注:要想顺利打开txt文档,txt文档最好有固定的分隔符,如一个空格或一个逗号等。

三、 数据的编辑

在SPSS中,数据文件的编辑、整理等功能被集中在了【数据】和【转换】两个菜单项中:

1、数据的增删、复制、剪切、粘贴;

2、数据的排序,Sort Cases排序便于数据的浏览,快捷找到最大值或最小值,迅速发现数据的异常值;

四、文件的拆分:文件的拆分相当于统计学中的数据分组,即将数据按一个或几个分组变量分组。

五、数据选取 :

数据选取(个案选取)的基本方式

按指定条件选取(If condition is satisfied )

随机抽样(Random sample of cases)

选取某一区域内 (Based on time or case range)

六、 个案加权:记录加权是对观测数据赋以权重,常用于频数表资料;

七、文件的合并:合并文件是指将外部数据中的记录或变量合并到当前的数据文件中去。合并数据文件包括两种方式:

从外部数据文件增加记录到当前数据文件中——纵向合并或称追加记录。

从外部数据文件增加变量到当前数据文件中——横向合并或称追加变量。

八、变量的计算和变换:【转换】-【计算变量】

九、数据的重新编码recode

统计分组

将字符型变量转换为数值型变量

将几个小类别合为一个类别

将数值型变量转换为字符型

十、 统计结果的保存为word文件:【文件】-【导出】

第3章 SPSS描述性统计

1. Frequencies(频率)过程的特色是产生频数表;功能

产生频数分布表;

绘制条形图、饼图、直方图;

计算集中趋势与离散程度、分布形状(峰度和偏度的意义)等统计量;

按要求给出分位数;

对数据的分布趋势进行初步分析

(注:对于定性变量来说,一般来说产生频数分布表,制作条形图,饼图即可);

2. 描述分析( Descriptives过程 )

适用的分析对象:定量变量,测度为scale。

功能:

调用此过程对变量进行描述性统计分析,计算均值、标准差、全距和均值标准误差等; 并可将原始数据转换成Z分数((原始值-均值)/标准差)。

3. Explore(探索)过程用于对数据概况不清时的探索性分析,定量变量;

在一般描述性统计分析的基础上,增加有关数据其他特征的文字与图形描述。

提供茎叶图、箱线图、PP图、QQ图等;

指出异常值(Outliers) ,可检查数据是否有错误,剔除异常值和错误数据;

进行点估计和区间估计,计算均值的置信区间,;

检验一组数据是否呈正态分布;

4. 列联表分析

(1)列联表分析的适用条件

对一个定量变量的描述和分析,一般用频数分析(频数分布表、饼图、直方图、条形图); 对两个定性变量的描述和分析,通常使用列联表、对应分析,或使用卡方检验; 对两个以上定性变量的描述和分析,通常使用高维列联表。

(2)期望频数的分布

如果行变量和列变量是独立的,可以计算出列联表中每个格子里的频数应该是多少,称为期望频数;

(3)列联表分析的基本思路

检验列联表中的行变量与列变量之间是否独立(或是否相关)。

原假设为行变量与列变量之间独立(或不相关)。

比较观察频数与期望频数的差。

如果两者的差越大,表明实际情况与原假设相去甚远;如果差越小,表明实际情况与原假设越相近。

对于这个假设的检验,可以采用卡方分布,进行卡方检验。

(4)列联表分析的步骤

检验列联表中的行变量与列变量之间是否独立(是否相关)

提出假设

H0:行变量与列变量独立(不相关)

H1:行变量与列变量不独立(相关

计算检验的统计量

统计决策

进行决策:P值决策

P<0。05,则拒绝原假设H0,否则,接收原假设。

(5)Pearson卡方检验的应用条件

所有单元的期望频数应该大于1,或不应有大量的期望频数小于5的单元格。

如果列联表中有20%以上的单元格中的期望频数小于5,则一般不宜用卡方检验。 Pearson卡方检验最普遍

第4章 SPSS的均值比较过程

1。 Means过程

对准备比较的各组计算描述指标,进行预分析,也可直接比较,定量变量。

(1)Means过程是专门计算各种平均数,并对平均数进行简单比较的;

(2)虽然Descriptive Statistics(描述统计)菜单项中的几个过程也能计算均数,但Means过程的输出结果是将各组的描述指标放在一起的,便于相互比较;

(3)Means过程必须设置分组变量,若没有分组变量的话,可以使用Descriptive Statistics菜单项中的几个过程。

(4)适用于测度水平为SCALE的变量。

2。 单样本T检验

(1)目的

检验某变量的总体均值与指定的检验值之间是否存在显著差异。

(2)适用条件

样本来自的总体服从正态分布

(3)基本步骤

H0: μ=μ0

H1: μ≠μ0

构造检验统计量

统计决策

如果P值<α(α一般取值为0。05),拒绝原假设;

如果P值>α,接受原假设;

3。 独立样本T 检验

(1)目的

通过比较两个样本均值差的大小来确定两个总体的均值是否相等。

(2)适用条件

独立性:两个样本相互独立,且均为大样本;

正态性:如果两个样本相互独立但都是小样本,或有一个样本是小样本,则要求总体服从正态分布;

方差齐性

(3)基本步骤

a、方差齐性F检验

原假设:两个总体方差相等;

备则假设:两个总体方差不相等;

P值<0。05 时,拒绝原假设,说明方差不齐;否则两个总体方差无显著性差异。 b、对两总体的均值提出假设

H0: μ1=μ2

H1: μ1≠μ2

c、统计决策

在SPSS中进行两独立样本t检验时,应首先对F检验作判断。如果方差相等,观察分析结果中Equal variances assumed列的t检验相伴概率值;如果方差不相等,观察Equal variances not assumed列的t检验相伴概率值。

如果P值<α,拒绝原假设;

如果P值>α,不能拒绝原假设;

4. 配对样本的T 检验

配对样本是指对同一样本的某个变量进行前后两次测试所获得的两组数据,或是对两个

完全相同的样本在不同条件下进行测试所获得的两组数据。

其差别在于抽样不是相互独立的,而是互相关联的。

(1)配对样本通常有两个特征:

第一, 两组样本的样本数相同;

第二, 两个样本记录的先后顺序一一对应,不能随意更改。

(2)适用条件

两样本数据必须两两配对

两总体服从正态分布

配对样本的录入方式是:每对数据在同一个case的两个配对的变量上

(3)检验步骤

a、提出假设

H0: μ1=μ2

H1: μ1≠μ2

b、统计决策

如果P值<α,拒绝原假设;

如果P值>α,不能拒绝原假设;

第5章 方差分析

如何对一个或两个总体的均值进行检验,我们可以用均值比较,如果要讨论多个总体均值是否相等,我们所采用的方法是方差分析。

方差分析中有以下几个重要概念。

(1)因素(Factor):是指所要研究的变量,它可能对因变量产生影响。如果方差分析只针对一个因素进行,称为单因素方差分析。如果同时针对多个因素进行,称为多因素方差分析。

(2)水平(Level):水平指因素的具体表现,如销售的四种方式就是因素的不同取值等级。

(3)单元(Cell):指因素水平之间的组合。

(4)元素(Element):指用于测量因变量的最小单位。一个单元里可以只有一个元素,也可以有多个元素。

(5)交互作用(Interaction):如果一个因素的效应大小在另一个因素不同水平下明显不同,则称两因素间存在交互作用。

1. 单因素方差分析

单因素方差分析也叫一维方差分析,它用来研究一个因素的不同水平是否对观测变量产生了显著影响,即检验由单一因素影响的一个(或几个相互独立的)因变量由因素各水平分组的均值之间的差异是否具有统计意义。

(1)适用条件

在各个水平之下观察对象是独立随机抽样,即独立性;

各个水平的因变量服从正态分布,即正态性;

各个水平下的总体具有相同的方差,即方差齐性;

(2)基本原理

SST(总的离差平方和)=SSA(组间离差平方和)+SSE(组内离差平方和)

如果在总的离差平方和中,组间离差平方和所占比例较大,说明观测变量的变动主要是由因素的不同水平引起的,可以主要由因素的变动来解释,系统性差异给观测变量带来了显

著影响;反之,如果组间离差平方和所占比例很小,说明观测变量的变动主要由随机变量因素引起的。

SPSS将自动计算检验统计量和相伴概率P值,若P<α,则拒绝原假设,认为因素的不同水平对观测变量产生显著影响;反之,接受零假设,认为因素的不同水平没有对观测变量产生显著影响。

另外,SPSS还提供了多重比较方法,多重比较是通过对总体均值之间的配对比较来进一步检验到底哪些均值之间存在差异,最常用的多重比较方法是LSD。

(3)检验步骤

a、提出假设

H0: 各个总体的均值无显著性差异。

H1: 各个总体的均值有显著性差异。

b、统计决策

方差齐性检验结果,P值>0。05,方差齐,否则,方差不齐;

单因素方差分析表,P值>α,接受H0,都则,拒绝H0,接受H1。

2. 多因素方差分析

多因素方差分析是对一个独立变量是否受一个或多个因素或变量影响而进行的方差分析。它不仅能够分析多个因素对观测变量的独立影响,更能够分析多个因素的交互作用能否对观测变量产生显著影响。

(2)基本原理

由于多因素方差分析中观察变量不仅要受到多个因素独立作用的影响,而且因素其交互作用和一些随机因素都会对变量产生影响。因此观测变量值的波动要受到多个控制变量独立作用、控制变量交互作用及随机因素等三方面的影响。以两个因素为例,可以表示为:

Q总=Q控1+Q控2+Q控1控2+Q随

其中,Q表示各部分对应的离差平方和。多因素方差分析比较

Q 控 1、 Q 控 2、 Q 控 1 控 Q 随 占 Q 总 的比例,以此推断不同因素以及因素之间的交互作用2、

是否给观测变量带来显著影响。

(3)基本术语

a、Dependent Variable 观测变量或因变量

主要指研究中的定量变量

如:移动话费、学生成绩、销售量、亩产量等

b、Fixed Factor 固定效应因素,固定因素,控制因素

主要指研究中的定性变量 如:资费等级、客户类型、漫游类型、促销策略等

c、Random Factor 随机效应因素、随机因素

人为无法对其水平值进行准确控制,只是能够直观观测到 如:话费水平、收入水平、消费习惯等

d、Interaction 交互作用、交互效应

如果一个因素的效应大小在另一个因素不同水平下明显不同,则称为两因素间存在交互作用。

当存在交互作用时,单纯研究某个因素的作用是没有意义的,必须分另一个因素的不同水平研究该因素的作用大小。例如:饮食习惯、适量运动对减肥的作用;

e、main effect

与交互效应相对应的

主效应就是每个因素对因变量的单独影响(main effect)

f、Covariates 协变量

指对应变量可能有影响,需要在分析时对其作用加以控制的连续性定量变量

当模型中存在协变量时,一般是通过找出它与因变量的回归关系来控制其影响

(3)应用条件

等方差;

各样本的独立性:只有各样本为相互独立的随机样本,才能保证变异的可加性(可分解性);

正态性:即所有观察值系从正态总体中抽样得出;

(4)基本步骤

提出假设

H0:因素A中的r个水平的均值相等(因素A 对因变量无显著性影响)

H1:因素A中的r个水平的均值不全相等(因素A 对因变量有显著性影响)

统计决断

P值检验法

依次查看各F值的P值, p-值<α,应拒绝原假设;

如果其P值大于显著性水平,则不能拒绝H0,可以认为相应不同水平的控制变量或交互影响没有造成均值的显著差异;

第6章 非参数检验

非参数检验(nonparametric test) ,又称为任意分布检验(distribution-free test);

不依赖于总体的分布类型,对样本所来自总体的分布不作严格假定的统计推断方法,称为非参数检验(nonparametric test)

它不考虑研究对象总体分布的具体形式,也不对总体参数进行统计推断;

而是通过检验样本所代表的总体分布位置及分布形状是否一致来得出统计结论。 特点

参数检验条件不满足时的处理方法

不对均数等参数检验,而是检验分布是否相同

在总体分布未知的情况下,利用样本数据对总体的分布形态进行推断。

非参数检验的着眼点不是总体参数,而是总体的分布情况

非参数检验研究目标总体的分布是否与已知理论分布相同

非参数检验研究各样本所在总体的分布位置,形状是否相同

优点

第一,具有较好的稳健性;

第二,受限条件少:对数据要求不像参数检验那样严格

第三,适用范围广:可应用于各种不同的情况,不受总体分布形状的限制,适合处理无法精确数量化的定性数据和小样本数据

第四,计算通常较简单,且容易理解

缺点

第一,将定量数据转换为定性数据时,漏失了数据的一些信息

第二,检验的敏感度和效果,均不如参数检验好。 检验效率低于参数检验,主要是犯第二

类错误的可能性加大。

第三,参数检验适用的数据,非参数方法会降低检验效能;当数据满足参数检验条件时,效能低于参数法,不满足参数法条件时,处于“优势”

非参数检验的应用场合

定量数据,不满足参数检验的条件,且无适当的变量变换方法解决此问题;

定量数据,其分布类型无法获知,且为小样本;

定量数据,极度偏态,或个别数值偏离过大;

各组离散度相差悬殊

一端或两端存在不确定数值的定量数据

定序数据,比较各组间等级强度的差别;

非参数检验的主要方法

单个样本的非参数检验

卡方检验( Chi-Square过程)

二项检验( Binomial过程)

游程检验( Runs过程)

柯尔莫哥洛夫—斯米诺夫检验(l-Sample K-S过程)

两个独立样本的非参数检验

多个独立样本的非参数检验

两个配对样本的非参数检验

多个配对样本的非参数检验

顺序统计量

通过对数据从小到大的排序(即排队),并由数据的大小排序号(排队号)代替原始数据进行统计分析。

秩(Rank) :排序号(排队号)在统计学上称为秩

结(ties):绝对值相等称为结,又称同秩,则取平均秩次。

一般来说,秩就是该组数据按照升序排列之后,每个数据的位置。

1. 单个样本的非参数检验

卡方检验( Chi-Square过程)

用卡方检验来检验定性变量的几个取值(分类数据,或类别)所占比例是否和理论的比例没有统计学差异。

检验分类变量的分布

适合于定性数据及频数资料的分析

要求样本足够大,要求样本容量一般大于50;

应用领域

如病人经治疗后治愈、好转、有效和无效的人数总的说来是否相同(实为治愈、好转、有效和无效的概率或机会是否相同)

成绩优、良、中、差的学生人数是否相同

赞同某种观点的人数是否达到80%,等等。

比如在人群中抽取了一个样本,可以用该方法来分析四种血型所占的比例是否相同(都是25%),或者是否符合我们所给出的一个比例(如分别为10%、30%、40%和20%)。 Chi-Square检验的基本思路

先按照已知总体的构成比例分布,计算出样本中定性数据(即各类别)的期望频数然后求出观测频数和期望频数的差值,最后计算出卡方统计量

利用卡方分布求出P值,假设检验的H0是样本中某指标的比例与已知比例一致 得出检验结论

2. 二项检验( Binomial过程)

检验二项分类变量分布

用于检测所给的变量是否符合二项分布,变量可以是两分类的,也可以使连续性变量,然后按你给出的分界点一刀两断。

Binomial过程对二项分类变量的单个样本作检验,推断总体中两个分类数据的比例是否分别为π和(1-π)

应用领域

射击时,击中与未击中;学生成绩,及格与不及格;疾病诊断,阴性与阳性;硬币,正面与反面;人群性别,男和女;产品质量,合格和不合格

定量数据、符号检验(SING TEST)与Binomial过程

定量数据:大样本;或小样本,总体服从正态分布,总体方差已知;

参数检验:单个样本的均值检验

定量数据,不满足参数检验的条件,且无适当的变量变换方法解决此问题;

极度偏态,或个别数值偏离过大;

一端或两端存在不确定数值

3. 游程检验( Runs过程)

Runs过程借助样本序列的顺序推断总体序列的顺序是否是随机的,属随机性检验 二分类数据和定量数据(连续数据)均可

对于一个取两个值的分类变量,游程检验方法是检验这两个值的出现是否是随机的。

游程检验还可以用于某个连续变量的取值小于某个值及大于该值的个数(类似于0和1的个数)是否随机的问题

游程检验的作用

1、检验总体分布是否相同

将从两个总体中独立抽取的两个样本的观察值混合后,观察游程个数,进行比较。

2、检验样本的随机性

将取自某一总体的样本的观察值按从小到大顺序排列,找出中位数,分为大于中位数的小于中位数的两个部分。用上下交错形成的游程个数来检验样本是否是随机的。

应用范围

生产过程是否需要调整,即不合格产品是否随机产生;

奖券的购买是否随机;

期货价格的变化是否随机等等。

若事物的发生并非随机,即有某种规律,则往往可寻找规律,建立相应模型,进行分析,作出适宜的决策。

当样本按某种顺序排列(如按抽取时间先后排列)时,一个或者一个以上相同符号连续出现的段,就被称作游程 ;

4. (l-Sample K-S过程)

柯尔莫诺夫-斯米尔诺夫检验,考察某个连续性变量是否符合理论分布

利用样本数据推断总体是否服从某种分布

可以检验的分布有正态分布、均匀分布、Poission分布和指数分布。

数据要求:定量数据,Scale

5。 独立样本的非参数检

检验两个或多个独立样本所在总体是否相同

在不了解总体分布的情况下,通过分析样本数据均值或中位数的差异,推断样本来自的两/多个独立总体的分布存在的显著性差异。

2 Independent Samples过程:主要用于检验两个独立样本所在总体分布是否相同 K Independent Samples过程:主要用于检验多个独立样本所在总体分布是否相同 界面上基本相同

(1)两个独立样本的非参数检验

含义:由样本数据,推断两个独立总体的分布是否存在显著差异(或两样本是否来自同一总体)

分析对象:定量数据或定序数据

对分布的形状不加考虑

分布形状相同或类似的两个总体分布位置比较,可以简化地理解为两总体中位数的比较 应用范围

两种训练方法中哪一种更出成绩

两种汽 油中哪一个污染更少

两种市场营销策略中那种更有效

与独立样本t检验的区别 对于定量数据,如果方差相等,且服从正态分布

两个独立样本的非参数检验的过程 定序数据;对于定量数据,不满足两个独立样本t检验的条件

曼-惠特尼U检验( Mann-Whitney U )

为检验两总体的中位数是否相等,常用Mann-Whitney U 检验,或称Wilcoxon秩和检验(Wilcoxon rank sum test) ;

这两种方法是独立提出的,检验结果完全等价的;

分析步骤

建立检验假设,确定显著性水平α :

H0:两个总体的分布位置相同,即高中生和大学生的每周平均上网时间的总体分布相同; H1:两个总体的分布位置不同,即高中生和大学生的每周平均上网时间的总体分布不同。 或: H0:M1=M2;

H1:M1>M2

2、编秩,将两组数据由小到大统一编秩,编秩时如遇有相同数据,取平均秩次。

3、 求秩和,两组秩次分别相加。

4、 确定统计量

若两组样本容量相等,则任取一组的秩和为统计量;

若两组样本容量不等,则以样本样本容量较小者对应的秩和为统计量。

5、查表确定P值,作出推断结论。

若P>α,不能拒绝原假设。

若则P<α,拒绝原假设,认为两总体的分布不相同。

(2)多独立样本非参数检验

对三个或三个以上的总体的均值是否相等进行检验,使用的方法是单因素方差分析 ; 单因素方差分析过程需要假定条件,F检验才有效;

有时候所采集的数据常常不能满足这些条件, K Independent Samples过程

K Independent Samples过程

含义:由样本数据,推断多个独立总体的分布是否存在显著差异(或多个样本是否来自同一总体)

分析对象:定量数据或定序数据

对分布的形状不加考虑

分布形状相同或类似的多个总体分布位置比较,可以简化地理解为多个总体中位数的比较。 应用范围

各城市儿童身高分布一致吗?

不同收入的居民存(取)款金额分布一致吗?

电信公司人力资源部门比较3所大学雇员的管理业绩是否存在差异?

检验方法

Kruskal-Wallis H :克鲁斯卡尔-沃利斯单因素方差分析最常用,原理同Wilcoxon检验 多个样本间的两两比较

多组独立样本;

每组5个观察值,样本量小,分布类型未知;

考虑采用秩转换的非参数检验方法——Kruskal-Wallis秩和检验。

(3)两/多个配对样本非参数检验

检验两个或多个配对样本所在总体位置是否相同

在不了解总体分布的情况下,通过分析两/多个配对样本,推断样本来自的两/多个总体的分布是否存在显著性差异。

2 Related Samples过程:主要用于检验两个配对样本所在总体分布是否相同

K Related Samples过程:主要用于检验多个配对样本所在总体分布是否相同

界面上基本相同

两个配对样本的非参数检验

含义:由样本数据推断两配对总体分布是否存在显著差异。

数据要求

两组配对的样本数据;

两组数据的样本容量相同,先后次序不能任意改变,一一对应;

统计分析步骤

提出基本假设

H0:两配对总体分布无显著差异

H1:两配对总体分布有显著差异

统计决断

P值>α,不能拒绝原假设

P值<α,拒绝原假设

多个配对样本非参数检验

含义:由样本数据推断多个配对总体分布是否存在显著差异。

数据要求:多组配对的样本数据,多组数据的样本容量相同,先后次序不能任意改变,一一对应;

应用范围

三种促销形式的销售额分布一致吗?

收集乘客对多家航空公司是否满意的数据,分析航空公司的服务水平是否存在显著差异 评委打分一致吗?

三种检验方法

Friedman M检验:最常用

Kendall W检验 :和谐系数检验

Cochran Q:要求样本数据为二分类数据(1-满意 0-不满意)

检验方法的选择

1)单个样本:若来自正态总体,可用t检验,若来自非正态总体或总体分布无法确定, 可用二项检验(二项检验)

2) 配对样本:

二分类变量,可用McNemar检验;

连续型变量,若来自正态总体,可用配对t检验,

否则可用Wilcoxon符号秩和检验。

3) 两组独立样本:连续型变量,若来自正态总体,可用t检验,否则,可用 Wilcoxon秩

和检验;

二分类变量或无序多分类变量,可用卡方检验;

有序多分类变量,宜用Wilcoxon秩和检验。

4) 多组独立样本

连续型变量值,来自正态总体且方差相等,可用方差分析;否则,进行数据变换使其满足正态性或方差齐的要求后,采用方差分析;数据变换仍不能满足条件时,可用Kruskal-Wallis秩和检验。

二分类变量或无序多分类变量,可用卡方检验。

有序多分类变量宜用Kruskal-Wallis秩和检验。

第7章 相关分析

概念

相关关系反映出变量之间虽然相互影响,具有依存关系,但彼此之间是不能一一对应的。例如,学生成绩与其智力因素、各科学习成绩之间的关系、教育投资额与经济发展水平的关系、社会环境与人民健康的关系等等,都反映出客观现象中存在的相关关系。

相关关系的类型

1)根据相关程度的不同,相关关系可分为完全相关、不完全相关和无相关。

2)根据变量值变动方向的趋势,相关关系可分为正相关和负相关。

3)根据变量关系的形态,相关关系可分为直线相关和曲线相关。

4)根据研究变量的多少,可分为单相关、复相关。

相关分析的作用

1)判断变量之间有无联系

2)确定选择相关关系的表现形式及相关分析方法

3)把握相关关系的方向与密切程度

4)相关分析不但可以描述变量之间的关系状况,而且用来进行预测。

5)相关分析还可以用来评价测量量具的信度、效度以及项目的区分度等

相关系数

相关系数是在直线相关条件下,说明两个变量之间相关程度以及相关方向的统计分析指标。相关系数一般可以通过计算得到。作为样本相关系数,常用字母r表示;作为总体相关系数,常用字母ρ表示。

相关系数的数值范围是介于–1与 +1之间(即–1≤ r ≤1),常用小数形式表示,一般要取小数点后两位数字来表示,以便比较精确地描述其相关程度。

两个变量之间的相关程度用相关系数r的绝对值表示,其绝对值越接近1,表明两个变量的相关程度越高;其绝对值越接近于0,表明两个变量相关程度越低。如果其绝对值等于零1,则表示两个变量完全直线相关。如果其绝对值为零,则表示两个变量完全不相关(不是直线相关)。

相关系数的注意事项

1)相关系数只是一个比率值,并不具备与相关变量相同的测量单位。

2)相关系数r 受变量取值区间大小及样本数目多少的影响比较大。

3)来自于不同群体且不同质的事物的相关系数不能进行比较。

4)对于不同类型的数据,计算相关系数的方法也不相同

1. 简单相关分析的基本原理

简单相关分析是研究两个变量之间关联程度的统计方法。它主要是通过计算简单相关系数来反映变量之间关系的强弱。一般它有图形(散点图)和数值(一方面应观察相关系数的大小,另一方面,应观察概率P值,其原假设为**不相关)两种表示方式。 简单相关系数

1)皮尔逊(Pearson)相关系数

常称为积差相关系数,适用于研究连续变量之间的相关程度。例如,收入和储蓄存款、身高和体重等变量间的线性相关关系。注意Pearson相关系数适用于线性相关的情形,对于曲线相关等更为复杂的情形,系数的大小并不能代表其相关性的强弱。

2)Spearman等级相关系

Spearman等级相关系数是用来度量顺序水准变量间的线性相关关系。它是利用两变量的秩次大小作线性相关分析,适用条件为:

①? 两个变量的变量值是以等级次序表示的资料;

② 一个变量的变量值是等级数据,另一个变量的变量值是等距或比率数据,且其两总体不要求是正态分布,样本容量n不一定大于30。

从斯皮尔曼等级相关适用条件中可以看出,等级相关的应用范围要比积差相关广泛,它的突出优点是对数据的总体分布、样本大小都不做要求。但缺点是计算精度不高。

3)Kendall’s等级相关系数

它是用于反映分类变量相关性的指标,适用于两个变量均为有序分类的情况。这种指标采用非参数检验方法测度变量间的相关关系。它利用变量的秩计算一致对数目和非一致对数目。

2. 偏相关分析的基本原理

方法概述

简单相关分析计算两个变量之间的相互关系,分析两个变量间线性关系的程度。但是现实中,事物之间的联系可能存在于多个主体之间,因此往往因为第三个变量的作用使得相关系数不能真实地反映两个变量间的线性相关程度。

基本原理

偏相关分析是在相关分析的基础上考虑了两个因素以外的各种作用,或者说在扣除了其他因素的作用大小以后,重新来测度这两个因素间的关联程度。这种方法的目的就在于消除其他变量关联性的传递效应。

3. 距离分析的基本原理

简单相关分析和偏相关分析有一个共同点,那就是对所分析的数据背景应当有一定程度的了解。但在实际中有时会遇到一种情况,在分析前对数据所代表的专业背景知识尚不充分,本身就属于探索性的研究。这时就需要先对各个指标或者案例的差异性、相似程度进行考察,以先对数据有一个初步了解,然后再根据结果考虑如何进行深入分析。

距离分析是对观测量之间或变量之间相似或不相似的程度的一种测度,是计算一对变量之间或一对观测量之间的广义的距离。根据变量的不同类型,可以有许多距离、相似程度测量指标供用户选择。但由于本模块只是一个预分析过程,因此距离分析并不会给出常用的P值,而只能给出各变量/记录间的距离大小,以供用户自行判断相似性。

第8章 SPSS的回归分析

1。 一元线性回归

方法概述

线性回归模型侧重考察变量之间的数量变化规律,并通过线性表达式,即线性回归方程,来描述其关系,进而确定一个或几个变量的变化对另一个变量的影响程度,为预测提供科学依据。

一般线性回归的基本步骤如下。

① 确定回归方程中的自变量和因变量。

② 从收集到的样本数据出发确定自变量和因变量之间的数学关系式,即确定回归方程。 ③ 建立回归方程,在一定统计拟合准则下,估计出模型中的各个参数,得到一个确定的回归方程。

④ 对回归方程进行各种统计检验。

⑤ 利用回归方程进行预测。

注:一元线性回归的经验模型是:Y=β0+β1X

统计检验

在求解出了回归模型的参数后,一般不能立即将结果付诸于实际问题的分析和预测,通常要进行各种统计检验,例如拟合优度检验、回归方程和回归系数的显著性检验和残差分析等。

1)输出结果的模型摘要

其实就是对方程拟合情况的描述。通过这张表可以知道相关系数的取值(R),相关系数的平方即可决系数(R Square),校正后的可决系数(adjusted R Square)和回归系数的标准误(Std。Error of the Estimate)。注意这里的相关系数大小和前面相关分析中计算出的结果完全相同。可决系数R Square的取值介于0和1之间,它的含义就是自变量所能解释的方差在总方差中所占的百分比,取值越大说明模型的效果越好。

2)输出结果中的方差分析表

它是回归模型显著性检验的结果,所用方法为F检验,其零假设为原方程无效,通过P值来判断原方程是否有效。

3)输出结果中的回归系数表

应特别关注回归系数β1 的T检验,它的零假设为β1 =0,通过P值来判断β1 是否有实际意义。

2. 多元线性回归

在回归分析中,如果有两个或两个以上的自变量,就称为多元回归。

其基本步骤与一元回归几乎一致,只是在输出结果的模型摘要中通过观察调整R2

来判断方程的拟合情况,另外,同样可通过折线图来观察模型拟合效果。

3. 曲线拟合

实际中,变量之间的关系往往不是简单的线性关系,而呈现为某种曲线或非线性的关系。此时,就要选择相应的曲线去反映实际变量的变动情况。为了决定选择的曲线类型,常用的方法是根据数据资料绘制出散点图,通过图形的变化趋势特征并结合专业知识和经验分析来确定曲线的类型,即变量之间的函数关系。

在确定了变量间的函数关系后,需要估计函数关系中的未知参数,并对拟合效果进行显著性检验。虽然这里选择的是曲线方程,在方程形式上是非线性的,但可以采用变量变换的方法将这些曲线方程转化为线性方程来估计参数。

在选择模型的时候可以结合专业知识多选几种,如同时选择“指数分布”、“逆模型”和“幂函数”,然后在模型汇总中比较R2 的大小,选择最大的一个,同时,注意观察各自的P值,其原假设为其模型无统计学意义。

4. 非线性回归分析

非线性回归分析是探讨因变量和一组自变量之间的非线性相关模型的统计方法。线性回归模型要求变量之间必须是线性关系,曲线估计只能处理能够通过变量变换化为线性关系的非线性问题,因此这些方法都有一定的局限性。相反的,非线性回归可以估计因变量和自变量之间具有任意关系的模型,用户根据自身需要可随意设定估计方程的具体形式。通过散点图观察,如果自变量和应变量不能通过线性回归或区县估计来实现,则可以在SPSS通过【分析】-【回归】-【非线性】来实现。

以下是SPSS处理问卷的总结

当我们的调查问卷在把调查数据拿回来后,我们该做的工作就是用相关的统计软件进行处理,在此,我们以SPSS为处理软件,来简要说明一下问卷的处理过程,它的过程大致可分为四个过程:定义变量﹑数据录入﹑统计分析和结果保存。下面将从这四个方面来对问卷的处理做详细的介绍。

SPSS处理:

第一步:定义变量

大多数情况下我们需要从头定义变量,在打开SPSS后,我们可以看到和excel相似的界面,在界面的左下方可以看到Data View, Variable View两个标签,只需单击左下方的Variable View标签就可以切换到变量定义界面开始定义新变量。在表格上方可以看到一个变量要设置如下几项:name(变量名)、type(变量类型)、width(变量值的宽度)、decimals(小数位) 、label(变量标签) 、Values(定义具体变量值的标签)、Missing(定义变量缺失值)、Colomns(定义显示列宽)、Align(定义显示对齐方式)、Measure(定义变量类型是连续、有序分类还是无序分类)。

我们知道在SPSS中,我们可以把一份问卷上面的每一个问题设为一个变量,这样一份问卷有多少个问题就要有多少个变量与之对应,每一个问题的答案即为变量的取值。现在我们以问卷第一个问题为例来说明变量的设置。为了便于说明,可假设此题为:

1。请问你的年龄属于下面哪一个年龄段( )?

A:20—29 B:30—39 C:40—49 D:50--59

那么我们的变量设置可如下: name即变量名为1,type即类型可根据答案的类型设置,答案我们可以用1、2、3、4来代替A、B、C、D,所以我们选择数字型的,即选

择Numeric, width宽度为4,decimals即小数位数位为0(因为答案没有小数点),label即变量标签为“年龄段查询”。Values用于定义具体变量值的标签,单击Value框右半部的省略号,会弹出变量值标签对话框,在第一个文本框里输入1,第二个输入20—29,然后单击添加即可。同样道理我们可做如下设置,即1=20—29、2=30—39、3=40—49、4=50--59;Missing,用于定义变量缺失值, 单击missing框右侧的省略号,会弹出缺失值对话框, 界面上有一列三个单选钮,默认值为最上方的“无缺失值”;第二项为“不连续缺失值”,最多可以定义3个值;最后一项为“缺失值范围加可选的一个缺失值”,在此我们不设置缺省值,所以选中第一项如图;Colomns,定义显示列宽,可自己根据实际情况设置;Align,定义显示对齐方式,有居左、居右、居中三种方式;Measure,定义变量类型是连续、有序分类还是无序分类。

以上为问卷中常见的单项选择题型的变量设置,下面将对一些特殊情况的变量设置也作一下说明。

1。开放式题型的设置:诸如你所在的省份是_____这样的填空题即为开放题,设置这些变量的时候只需要将Value 、Missing两项不设置即可。

2。多选题的变量设置:这类题型的设置有两种方法即多重二分法和多重分类法,在这里我们只对多重二分法进行介绍。这种方法的基本思想是把该题每一个选项设置成一个变量,然后将每一个选项拆分为两个选项,即选中该项和不选中该项。现在举例来说明在SPSS中的具体操作。比如如下一例:

请问您通常获取新闻的方式有哪些( )

1 报纸 2 杂志 3 电视 4 收音机 5 网络

在SPSS中设置变量时可为此题设置五个变量,假如此题为问卷第三题,那么变量名分别为3_1、3_2、3_3、3_4、3_5,然后每一个选项有两个选项选中和不选中,只需在Value一项中为每一个变量设置成1=选中此项、0=不选中此项即可。

使用该窗口,我们可以把一个问卷中的所有问题作为变量在这个窗口中一次定义。 到此,我们的定义变量的工作就基本上可以结束了。下面我们要作就是数据的录入了。首先,我们要回到数据录入窗口,这很简单,只要我们点击软件左下方的Data View标签就可以了。

第二步:数据录入

SPSS数据录入有很多方式,大致有一下几种:

1。读取SPSS格式的数据

2。读取Excel等格式的数据

3。读取文本数据(Fixed和Delimiter)

4。读取数据库格式数据(分如下两步)

(1)配置ODBC (2)在SPSS中通过ODBC和数据库进行

但是对于问卷的数据录入其实很简单,只要在SPSS的数据录入窗口中直接输入就可以了,只是在这里有几点注意的事项需要说明一下。

1。 在数据录入窗口,我们可以看到有一个表格,这个表格中的每一行代表一份问卷,我们也称为一个个案。

2。 在数据录入窗口中,我们可以看到表格上方出现了1、2、3、4、5??。的标签名,这其实是我们在第一步定义变量中,我们为问卷的每一个问题取的变量名,即1代表第一题,2代表第二题。以次类推。我们只需要在变量名下面输入对应问题的答案即可完成问卷的数据录入。比如上述年龄段查询的例题,如果问卷上勾选了A答案,我们在1下面输入1就行了(不要忘记我们通常是用1、2、3、4来代替A、B、C、D的)。

3。我们知道一行代表一份问卷,所以有几分问卷,就要有几行的数据。

在数据录入完成后,我们要做的就是我们的关键部分,即问卷的统计分析了,因为这时我们已经把问卷中的数据录入我们的软件中了。

第三步:统计分析

有了数据,可以利用SPSS的各种分析方法进行分析,但选择何种统计分析方法,即调用哪个统计分析过程,是得到正确分析结果的关键。这要根据我们的问卷调查的目的和我们想要什么样的结果来选择。SPSS有数值分析和作图分析两类方法。

1。作图分析:

在SPSS中,除了生存分析所用的生存曲线图被整合到Analyze菜单中外,其他的统计绘图功能均放置在graph菜单中。该菜单具体分为以下几部分::

(1)Gallery:相当于一个自学向导,将统计绘图功能做了简单的介绍,初学者可以通过它对SPSS的绘图能力有一个大致的了解。

(2)Interactive:交互式统计图。

(3)Map:统计地图。

(4)下方的其他菜单项是我们最为常用的普通统计图,具体来说有:

条图

散点图

线图

直方图

饼图

面积图

箱式图

正态Q-Q图

正态P-P图

质量控制图

Pareto图

自回归曲线图

高低图

交互相关图

序列图

频谱图

误差线图

作图分析简单易懂,一目了然,我们可根据需要来选择我们需要作的图形,一般来讲,我们较常用的有条图,直方图,正态图,散点图,饼图等等,具体操作很简单,大家可参阅相关书籍,作图分析更多情况下是和数值分析相结合来对试卷进行分析的,这样的效果更好。

2。数值分析:

SPSS 数值统计分析过程均在Analyze菜单中,包括:

(1)、Reports和Descriptive Statistics:又称为基本统计分析。基本统计分析是进行其他更深入的统计分析的前提,通过基本统计分析,用户可以对分析数据的总体特征有比较准确的把握,从而选择更为深入的分析方法对分析对象进行研究。Reports和Descriptive Statistics命令项中包括的功能是对单变量的描述统计分析。

Descriptive Statistics包括的统计功能有:

Frequencies(频数分析):作用:了解变量的取值分布情况

Descriptives(描述统计量分析):功能:了解数据的基本统计特征和对指定的变量值

进行标准化处理

Explore(探索分析):功能:考察数据的奇异性和分布特征

Crosstabs(交叉分析):功能:分析事物(变量)之间的相互影响和关系

Reports包括的统计功能有:

OLAP Cubes(OLAP报告摘要表):功能: 以分组变量为基础,计算各组的总计、均值和其他统计量。而输出的报告摘要则是指每个组中所包含的各种变量的统计信息。

Case Summaries(观测量列表):察看或打印所需要的变量值

Report Summaries in Row:行形式输出报告

Report Summaries in Columns:列形式输出报告

(2)、Compare Means(均值比较与检验):能否用样本均值估计总体均值?两个变量均值接近的样本是否来自均值相同的总体?换句话说,两组样本某变量均值不同,其差异是否具有统计意义?能否说明总体差异?这是各种研究工作中经常提出的问题。这就要进行均值比较。

以下是进行均值比较及检验的过程:

MEANS过程:不同水平下(不同组)的描述统计量,如男女的平均工资,各工种的平均工资。目的在于比较。术语:水平数(指分类变量的值数,如sex变量有2个值,称为有两个水平)、单元Cell(指因变量按分类变量值所分的组)、水平组合

T test 过程:对样本进行T检验的过程

单一样本的T检验:检验单个变量的均值是否与给定的常数之间存在差异。

独立样本的T检验:检验两组不相关的样本是否来自具有相同均值的总体(均值是否相同,如男女的平均收入是否相同,是否有显著性差异)

配对T检验:检验两组相关的样本是否来自具有相同均值的总体(前后比较,如训练效果,治疗效果)

one-Way ANOVA:一元(单因素)方差分析,用于检验几个(三个或三个以上)独立的组,是否来自均值相同的总体。

(3)、ANOVA Models(方差分析):方差分析是检验多组样本均值间的差异是否具有统计意义的一种方法。例如:医学界研究几种药物对某种疾病的疗效;农业研究土壤、肥料、日照时间等因素对某种农作物产量的影响;不同饲料对牲畜体重增长的效果等,都可以使用方差分析方法去解决

(4)、Correlate(相关分析):它是研究变量间密切程度的一种常用统计方法,常用的相关分析有以下几种:

1、线性相关分析:研究两个变量间线性关系的程度。用相关系数r来描述。

2、偏相关分析:它描述的是当控制了一个或几个另外的变量的影响条件下两个变量间的相关性,如控制年龄和工作经验的影响,估计工资收入与受教育水平之间的相关关系

3、相似性测度:两个或若干个变量、两个或两组观测量之间的关系有时也可以用相似性或不相似性来描述。相似性测度用大值表示很相似,而不相似性用距离或不相似性来描述,大值表示相差甚远

(5)、Regression(回归分析):功能:寻求有关联(相关)的变量之间的关系在回归过程中包括:Liner:线性回归;Curve Estimation:曲线估计;Binary Logistic:二分变量逻辑回归;Multinomial Logistic:多分变量逻辑回归;Ordinal 序回归;Probit:概率单位回归;Nonlinear:非线性回归;Weight Estimation:加权估计;2-Stage Least squares:二段最小平方法;Optimal Scaling 最优编码回归;其中最常用的为前面三个。

(6)、Nonparametric Tests(非参数检验):是指在总体不服从正态分布且分布情况不

明时,用来检验数据资料是否来自同一个总体假设的一类检验方法。由于这些方法一般不涉及总体参数故得名。

非参数检验的过程有以下几个:

1。Chi-Square test 卡方检验

2。Binomial test 二项分布检验

3。Runs test 游程检验

4。1-Sample Kolmogorov-Smirnov test 一个样本柯尔莫哥洛夫-斯米诺夫检验 5。2 independent Samples Test 两个独立样本检验

6。K independent Samples Test K个独立样本检验

7。2 related Samples Test 两个相关样本检验

8。K related Samples Test 两个相关样本检验

(7)、Data Reduction(因子分析)

(8)、Classify(聚类与判别)等等

以上就是数值统计分析Analyze菜单下几项用于分析的数值统计分析方法的简介,在我们的变量定义以及数据录入完成后,我们就可以根据我们的需要在以上几种分析方法中选择若干种对我们的问卷数据进行统计分析,来得到我们想要的结果。

第四步:结果保存

我们的SPSS软件会把我们统计分析的多有结果保存在一个窗口中即结果输出窗口(output),由于SPSS软件支持复制和粘贴功能,这样我们就可以把我们想要的结果复制﹑粘贴到我们的报告中,当然我们也可以在菜单中执行file->save来保存我们的结果,一般情况下,我们建议保存我们的数据,结果可不保存。因为只要有了数据,如果我们想要结果的,我们可以随时利用数据得到结果。

总结:

以上便是SPSS处理问卷的四个步骤,四个步骤结束后,我们需要SPSS软件做的工作基本上也就结束了,接下来的任务就是写我们的统计报告了。值得一提的是。SPSS是一款在社会统计学应用非常广泛的统计类软件,学好它将对我们以后的工作学习产生很大的意义和作用。

更多相关推荐:
ps结课心得

ps结课心得ps结课心得一PS结课心得第一次接触ps时觉得很神秘我无法忘记第一次完成作品时内心的欣喜之情霎那间产生了兴趣随着接触的深入发现ps功能的强大每节课跟着老师做案例设计都是一步步的实践原来ps并不难需要...

photoshop基础结课论文

Photoshop基础作业ps的主要功能简述专业金融0902姓名宋宇航学号310910080221位号25短短一学期的photoshop基础公选课就要结束了从自己眼中的神笔马良到老师一层一层的揭开它神秘的面纱自...

ps教学工作总结

12级商务3班《图形图像处理》项目教学工作总结一学期很快就要过去,回顾本学期的教学工作,感到很辛苦,同时也感到很欣慰。因为我的学生在结束本学期课程后,基本都达到了教学大纲的要求,部分优秀的学生甚至能开始独立完成…

PS课程总结)

Photoshop图像处理课程总结20xx年又上了以前曾多次上过的PS课程,经过长时间的教学,我总结了几个经验与其他老师共享:1.上好第一节课,调动和激发学生学习热情和积极性。我认为上好Photoshop第一课…

Photoshop课程学习小结

塔里木大学公共选修课Photoshop图形图像处理技术明月制作设计说明书学生姓名学号5011210130所属学院信息工程学院专业计算机科学与技术班级计算机141指导教师明月制作步骤1新建一个文件参数如下2选择工...

Photoshop教学总结

Photoshop教学总结四川省叙永县职业高级中学校马小荣作为平面设计领域的龙头软件Photoshop已经越来越普及了很多职业院校都开设了这门课程我们学校最后这两届电脑班也开设了平面设计及动画等相关专业的课程正...

ps课程实践总结

实习类型实习单位实习起止时间指导教师所在院(系)专业班级学生姓名学号一、实习的基本概况(一)理论指导Photoshop主要处理以像素所构成的数字图像。使用其众多的编修与绘图工具,可以更有效的进行图片编辑工作。1…

20xxps教学工作总结

教学工作总结本学期担任电商专业6个班级的PS课程的教学工作开学初刚拿到这本教材时我很紧张担心教不好这门课程对于初学者是有一定难度的再加上自己也不是特别熟悉教材种种焦虑不管怎样任务安排下来了我就得尽自己最大的努力...

photoshop情景教学总结

创意设计教学设计一教学目标一知识与技能1掌握图层和文字工具的使用2学会利用图层透明度和图层样式来制作特殊效果增强艺术性3进一步熟悉photoshop的基本操作二过程与方法充分利用多媒体网络机房的优势首先由教师展...

Photoshop 校本课程教学总结

Photoshop校本课程教学总结本学期根据学校校本课程教学计划在教师发展中心领导的指导下我对Photoshop校本课程进行了积极的探索与实践经过一学期的校本课程教学实践总结如下1加强学习转变观念首先利用教研时...

Photoshop图层蒙版的应用教学经验总结(沈国军)

论文题目作者姓名工作单位Photoshop图层蒙版的应用教学个人经验总结1Photoshop图层蒙版的应用教学个人经验总结摘要本文主要根据笔者对PS软件的教学进行的总结从无痕拼接图像调整局部图像及去斑磨皮的使用...

Ps学习总结B篇(一寸照的制作以及色彩知识)

一一寸照片制作先建立国际标准纸张A4文档把照片拖入视图中对齐参考线拉水平和竖直两条参考线给人物照片添加图层样式描边位置内部颜色白色按住Alt键拖动人物照片即可实现复制一变二二变四一横排排满8张选中图层右击合并图...

ps结课总结(22篇)