SPSS的基本统计功能
1、数据的预处理 2、描述性统计和探索性统计3、假设检验(包括参数检验、非参数检验等)4、方差分析(包括一般的方差分析和多元方差分析)5、相关分析6、回归分析7、多元统计分析,包括聚类分析、判别分析、因子分析、对应分析、主成分分析等8、时间序列分析9、信度分析10、数据挖掘:决策树与神经网络
SPSS主要菜单说明
SPSS 统计分析的一般步骤
1、建立SPSS数据文件: 定义SPSS数据文件的结构 录入、保存SPSS数据文件
2、SPSS数据的管理数据的预处理 : 集中于Data和Transform两个菜单项
3、SPSS数据的统计分析阶段 : 在Analyze菜单中选择正确的统计方法
4、SPSS分析结果的阅读和解释 : 读懂SPSS输出窗口中的分析结果
5、明确其统计含义,并结合背景知识做出合理的解释。
第二章 SPSS数据文件的建立
SPSS数据文件的特点
SPSS数据文件是一种有结构的数据文件
由数据的结构和内容两部分构成;
其中数据的结构记录数据类型、取值说明、数据缺失等必要信息;
数据的内容是那些待分析的具体数据。
一般文本文件仅有纯数据部分,而没有关于结构的描述。
在数据编辑器的Data View窗口中是个二维表格;
每一列代表一个变量(variable),变量名显示在表格顶部;
数据文件的每一行代表一个记录(case)(即一个案例,或称一个对象、一个观察、一个个体) ,记录序号显示在表格的左侧;
行列的交叉处为单元格(cell),每个单元格存储着某一特定记录的特定变量的具体数值,又称数据。
可以输入和编辑数据,但是不能输入数学表达式和函数
一、定义变量
“Data View”是进行数据输入、数据编辑的界面,对应的表格用于查看、录入和修改数据。
“Variable View” 是定义数据文件的变量的界面,对应的表格用于输入和修改变量的定义。
在“Variable View”窗口的每一行表示一个变量的定义信息,
用SPSS读取其他格式的数据
数据文件:*.sav 语法文件:*.sps 结果文件:*.spo 脚本文件: *.sbs
File→Open→Data,可打开多种文件类型(.sav、.xls、.dbf、 .txt、.dat等)
选择数据文件类型(.sav),并输入数据文件名称
第3章 数据的预处理
一 数据的编辑
在SPSS中,数据文件的编辑、整理等功能被集中在了Data和Transform两个菜单项中
1、数据的增删、复制、剪切、粘贴2、数据的排序,Sort Cases排序便于数据的浏览,快捷找到最大值或最小值,迅速发现数据的异常值。3、数据的搜索,Go to Case或Find
二、文件的拆分 Split Files文件的拆分相当于统计学中的数据分组,即将数据按一个或几个分组变量分组。
三、数据选取Select Cases
数据选取(个案选取)的基本方式
按指定条件选取(If condition is satisfied )
随机抽样(Random sample of cases)
选取某一区域内 (Based on time or case range)
四、记录加权Weight Cases记录加权是对观测数据赋以权重,常用于频数表资料;
五、文件的合并Merge合并文件是指将外部数据中的记录或变量合并到当前的数据文件中去。合并数据文件包括两种方式:
从外部数据文件增加记录到当前数据文件中——纵向合并或称追加记录。
从外部数据文件增加变量到当前数据文件中——横向合并或称追加变量。
六、计算Compute主要的变量变换:对数变换 平方根变换
七、数据的重新编码recode
统计分组
将字符型变量转换为数值型变量
将几个小类别合为一个类别
将数值型变量转换为字符型
八、数据文件格式的转换
第4章 SPSS基本统计分析
Frequencies过程的特色是产生频数表;功能
产生频数分布表;
绘制条形图、饼图、直方图;
计算集中趋势与离散程度、分布形状等统计量;
按要求给出分位数;
对数据的分布趋势进行初步分析
二适用范围 对于定性(定类、定序)变量
产生频数分布表,制作条形图,饼图;对于连续变量(或定量变量)
产生详细的频数分布表,即按照数值精确列表;
计算数据的集中趋势、离散程度及分布形状;
提供直方图;
操作步骤
定义价格的变量名为X,然后输入原始数据。
选择Analyze→Descriptive Statistics→Frequencies,弹出Frequencies主对话框。
在对话框左侧的变量列表中选X,单击按钮使之进入Variable(s)列表框,并选择Display frequency tables显示频数分布表。
单击[Statistics...]按钮,弹出Frequencies:Statistics子对话框,并单击相应项目。
单击Charts钮,用于设定所做的统计图。弹出[Frequencies:Charts]子对话框。
Descriptives过程进行一般性的统计描述,定量变量;
描述分析( Descriptives过程 )
进行一般性的统计描述,适用于正态分布的数据 。
适用的分析对象:
定量或连续变量,测度为scale。
功能:
调用此过程对变量进行描述性统计分析,计算均值、标准差、全距和均值标准误差等;
并可将原始数据转换成Z分数。
Explore过程用于对数据概况不清时的探索性分析,定量变量;
在一般描述性统计分析的基础上,增加有关数据其他特征的文字与图形描述。
提供茎叶图、箱线图、PP图、QQ图等;
指出异常值(Outliers) ,可检查数据是否有错误,剔除异常值和错误数据;
进行点估计和区间估计,计算均值的置信区间,;
检验一组数据是否呈正态分布;
进行等方差检验(方差齐次性检验)。
探索性分析的操作步骤 定义价格的变量名为X,并输入原始数据。
选择[Analyze]→[Descriptive Statistics]→[Explore...],打开[Explore]主对话框。
在主对话框左边列表中选定变量X,单击按钮使之进入[Dependent List]列表框。
单击[Plot...]按钮,打开[Explore:Plot]子对话框
在[Boxplot]栏内选[Factor levels together]项要求按组别进行箱图绘制;
在[Descriptive]栏内选[Stem-and-leaf]项要求作茎叶图描述
单击[Continue]按钮返回[Explore]主对话框。
Means过程对准备比较的各组计算描述指标,进行预分析,也可直接比较,定量变量。
Means过程是专门计算各种平均数,并对平均数进行简单比较的;
虽然Descriptive Statistics菜单项中的几个过程也能计算均数,但Means过程的输出结果是将各组的描述指标放在一起的,便于相互比较。
Means过程必须设置分组变量,若没有分组变量的话,可以使用Descriptive Statistics菜单项中的几个过程。
适用于测度水平为SCALE的变量。
Multiple Response对调查问卷的多选题进行描述性统计分析多选项二分法将每个答案作为一个SPSS变量,每个变量只有两个取值(0或1)。
变量的取值有两个,分别表示选中或没选中。
这种方法的缺点是需要的变量数比较多。比如一道题目有6个选项,则一道多选题目就需要用6个变量来表示。
好处是比较简单。
2.多选项分类法
估计多选项问题最多可能出现的答案个数,为每个答案设置为一个SPSS变量,变量取值为多选项问题中的可选答案。
比如一个多选题,如果最多有3个答案,那么就设置3个SPSS变量,分别用来存放3个可能的答案。如果某个案的答案只有两个,那么第3个SPSS变量取值为缺失值。
3、定义多选项变量集的基本操作
菜单选项:analyze->multiple response->define sets
从原变量中选取被分解的变量(数值型)到variables in sets框
指定被分解的变量是按多选项二分法(dichotomies)分解还是按多选项分类法(categories)分解的.
为变量集命名。系统自动在名字前加字符$.
第5章 列联表分析和对应分析
1、定性变量与卡方检验
对一个定性变量的描述和分析,一般用频数分析(频数分布表、饼图、帕累托图、条形图)
对两个定性变量的描述和分析,通常使用列联表、对应分析,或使用???检验
对两个以上定性变量的描述和分析,通常使用高维列联表、多元对应分析
二、列联表
由两个以上的定性变量交叉分类的频数分布表;
行变量的类别用 r 表示, ri 表示第 i 个类别
列变量的类别用 c 表示, cj 表示第 j 个类别
每种组合的观察频数用 fij 表示
表中行变量和列变量的所有可能的组合,所以称为列联表;
一个 r 行 c 列的列联表称为 r ? c 列联表;
反映多个定性变量的分布情况,用于分析定性变量之间的相互影响;
三、列联表的分布
1、列联表观察频数的分布
对于两个定性变量,抽样得到的两组定性变量,用一个表格的形式来表示它们的分布(频数和百分数),这里的频数叫观察频数。
观察频数用fij 表示;
行边缘分布:行观察值的合计数的分布;
列边缘分布:列观察值的合计数的分布;
条件分布与条件频数
变量 X 条件下变量 Y 的分布,或在变量 Y 条件下变量 X 的分布
每个具体的观察值称为条件频数
2、期望频数的分布
如果行变量和列变量是独立的,可以计算出列联表中每个格子里的频数应该是多少,称为期望频数;
期望频数用eij 表示
四、列联表分析的基本思路
检验列联表中的行变量与列变量之间是否独立(或是否相关)。
原假设为行变量与列变量之间独立(或不相关)。
比较观察频数与期望频数的差。
如果两者的差越大,表明实际情况与原假设相去甚远;如果差越小,表明实际情况与原假设越相近。
对于这个假设的检验,可以采用卡方分布,进行卡方检验。
自由度与卡方分布
在不同的自由度下,卡方分布的形状有所不同;
当自由度小时,分布呈现正偏态不对称分布;
当自由度越大,分布逐渐形成正态分布;
卡方值的意义
卡方值反映了实际频数和理论频数的吻合程度。
卡方值越小,说明实际频数与理论频数越吻合,不能拒绝原假设。
卡方值越大,说明实际频数与理论频数差异越大,拒绝原假设。
列联表分析的原理
其原理是根据这一概率定理:
若两变量不相关,则两变量中联合事件发生的概率应等于各自独立发生的概率乘积。
在列联表中,这一定理就具体转化为:若两变量无关,则两变量中条件概率应等于各自边缘的概率乘积。
反之,则两变量相关,或者两变量不独立。
五、列联表分析的步骤
检验列联表中的行变量与列变量之间是否独立(是否相关)
提出假设
H0:行变量与列变量独立(不相关)
H1:行变量与列变量不独立(相关
计算检验的统计量
统计决策
进行决策:P值决策
P=P( )
六、列联表分析的适用条件
列联表分析的应用条件
变量与列变量的测度水平均为Nominal或Ordinal行,即两个变量均为定性变量。
有效例数(N of valid cases)>40
Pearson卡方检验的应用条件
所有单元的期望频数应该大于1,或不应有大量的期望频数小于5的单元格。
如果列联表中有20%以上的单元格中的期望频数小于5,则一般不宜用卡方检验。
Pearson卡方检验最普遍
第2节 对应分析
对应分析(correspondence analysis)是指对两个定性变量的多个取值之间的对应性进行研究的一种统计方法。
二、对应分析的应用条件
两个分类变量或定序变量;
分类变量或定序变量的取值均应多于3个
行变量与列变量不独立或相关;
行列变量构成的列联表中不能有0值或负数
样本量:对极端值敏感,分析时有必要去除频数过少的单元格,对于小样本不推荐使用
如何分析对应分析图
考察同一变量的区分度:首先分别考察行变量、列变量各类别间是否被清晰的分开了,可以分别检查在各个维度上的区分情况。
如果同一变量不同类别在某个方向上靠得较近,则说明这些类别在该维度上区别不大。
考察不同变量的类别联系:这才是对应分析所真正关心的问题!
一般而言,落在从图形原点(0,0)处出发相同方位上大致相同区域内的不同变量的分类点彼此有联系。
散点间距离越近,说明关联倾向越明显;散点离原点越远,也说明关联倾向越明显。
小结
在列联表中,如果行变量和列变量相互独立,则每个单元格中观测到的频数与其期望频数应该比较接近,否则说明原假设是不成立的。基于这种思想可以构造检验统计量进行假设检验。
对应分析是一种描述性、探索性的变量分析方法,也是一种变量降维技术。可以在同一个空间中用图形方法显示行变量和列变量类别之间的关系。
第6章 SPSS的参数检验
单样本T检验的目的
检验某变量的总体均值与指定的检验值之间是否存在显著差异。
单样本T检验的要求
样本来自的总体服从正态分布
单样本T检验的基本步骤
H0: μ=μ0
H1: μ≠μ0
构造检验统计量
统计决策
如果P值<α,拒绝原假设;
如果P值>α,不能拒绝原假设;
例5.1:
对“休闲调查” 中的“住房面积”变量进行单个样本的T 检验。问城市居民的户均住房面积为38 平方米。
H0: μ=38
H1: μ≠38
具体操作步骤
打开数据文件“休闲调查”。
选择Analyze→Compare Means→One Sample T Test,打开T 检验对话框。
从左侧源变量窗口中选择“住房面积”,使之进入到Test Variable(S)窗口。
确定待检参数,在Test Value 窗口中输入38。
Test Value 窗口中输入的数据是待检的总体均值,也就是μ0。
单击Options 按钮,打开选项对话框,确定置信度和缺失值的处理方法。
单击Continue 按钮,返回单个样本T 检验对话框。
单击OK 提交运行。
t值= -5.484 , P值远远小于0.05,拒绝原假设。
即样本数据分析表明,城市居民的户均住房面积不等于38 平方米。
第2节 独立样本T 检验
目的:
通过比较两个样本均值差的大小来确定两个总体的均值是否相等。
条件:
均值是对于检验有意义的描述统计量 ;
独立性:两个样本相互独立,且均为大样本;
正态性:如果两个样本相互独立但都是小样本,或有一个样本是小样本,则要求总体服从正态分布;
方差齐性
三、独立样本T检验的检验步骤
1、方差齐性检验
原假设:两个总体方差相等;
备则假设:两个总体方差不相等;
P值<0.05 时,拒绝原假设,说明方差不齐;否则两个总体方差无显著性差异。
2、H0: μ1=μ2
H1: μ1≠μ2
3、统计决策
如果P值<α,拒绝原假设;
如果P值>α,不能拒绝原假设;
第3节 配对样本的T 检验
配对样本是指对同一样本的某个变量进行前后两次测试所获得的两组数据,或是对两个完全相同的样本在不同条件下进行测试所获得的两组数据。
其差别在于抽样不是相互独立的,而是互相关联的.
配对样本通常有两个特征:
第一,两组样本的样本数相同;
第二.两个样本记录的先后顺序一一对应.不能随意更改。
三、配对样本T检验的要求
两样本数据必须两两配对
两总体服从正态分布
配对样本的输入方式是:每对数据在同一个case的两个配对的变量上
四、检验步骤
1、H0: μ1=μ2
H1: μ1≠μ2
2、统计决策
如果P值<α,拒绝原假设;
如果P值>α,不能拒绝原假设;
第8章 非参数检验
非参数检验(nonparametric test) ,又称为任意分布检验(distribution-free test);
不依赖于总体的分布类型,对样本所来自总体的分布不作严格假定的统计推断方法,称为非参数检验(nonparametric test)
它不考虑研究对象总体分布的具体形式,也不对总体参数进行统计推断;
而是通过检验样本所代表的总体分布位置及分布形状是否一致来得出统计结论。
特点
参数法条件不满足时的处理方法
不对均数等参数检验,而是检验分布是否相同
在总体分布未知的情况下,利用样本数据对总体的分布形态进行推断。
非参数检验的着眼点不是总体参数,而是总体的分布情况
非参数检验研究目标总体的分布是否与已知理论分布相同
非参数检验研究各样本所在总体的分布位置,形状是否相同
优点
第一,具有较好的稳健性;
第二,受限条件少:对数据要求不像参数检验那样严格
第三,适用范围广:可应用于各种不同的情况,不受总体分布形状的限制,适合处理无法精确数量化的定性数据和小样本数据
第四,计算通常较简单,且容易理解
缺点
第一,将定量数据转换为定性数据时,漏失了数据的一些信息
第二,检验的敏感度和效果,均不如参数检验好。 检验效率低于参数检验,主要是犯第二类错误的可能性加大。
第三,参数检验适用的数据,非参数方法会降低检验效能;当数据满足参数法条件时,效能低于参数法,不满足参数法条件时,处于“优势”
三、非参数检验的应用场合
定量数据,不满足参数检验的条件,且无适当的变量变换方法解决此问题;
定量数据,其分布类型无法获知,且为小样本;
定量数据,极度偏态,或个别数值偏离过大;
各组离散度相差悬殊
一端或两端存在不确定数值的定量数据
大于5年
<0.001
1:1024以上
定序数据,比较各组间等级强度的差别;
四、非参数检验的主要方法
单个样本的非参数检验
卡方检验( Chi-Square过程)
二项检验( Binomial过程)
游程检验( Runs过程)
柯尔莫哥洛夫—斯米诺夫检验(l-Sample K-S过程)
两个独立样本的非参数检验
多个独立样本的非参数检验
两个配对样本的非参数检验
多个配对样本的非参数检验
顺序统计量
通过对数据从小到大的排序(即排队),并由数据的大小排序号(排队号)代替原始数据进行统计分析。
秩(Rank) :排序号(排队号)在统计学上称为秩
结(ties):绝对值相等称为结,又称同秩,则取平均秩次。
一般来说,秩就是该组数据按照升序排列之后,每个数据的位置。
第2节 单个样本的非参数检验
卡方检验( Chi-Square过程)
用卡方检验来检验定性变量的几个取值(分类数据,或类别)所占比例是否和理论的比例没有统计学差异。
检验分类变量的分布
适合于定性数据及频数资料的分析
要求样本足够大,要求样本容量一般大于50;
应用领域
如病人经治疗后治愈、好转、有效和无效的人数总的说来是否相同(实为治愈、好转、有效和无效的概率或机会是否相同)
成绩优、良、中、差的学生人数是否相同
赞同某种观点的人数是否达到80%,等等。
比如在人群中抽取了一个样本,可以用该方法来分析四种血型所占的比例是否相同(都是25%),或者是否符合我们所给出的一个比例(如分别为10%、30%、40%和20%)。
一)Chi-Square检验的基本思路
先按照已知总体的构成比例分布,计算出样本中定性数据(即各类别)的期望频数
然后求出观测频数和期望频数的差值,最后计算出卡方统计量
利用卡方分布求出P值,
得出检验结论
(二)检验步骤
1.建立假设
2、如果原假设成立,计算期望频数:
ei=npi
例题
Scott公司进行了一项市场份额的研究。
在过去的一年里,公司A的市场份额稳定在30%,公司B在50%,公司C在20%。
最近公司C开发了一种“新型”产品并取代了当前市场的产品。Scott受雇于公司C,为它判断新产品是否使市场份额发生了改变。
Scott公司通过问卷调查了一组200名的顾客群体,询问他们对公司A、B、C的购买偏好,结果48人选择A,98人选择了B,54人选择了C。
根据这些数据,Scott公司需要判断市场份额是否已经发生了变化。你如何解决该类问题?
H0: π1=0.30,π2=0.50,π3=0.20 ;
H1:比例已经发生改变
具体步骤课件上有图
结论:n=200,卡方值为7.34,p=0.025,拒绝原假设。
根据样本信息,市场份额是否已经发生了变化。
二项检验( Binomial过程)
检验二项分类变量分布
用于检测所给的变量是否符合二项分布,变量可以是两分类的,也可以使连续性变量,然后按你给出的分界点一刀两断。
Binomial过程对二项分类变量的单个样本作检验,推断总体中两个分类数据的比例是否分别为π和(1-π)
1、应用领域
射击时,击中与未击中;学生成绩,及格与不及格;疾病诊断,阴性与阳性;硬币,正面与反面;人群性别,男和女;产品质量,合格和不合格
二)定量数据、符号检验(SING TEST)与Binomial过程
定量数据:大样本;或小样本,总体服从正态分布,总体方差已知;
参数检验:单个样本的均值检验
定量数据,不满足参数检验的条件,且无适当的变量变换方法解决此问题;
极度偏态,或个别数值偏离过大;
一端或两端存在不确定数值
大于5年
<0.001
1:1024以上
用总体中位数M来表示中间位置。
1、单个样本中位数检验
为了判断一个样本是否来自某已知中位数的总体
即样本所在总体的中位数是否等于某一已知总体的中位数,就需要进行样本中位数与总体中位数的差异显著性检验。
2、符号检验(SING TEST)与单个样本中位数检验
用总体中位数M来表示中间位置,就意味着一组样本数据x1,x2,….,xn,取大于M的的概率应该与取小于M的概率相等。
所研究的问题,可以看作是只有两种可能“成功”或“失败”。
成功为“+”,即大于中位数M;失败为“-”,即小于中位数M。
3、符号检验(SING TEST)与Binomial过程
令S+=得正符号的数目,S-=得负符号得数目
可以知道S+或S- 均服从二项分布B(n,0.5)。
则S+和S-可以用来作检验的统计量
符号检验(SING TEST)是利用正号和负号的数目某假设做出判定的非参数方法
游程检验( Runs过程)
Runs过程借助样本序列的顺序推断总体序列的顺序是否是随机的,属随机性检验
二分类数据和定量数据(连续数据)均可
对于一个取两个值的分类变量,游程检验方法是检验这两个值的出现是否是随机的。
游程检验还可以用于某个连续变量的取值小于某个值及大于该值的个数(类似于0和1的个数)是否随机的问题
游程检验的作用
1、检验总体分布是否相同
将从两个总体中独立抽取的两个样本的观察值混合后,观察游程个数,进行比较。
2、检验样本的随机性
将取自某一总体的样本的观察值按从小到大顺序排列,找出中位数,分为大于中位数的小于中位数的两个部分。用上下交错形成的游程个数来检验样本是否是随机的。
应用范围
生产过程是否需要调整,即不合格产品是否随机产生;
奖券的购买是否随机;
期货价格的变化是否随机等等。
若事物的发生并非随机,即有某种规律,则往往可寻找规律,建立相应模型,进行分析,作出适宜的决策。
当样本按某种顺序排列(如按抽取时间先后排列)时,一个或者一个以上相同符号连续出现的段,就被称作游程;
柯尔莫哥洛夫—斯米诺夫检验(l-Sample K-S过程)
柯尔莫诺夫-斯米尔诺夫检验,考察某个连续性变量是否符合理论分布
利用样本数据推断总体是否服从某种分布
可以检验的分布有正态分布、均匀分布、Poission分布和指数分布。
数据要求:定量数据,Scale
第3节 独立样本的非参数检
检验两个或多个独立样本所在总体是否相同
在不了解总体分布的情况下,通过分析样本数据均值或中位数的差异,推断样本来自的两/多个独立总体的分布存在的显著性差异。
2 Independent Samples过程:主要用于检验两个独立样本所在总体分布是否相同
K Independent Samples过程:主要用于检验多个独立样本所在总体分布是否相同
界面上基本相同
一、两个独立样本的非参数检验
2 Independent Samples过程
含义:由样本数据,推断两个独立总体的分布是否存在显著差异(或两样本是否来自同一总体)
分析对象:定量数据或定序数据
对分布的形状不加考虑
分布形状相同或类似的两个总体分布位置比较,可以简化地理解为两总体中位数的比较
(一)应用范围
两种训练方法中哪一种更出成绩
两种汽 油中哪一个污染更少
两种市场营销策略中那种更有效
1、与独立样本t检验的区别 对于定量数据,如果方差相等,且服从正态分布
2、 2 Independent Samples过程 定序数据;对于定量数据,不满足两个独立样本t检验的条件
(二)四种检验方法与基本思想
1、曼-惠特尼U检验( Mann-Whitney U )
为检验两总体的中位数是否相等,常用Mann-Whitney U 检验,或称Wilcoxon秩和检验(Wilcoxon rank sum test) ;
这两种方法是独立提出的,检验结果完全等价的;
分析步骤
1、建立检验假设,确定显著性水平α :
H0:两个总体的分布位置相同,即高中生和大学生的每周平均上网时间的总体分布相同;
H1:两个总体的分布位置不同,即高中生和大学生的每周平均上网时间的总体分布不同。
或: H0:M1=M2;
H1:M1>M2
2、编秩,将两组数据由小到大统一编秩,编秩时如遇有相同数据,取平均秩次。
3、 求秩和,两组秩次分别相加。
4、 确定统计量
若两组样本容量相等,则任取一组的秩和为统计量;
若两组样本容量不等,则以样本样本容量较小者对应的秩和为统计量。
5、查表确定P值,作出推断结论。
TL<T<TU,则P>α,不能拒绝原假设。
T≤ TL 或T≥ TU,则P<α,拒绝原假设,认为两总体的分布不相同。
2、沃尔德-沃尔佛威茨游程检验
在两独立样本的游程检验中,计算游程的方法与观察值的秩有关。
将两组样本混合并按升序排序。
在数据排序的同时,两组样本的每个数据对应的样本组别序列也随之重新排序;
同样本的数据在一起的为一个游程;
可以由游程个数R,看出两个样本在排序中是否随机出现。
如果样本来自的两个总体的分布形态存在较大的差距,那么计算出的游程数会相对较小。
如果游程数比较大,则应该是由于两样本数据充分混合的结果,那么它们的分布应该不存在显著差异。
统计分析步骤
第一步:建立检验假设,确定显著性水平(α)
H0:两总体分布位置相同;
H1:两总体分布位置不同。
α取0.05
第二步:混合编秩
将两样本数据混合,按数据由小到大编秩;
第三步:求游程数
游程的总数目R
第四步:确定检验统计量及相应的P值
U=游程的总数目R
当m+n=N<20时,与单样本游程检验相同,在附表,依据m、n及U查找相应的P值。
若m+n=N>20,则U的抽样分布近似正态分布,计算Z,查标准正态分布表找到相应的P值。
SPSS自动计算出游程数R
第五步:做出结论
指出 m,n,R,Z值
P值>α,不能拒绝原假设
P值<α, 拒绝原假设
3、柯尔莫哥洛夫-斯米尔诺夫检验(Kolmogorov-Smirnov Z)
将两样本混合并按升序排序
分别计算两个样本秩的累计频数和累计频率
两个累计频率相减
如果差距较小,则认为两总体分布无显著差异
应保证有较大的样本数(大于40)
二、多独立样本非参数检验
对三个或三个以上的总体的均值是否相等进行检验,使用的方法是单因素方差分析 ;
单因素方差分析过程需要假定条件,F检验才有效;
有时候所采集的数据常常不能满足这些条件, K Independent Samples过程
1、K Independent Samples过程
含义:由样本数据,推断多个独立总体的分布是否存在显著差异(或多个样本是否来自同一总体)
分析对象:定量数据或定序数据
对分布的形状不加考虑
分布形状相同或类似的多个总体分布位置比较,可以简化地理解为多个总体中位数的比较。
2 应用范围
各城市儿童身高分布一致吗?
不同收入的居民存(取)款金额分布一致吗?
电信公司人力资源部门比较3所大学雇员的管理业绩是否存在差异?Npara3.sav
3、三种检验方法
Kruskal-Wallis H :克鲁斯卡尔-沃利斯单因素方差分析最常用,原理同Wilcoxon检验
Median:中位数检验,统计效能较低
Jonckheere-Terpstra:适用于连续性或有序分类数据,有序分类时统计效能高于Kruskal-Wallis H
Kruskal-Wallis H检验用于推断多个独立样本所来自总体的分布位置是否有差别。
假定有k个总体。先把从这个k个总体来的样本混合起来排序,记各个样本观测值的秩之和为Ri,i=1,…,k。
对多个样本的秩,分别求平均秩序
如果各样本的平均秩大致相等,则认为多个总体分布无显著差异
多个样本间的两两比较
多组独立样本;
每组5个观察值,样本量小,分布类型未知;
考虑采用秩转换的非参数检验方法——Kruskal-Wallis秩和检验。
第3节 两/多个配对样本非参数检验
检验两个或多个配对样本所在总体位置是否相同
在不了解总体分布的情况下,通过分析两/多个配对样本,推断样本来自的两/多个总体的分布是否存在显著性差异。
2 Related Samples过程:主要用于检验两个配对样本所在总体分布是否相同
K Related Samples过程:主要用于检验多个配对样本所在总体分布是否相同
界面上基本相同
一、两个配对样本的非参数检验
含义:由样本数据推断两配对总体分布是否存在显著差异.
2 Related Samples过程
数据要求:两组配对的样本数据.
两组数据的样本容量相同,先后次序不能任意改变,一一对应;
与参数检验类似
先求出配对数据的差值
检验配对数据的差值总体的中心位置是否为0
统计分析步骤
第一步:提出基本假设
H0:两配对总体分布无显著差异,或差值的总体中位数 Md=0
H1:两配对总体分布有显著差异,或差值的总体中位数 Md≠ 0
第二步,计算差值,编秩,并分别计算正负号秩总和,W+,W-
第三步,计算检验统计量,确定P值
小样本时,有效差值个数n≤50时 检验统计量W=min{W+,W-},服从Wilcoxon符号秩分布;
大样本时,采用正态近似法,构造Z检验
第四步,统计结论 指出 n,W,Z值
P值>α,不能拒绝原假设
P值<α, 拒绝原假设
二、多个配对样本非参数检验
含义:由样本数据推断多个配对总体分布是否存在显著差异.
k Related Samples过程
数据要求:多组配对的样本数据. 多组数据的样本容量相同,先后次序不能任意改变,一一对应;
应用范围
三种促销形式的销售额分布一致吗?
收集乘客对多家航空公司是否满意的数据,分析航空公司的服务水平是否存在显著差异
评委打分一致吗?
1、三种检验方法
Friedman M检验:最常用
Kendall W检验 :和谐系数检验
Cochran Q:要求样本数据为二分类数据(1-满意 0-不满意)
检验方法的选择
1)单个样本 若来自正态总体,可用t检验,若来自非正态总体或总体分布无法确定,
可用二项检验(二项检验)
(2)配对样本
二分类变量,可用McNemar检验;
连续型变量,若来自正态总体,可用配对t检验,
否则可用Wilcoxon符号秩和检验。
(3)两组独立样本 连续型变量,若来自正态总体,可用t检验,否则,可用 Wilcoxon秩和检验;
二分类变量或无序多分类变量,可用x2检验;
有序多分类变量,宜用Wilcoxon秩和检验。
(4)多组独立样本
连续型变量值,来自正态总体且方差相等,
可用方差分析;否则,进行数据变换使其满足
正态性或方差齐的要求后,采用方差分析;数
据变换仍不能满足条件时,可用Kruskal-Wallis
秩和检验。
二分类变量或无序多分类变量,可用x2检验。
有序多分类变量宜用Kruskal-Wallis秩和检验。
多因素方差分析
多因素方差分析的功能
考虑两个以上的因素和它们的交互作用对一个观测变量(或因变量)的影响
检验在不同控制变量的不同交叉水平下,各交叉分组下样本数据所代表的总体均值,有无显著差异, 进而判断多个因素是否对观测变量产生了显著影响
多因素方差分析不仅可以检验各个因素对因变量作用的显著性,而且还可以检验因素与因素间共同结合对因变量发生交互作用的显著性。
多因素方差分析的基本术语
1、Dependent Variable 观测变量或因变量
主要指研究中的定量变量
如:移动话费、学生成绩、销售量、亩产量等
2、Fixed Factor 固定效应因素,固定因素,控制因素
主要指研究中的定性变量 如:资费等级、客户类型、漫游类型、促销策略等
3、Random Factor 随机效应因素、随机因素
人为无法对其水平值进行准确控制,只是能够直观观测到 如:话费水平、收入水平、消费习惯等
4、Interaction 交互作用、交互效应
如果一个因素的效应大小在另一个因素不同水平下明显不同,则称为两因素间存在交互作用。
当存在交互作用时,单纯研究某个因素的作用是没有意义的,必须分另一个因素的不同水平研究该因素的作用大小。
例如:饮食习惯、适量运动对减肥的作用;
如何观测交互作用Interaction
数据收集方式:有重复数据
使用图来观测交互作用 两线有交叉有交互 平行无交互
在数据表上计算出每一细格的平均数
在图上相对应的列与行间绘出该格平均数的位置
5、main effect
与交互效应相对应的
主效应就是每个因素对因变量的单独影响(main effect)
6、Covariates 协变量
指对应变量可能有影响,需要在分析时对其作用加以控制的连续性定量变量
当模型中存在协变量时,一般是通过找出它与因变量的回归关系来控制其影响
三、多因素方差分析的基本思路(以两因素方差分析为例)
无论模型结构多复杂,都是基于误差分解的原理进行的,都是F检验。
根据误差分解式,可以将总的样本离均差平方和分解成各个部分,随后各个离均差平方和除以自由度可得到均方,进而将各效应的均方和误差均方相比较,就得到了F统计量
认为因变量的变动是由各因素的独立作用、它们的交互作用、以及随机因素造成的。
S总= SA+SB + SAB + S随
四、多因素方差分析的应用条件
等方差;
各样本的独立性:只有各样本为相互独立的随机样本,才能保证变异的可加性(可分解性);
正态性:即所有观察值系从正态总体中抽样得出;
五、多因素方差分析的分析步骤
(一)无重复的两因素方差分析
1、数据收集方式:无重复数据
2、SPSS的数据录入格式
3、提出假设
H0:因素A中的r个水平的均值相等
(因素A 对因变量无显著性影响)
H1:因素A中的r个水平的均值不全相等
(因素A 对因变量有显著性影响)
无法加入交互项,原因:无重复数据
H0:因素B中的k个水平的均值相等
(或因素B 对因变量无显著性影响)
H1:因素B中的k个水平的均值不全相等
(或因素B 对因变量有显著性影响)
4、计算各假设所要检验的统计量的值
对于A因素,检验统计量的计算公式为:
对于B因素,检验统计量的计算公式为:
5、列出方差分析表
6、统计决断
根据分子和分母自由度及显著性水平,查表寻找F临界值,将实际计算出的F值与临界值相比较
对FA、FB和FAB,当F的计算值大于临界值Fα(或者)时, 应拒绝原假设。
若实际计算出的F值小于临界值,则不能拒绝原假设;
P值检验法
依次查看各F值的P值, p-值<α,应拒绝原假设;
如果其P值大于显著性水平,则不能拒绝H0,可以认为相应不同水平的控制变量或交互影响没有造成均值的显著差异;
(二)有重复的两因素方差分析
数据收集方式:有重复数据
SPSS的数据录入格式
提出假设
H0:因素A中的r个水平的均值相等
(因素A 对因变量无显著性影响)
H1:因素A中的r个水平的均值不全相等
(因素A 对因变量有显著性影响)
H0:因素B中的c个水平的均值相等
(或因素B 对因变量无显著性影响)
H1:因素B中的c个水平的均值不全相等
(或因素B 对因变量有显著性影响)
在有重复的双因素方差中,还要检验第三组假设
H0:两个因素对因变量没有交互作用
或两个因素的交互作用不显著
H1:两个因素对因变量有交互作用
或两个因素的交互作用显著
计算各假设所要检验的统计量的值
对于A因素,检验统计量的计算公式为:对于B因素,检验统计量的计算公式为:
对于A因素与B因素的交互作用,检验统计量的计算公式为:
列出方差分析表
统计决断
根据分子和分母自由度及显著性水平,查表寻找F临界值,将实际计算出的F值与临界值相比较
对FA、FB和FAB,当F的计算值大于临界值Fα(或者)时, 应拒绝原假设。
若实际计算出的F值小于临界值,则不能拒绝原假设;
P值检验法
依次查看各F值的P值, p-值<α,应拒绝原假设;
如果其P值大于显著性水平,则不能拒绝H0,可以认为相应不同水平的控制变量或交互影响没有造成均值的显著差异;
有的地方具体操作步骤神马的建议看课件 附两次独立实验报告模板