一、两组或多组计量资料的比较
1.两组资料:
1)大样本资料或服从正态分布的小样本资料
(1)若方差齐性,则作成组t检验
(2)若方差不齐,则作t’检验或用成组的Wilcoxon秩和检验
2)小样本偏态分布资料,则用成组的Wilcoxon秩和检验
2.多组资料:
1)若大样本资料或服从正态分布,并且方差齐性,则作完全随机的方差分析。如果方差分析的统计检验为有统计学意义,则进一步作统计分析:选择合适的方法(如:LSD检验,Bonferroni检验等)进行两两比较。
2)如果小样本的偏态分布资料或方差不齐,则作Kruskal Wallis的统计检验。如果Kruskal Wallis的统计检验为有统计学意义,则进一步作统计分析:选择合适的方法(如:用成组的Wilcoxon秩和检验,但用Bonferroni方法校正P值等)进行两两比较。
二、分类资料的统计分析
1.单样本资料与总体比较
1)二分类资料:
(1)小样本时:用二项分布进行确切概率法检验;
(2)大样本时:用U检验。
2)多分类资料:用Pearson c2检验(又称拟合优度检验)。
2. 四格表资料
1)n>40并且所以理论数大于5,则用Pearson c2
2)n>40并且所以理论数大于1并且至少存在一个理论数<5,则用校正c2或用Fisher’s 确切概率法检验
3)n£40或存在理论数<1,则用Fisher’s 检验
3. 2×C表资料的统计分析
1)列变量为效应指标,并且为有序多分类变量,行变量为分组变量,则行评分的CMH c2或成组的Wilcoxon秩和检验
2)列变量为效应指标并且为二分类,列变量为有序多分类变量,则用趋势c2检验
3)行变量和列变量均为无序分类变量
(1)n>40并且理论数小于5的格子数<行列表中格子总数的25%,则用Pearson c2
(2)n£40或理论数小于5的格子数>行列表中格子总数的25%,则用Fisher’s 确切概率法检验
4. R×C表资料的统计分析
1)列变量为效应指标,并且为有序多分类变量,行变量为分组变量,则CMH c2或Kruskal Wallis的秩和检验
2)列变量为效应指标,并且为无序多分类变量,行变量为有序多分类变量,作none zero correlation analysis的CMH c2
3)列变量和行变量均为有序多分类变量,可以作Spearman相关分析
4)列变量和行变量均为无序多分类变量,
(1)n>40并且理论数小于5的格子数<行列表中格子总数的25%,则用Pearson c2
(2)n£40或理论数小于5的格子数>行列表中格子总数的25%,则用Fisher’s 确切概率法检验
三、Poisson分布资料
1.单样本资料与总体比较:
1)观察值较小时:用确切概率法进行检验。
2)观察值较大时:用正态近似的U检验。
2.两个样本比较:用正态近似的U检验。
配对设计或随机区组设计四、两组或多组计量资料的比较
1.两组资料:
1)大样本资料或配对差值服从正态分布的小样本资料,作配对t检验
2)小样本并且差值呈偏态分布资料,则用Wilcoxon的符号配对秩检验
2.多组资料:
1)若大样本资料或残差服从正态分布,并且方差齐性,则作随机区组的方差分析。如果方差分析的统计检验为有统计学意义,则进一步作统计分析:选择合适的方法(如:LSD检验,Bonferroni检验等)进行两两比较。
2)如果小样本时,差值呈偏态分布资料或方差不齐,则作Fredman的统计检验。如果Fredman的统计检验为有统计学意义,则进一步作统计分析:选择合适的方法(如:用Wilcoxon的符号配对秩检验,但用Bonferroni方法校正P值等)进行两两比较。
五、分类资料的统计分析
1.四格表资料
1)b+c>40,则用McNemar配对c2检验或配对边际c2检验
2)b+c£40,则用二项分布确切概率法检验
2.C×C表资料:
1)配对比较:用McNemar配对c2检验或配对边际c2检验
2)一致性问题(Agreement):用Kap检验
变量之间的关联性分析六、两个变量之间的关联性分析
1.两个变量均为连续型变量
1)小样本并且两个变量服从双正态分布,则用Pearson相关系数做统计分析
2)大样本或两个变量不服从双正态分布,则用Spearman相关系数进行统计分析
2.两个变量均为有序分类变量,可以用Spearman相关系数进行统计分析
3.一个变量为有序分类变量,另一个变量为连续型变量,可以用Spearman相关系数进行统计分析
七、回归分析
1.直线回归:如果回归分析中的残差服从正态分布(大样本时无需正态性),残差与自变量无趋势变化,则直线回归(单个自变量的线性回归,称为简单回归),否则应作适当的变换,使其满足上述条件。
2.多重线性回归:应变量(Y)为连续型变量(即计量资料),自变量(X1,X2,…,Xp)可以为连续型变量、有序分类变量或二分类变量。如果回归分析中的残差服从正态分布(大样本时无需正态性),残差与自变量无趋势变化,可以作多重线性回归。
1)观察性研究:可以用逐步线性回归寻找(拟)主要的影响因素
2)实验性研究:在保持主要研究因素变量(干预变量)外,可以适当地引入一些其它可能的混杂因素变量,以校正这些混杂因素对结果的混杂作用
3.二分类的Logistic回归:应变量为二分类变量,自变量(X1,X2,…,Xp)可以为连续型变量、有序分类变量或二分类变量。
1)非配对的情况:用非条件Logistic回归
(1)观察性研究:可以用逐步线性回归寻找(拟)主要的影响因素
(2)实验性研究:在保持主要研究因素变量(干预变量)外,可以适当地引入一些其它可能的混杂因素变量,以校正这些混杂因素对结果的混杂作用
2)配对的情况:用条件Logistic回归
(1)观察性研究:可以用逐步线性回归寻找(拟)主要的影响因素
(2)实验性研究:在保持主要研究因素变量(干预变量)外,可以适当地引入一些其它可能的混杂因素变量,以校正这些混杂因素对结果的混杂作用
4.有序多分类有序的Logistic回归:应变量为有序多分类变量,自变量(X1,X2,…,Xp)可以为连续型变量、有序分类变量或二分类变量。
1)观察性研究:可以用逐步线性回归寻找(拟)主要的影响因素
2)实验性研究:在保持主要研究因素变量(干预变量)外,可以适当地引入一些其它可能的混杂因素变量,以校正这些混杂因素对结果的混杂作用
5.无序多分类有序的Logistic回归:应变量为无序多分类变量,自变量(X1,X2,…,Xp)可以为连续型变量、有序分类变量或二分类变量。
1)观察性研究:可以用逐步线性回归寻找(拟)主要的影响因素
2)实验性研究:在保持主要研究因素变量(干预变量)外,可以适当地引入一些其它可能的混杂因素变量,以校正这些混杂因素对结果的混杂作用
第二篇:统计学总结
1. 统计学的研究对象:是现象的总体的数量方面,即现象总体的数量特征和数量关系。
2. 统计总体概念:在某一方面具有相同性质的若干个别事物或现象组成的整体,为同质群体。
总体单位概念:总体所包含的一个个相互独立的个别事物或现象叫做个体,因为个体是相对于总体而言的,是构成总体的基本单位,所以又称总体单位。
总体和总体单位的关系:⑴总体是由总体单位构成的;⑵总体与总体单位是相对的,是可以相互转化的。
3. 标志的概念:是说明总体单位某种特征的概念。构成:标志名称和标志内容。
指标的概念:是反映总体数量的特征的范畴。构成:指标名称和指标数值。
标志和指标的关系:
区别:⑴它们所说明的对象不同,指标说明总体特征,标志说明总体单位的特征;⑵二者的内涵和表示方式有所不同,指标都是用指标数值说明总体的数量特征,而标志说明总体单位的特征既有数量特征又有属性特征,所以标志内容也既有用数值表示的,也有用文字表示的;⑶指标的数值一定经过汇总得到,而数量标志值不一定经过汇总;⑷作为完整的指标,一般得有时间、空间等条件,而标志不一定需要这些条件。
联系:⑴汇总关系,指标值是由相应的标志表现汇总而来;⑵转化关系,标志和指标可以相互转化。
4. 统计调查的种类:
⑴按组织形式不同分:①专门调查;②统计报表制度
⑵按调查对象包括范围分:①全面调查;②非全面调查
⑶按调查时间连续性分:①经常性调查;②一次性调查。
5. 调查单位:接受调查的人或物,调查项目的物质承担者。
调查对象:所以调查单位所构成的整体,调查单位的集合。
报告单位:在统计调查中,负责问调查组织者报送资料的单位。
6. 重点调查的概念:是从研究总体中选择少量重点单位进行调查的一种非全面调查方法。
重点单位的概念:指就其调查内容来说,其标志值在总体标志总量中占有较大的比重,而其单位数在总体单位数中占有较小的比重。
7. 统计分组的概念:根据统计研究的目的和需要,将所观察和研究的总体,按照一定的标志划分为若干组成部分,以便依此汇总和处理资料并进行统计分析的一种统计方法。
作用:⑴划分社会经济现象的类型,进行比较、分析和综合;⑵研究总体的结构,计算比重和比例;⑶分析现象之间的数量依存关系,研究现象之间的数量内在联系。
种类:⑴品质标志分组;⑵数量标志分组;①单项式分组;②组距式分组;(①有等距;②不等距)⑶简单分组;⑷复合分组;⑸并列分组。
8. 统计分组的关键问题:选择分组标志和确定分组界限(组限)是统计分组的关键。
9. 指标的分类:⑴总量指标;⑵相对指标;⑶平均指标;⑷标志变异指标。
10. 总量指标的概念:反映社会经济状况总体在一段时间地点等条件下总规模和总水平的综合指标。
种类:⑴总体单位总量和总体标志总量;⑵时期指标与时点指标
计量单位:⑴实物计量单位;⑵价值计量单位;⑶劳动计量单位
11. 时期指标和时点指标的特点,如何区分。
⑴时期指标是连续计量得到的,可以累计,结果表示更长时间的时期指标;时点指标只能间断计数,不能累计,累计结果一般无意义。⑵时期指标数值与时间间隔长短成正比,时间越长,指标值越大;时点指标数值与时点间隔没有直接关系。
12. 相对指标的含义:两种有联系的指标对比所得的一种指标,可据以反映现象总体的结构和比例,揭示社会经济现象之间的联系和制约关系。
作用:⑴可以反映总体的结构、比例、速度和密度等内部特征,对总体进行更加深入的分析和研究;⑵可以使原来不能直接对比的总量指标通过计算相对指标进行对比,进而准确地判断出它们之间的差距。
表现形式:⑴有名数;⑵无名数
13. 各种相对指标分子分母的关系:⑴基本表示法:分子为a,分母为b,a/b,表示a是b的多少(倍);⑵习惯表示法:a比b多(或少)多少,(a-b)/b。
计算:⑴计划完成指标:
⑵结构相对指标:
⑶比例相对指标:
⑷比较相对指标:
⑸动态相对指标:
⑹强度相对指标:
强度指标可分为:正指标和逆指标
14. 平均指标的种类:⑴数值平均数—①算术平均数②调和平均数③几何平均数;⑵位置平均数—①中位数②众数。
平均指标的特点:⑴是一个代表性指标,它代表总体中各单位的一般水平,而不是某一个总体单位的具体数值;⑵是一个抽象化了的数值,它是把总体内各单位同一数量标志的不同值之间的差异抽象化,集中在一个典型水平上;⑶一般只用于对数量标志求平均,同时,只能对一个数量标志的不同值求平均,而对多个数量标志的不同值求平均无意义;⑷反映的是现象在一定时间、地点条件下的一般水平,若这些条件发生变化,平均数也会发生变化。
15.
16. 变异指标的概念:反映总体各单位标志值差异程度的综合指标,也叫标志变动度。
种类:⑴全距;⑵平局差;⑶标准差;⑷标准差系数
作用:⑴是评价平均数代表性大小的基本依据;⑵是反映社会生产的稳定性和社会经济活动过程的节奏性和均衡性的一个重要指标;⑶在抽样推断中有着重要作用。
17. 常用的标志变异指标:⑴标准差;⑵标准差系数
18. 标准差的概念:亦称均方差,是指总体各单位标志值与算术平均数的离差的平方的平均数的平方根,是反映标志变动度的基本指标,标准差的平方成为方差。
计算:(未分组) (分组的)
19. 时间数列的分析指标:⑴发展水平;⑵平均发展水平(序时平均数);⑶增长量;⑷平均增长量;⑸发展速度;⑹增长速度;⑺平均发展速度;⑻平均增长速度
20. 平均发展水平的概念:将不同时间的发展水平加以平均而得到的代表性指标,说明一段时间内发展水平的一般水平,也叫动态平均数。
21. 平均发展速度: ;平均增长速度=平均发展速度-100%
22. 长期趋势的测定方法(最小平方法)
23. 指数的分类:
⑴按研究对象范围不同分类—①个体指数②总指数③组指数。
⑵按指数化指标的性质不同分—①数量指标指数②质量指标指数。
⑶按指数的比较基期划分—①定基指数②环比指数
⑷按指数编制的方法不同—①综合指数②平均数指数
指数的作用:⑴综合反映现象数量变动的趋势和程度;⑵综合反映现象数量变动的实际经济效果;⑶反映各因素数量变动对复杂现象数量总变动的影响。
24. 数量指标:反映现象总规模或工作总量的指标,也就是总量指标。
质量指标:反映现象的相对水平或工作质量的指标。
二者的区分:数量指标用绝对数表示,如产量、产值等。质量指标用相对数或平均数表示。如价格、单位成本等。
25. 综合指数的同度量因素:式中假定不变的因素,便起了媒介的作用,使原来不可同度量(不能直接相加)的多种产品或价格,转变为可以同度量的价值,在综合指数公式中,同度量因素还起着权衡被综合的各个变量值的地位轻重(即对总指数影响的大小)的作用,所以,同度量因素也常被称为权数。
26. 指数体系:
广义:经济上有联系的若干个统计指数构成的整体。
狭义:经济上有联系、数量上有一定关系的若干个统计指数所构成的整体。一个现象的总变动指数等于若干个影响因素指数的连乘积,且一个现象总变动的差额,等于若干个因素指数的差额之和。
因素分析法:利用指数体系分析各影响因素对现象总变动影响程度的方法。