统计分析方法综述
一、聚类分析:
1、基本思想 :
在样本之间结构不明确的情况下,建立一个定量尺度,借以度量样品(变量)之间的亲疏程度,从而实现对样品(变量)进行分组的目的。
2、聚类分析的思路:
开始,n个样品(P个变量)各自成类→每次,按样品(变量)间的亲疏程度,将最近(最相似)的两个样品(变量)聚成一类→最终将n个样品(P个变量)聚成一个大类
在实际问题中,是聚成若干类,以有利于问题的分析
3、距离的计算方法有:明氏距离、马氏距离、兰氏距离;系统聚类的方法有:最短距离法、最长距离法、中间距离法等等。
4、 按聚类对象分为样品聚类(Q型聚类)和变量聚类(R型聚类)。
(1)样品聚类是对事件进行聚类,或是说对观测量进行聚类,是对反映被观测对象的特征的变量值进行分类。
(2)变量聚类则是当反映事物特点的变量很多时,根据所研究的问题选择部分变量对事物的某一方面进行研究的聚类方法。
二、判别分析:
在已知的一些样品 (多指标)已经分成若干个类型的基础上,建立必要的判别函数、判别准则,对新样品的归属进行判别。
判别分析有:距离判别法、费歇尔判别法、贝叶斯判别法
判别分析包括以下两步:
1、分析和解释各类指标之间存在的差异,并建立判别函数。
2、以第一步的分析结果为依据,将对那些未知分类属性的案例进行判别分类。
三、主成分分析:
1、是将原有众多的指标变量经组合后生成新的相互无关的综合指标的方法。
注意:1、原指标变量之间可能存在相关性(信息重叠)。 缺陷
2、新指标互不相关,且可以重现原指标的的全部信息。 优化
3、主成分分析在中选取前2-3个主成分,集中反映全部信息的80%-90%,因此用来分析问题。 简化
2、基本思路:构造一个线性组合(变换)
要求经(7.1)生成的:
1、即和不相关;
2、,即主成分携带的信息量递减;
3、,即新指标重现原指标的全部信息;
4、从p个新指标中选出前k个指标,一般要求。 K=2~3。
四、因子分析:
1、基本思想:构造几个不可观测的随机变量(称为因子)来描述原指标变量之间的相互关系,以达到降维、简化、综合评价的目的。R型因子分析、Q型因子分析。
2、因子分析与主成分分析的区别、联系
区别
(1)结构上
主成分分析是一个变换,使原变量
因子分析是用因子来描述原变量,
(2)主成分个数p=原变量个数p
因子个数m﹤原变量个数p
(3)主成分的取值可由计算得到,因子分析由模型无法得到因子的取值
联系:因子分析是主成分分析的扩展和深化
3、因子分析的基本步骤
(1)、确定研究变量。(2)、计算所有变量的相关矩阵。
(3)、构造因子变量。(4)、因子旋转。(5)、计算因子得分。
五、对应分析
1、基本思想 :
是在R型和Q型因子分析基础上,发展起来的一种多元相依的变量统计分析技术。对应分析是用标度变换的方法在低维空间(一般为2维)中,用图形直观地表示变量与变量之间、样品与样品之间、变量与样品之间联系的技术。使用这一分析技术可以揭示同一变量的各个类别之间的差异以及不同变量各个类别之间的对应关系。
2、分析的步骤
(1)、 确定研究的内容 (2)、 获取分析资料
(3)、 对列联表作对应分析 (4)、 解释结果意义(5)、 评价分析结果
六、典型相关分析:
基本原理:为了从总体上把握两组指标之间的相关关系,分别在两组变量中提取有代表性的两个综合变量U1和V1(分别为两个变量组中各变量的线性组合),利用这两个综合变量之间的相关关系来反映两组指标之间的整体相关性。
七、回归分析:
1、一元线性回归:一元线性回归模型,该模型的特点是只有两个变量(自变量和因变量),而且函数形式为线性。回归分析的主要任务就是设法求出总体回归参数的具体数值,进而利用总体回归方程描述和分析总体的平均变化规律。
(1)、根据样本观测值对模型参数进行估计,求得线性回归方程;
(2)、对线性回归方程的参数估计值进行检验;
(3)、利用线性回归方程进行预测
2、多元线性回归:
多元线性回归模型中的估计参数称作偏斜率系数,它和一元线性回归模型的斜率系数有所区别。它在度量某一个自变量对因变量影响时,需要其他自变量保持不变。
(静态数据用一元或多元统计分析,动态数据则用时间序列分析)
八、时间序列分析
1、时间序列分析分为:确定性时序分析和随机性时序分析,随机性时序分析有:AR模型、MA模型、ARMA模型
2、时间序列研究的一般程序
确定研究对象→采集数据→数据预处理→模型识别→参数估计→建立模型→模型检验→预测与控制
3、用途
①系统描述。根据对系统进行观测得到的时间序列数据,用曲线拟合方法对系统进行客观的描述。②系统分析。当观测值取自两个以上变量时,可用一个时间序列中的变化去说明另一个时间序列中的变化,从而深入了解给定时间序列产生的机理。③预测未来。一般用ARMA模型拟合时间序列,预测该时间序列未来值。④决策和控制。根据时间序列模型可调整输入变量使系统发展过程保持在目标值上,即预测到过程要偏离目标时便可进行必要的控制。
九、向量自回归模型:(VAR)
这种模型采用多方程联立的形式,它不以经济理论为基础,在模型的每一个方程中,内生变量对模型的全部内生变量的滞后值进行回归,从而估计全部内生变量的动态关系。
VAR模型的结构与两个参数有关。一个是所含变量个数N,一个是最大滞后阶数k。
以两个变量y1t,y2t滞后1期的VAR模型为例,
y1, t = c1 + p11.1 y1, t-1 + p12.1 y2, t-1 + u1 t
y2, t = c2 + p21.1 y1, t-1 + p22.1 y2, t-1 + u2 t
VAR模型的特点是:
(1)不以严格的经济理论为依据。在建模过程中只需明确两件事:①共有哪些变量是相互有关系的,把有关系的变量包括在VAR模型中;②确定滞后期k。使模型能反映出变量间相互影响的绝大部分。
(2)VAR模型对参数不施加零约束。(对无显着性的参数估计值并不从模型中剔除,不分析回归参数的经济意义。)
(3)VAR模型的解释变量中不包括任何当期变量,所有与联立方程模型有关的问题在VAR模型中都不存在(主要是参数估计量的非一致性问题)。
(4)VAR模型的另一个特点是有相当多的参数需要估计。比如一个VAR模型含有三个变量,最大滞后期k = 3,则有kN2 = 3 ´ 32 = 27个参数需要估计。当样本容量较小时,多数参数的估计量误差较大。
(5)无约束VAR模型的应用之一是预测。由于在VAR模型中每个方程的右侧都不含有当期变量,这种模型用于样本外一期预测的优点是不必对解释变量在预测期内的取值做任何预测。
(6)用VAR模型做样本外近期预测非常准确。做样本外长期预测时,则只能预测出变动的趋势,而对短期波动预测不理想。
十、面板数据计量经济分析方法
面板数据,即Panel Data,是截面数据与时间序列数据综合起来的一种数据类型。
1、面板数据模型的一般形式:
其中表示N个个体;表示已知的T个时点,是被解释变量对个体在时的观测值;是第个非随机变量对于个体在时的观测值;是带估计的参数;是随机误差项。
2、面板数据回归模型的分类:
(1)混合回归模型
不同个体或不同时间序列均不存在显著性差异,直接把面板数据混合在一起,用普通最小二乘法(OLS)估计参数。
(2)变截距模型
对于不同的截面或不同的时间序列,模型的截距项是不同的,模型的斜率系数是相同的。
(3)变系数模型
解释变量的截距和斜率随截面和时间的不同而不同
十一、数据包络分析
数据包络分析是评价同类部门或单位间的相对有效性的决策方法,可用于各行各业,例如,用它对某行业的诸上市公司进行相对有效性评价;又如在某企业中以每天的输入与输出作为一个生产活动,用DEA对若干天的生产活动进行相对有效性评价。DEA也是在经济中用来研究具有多输入、多输出的边界生产函数的有力工具,因而可用它来研究与边界生产函数有关的问题,如狭义技术进步率、生产率指标、预测、规模收益分析、资金分配问题及最大收益问题等,它已成为决策分析、管理、经济等领域中的一个重要的方法。
十二、结构方程模型
1、结构方程模型(Structural Equation Modeling/ Structural Equation Model/ Structure Equation Modeling,简称SEM)是基于变量的协方差矩阵来分析变量之间关系的一种综合性的统计方法,因此又称为协方差结构分析。 它是研究不可直接测量之间的结构关系,潜变量由可测变量表现。
2、结构方程模型的结构分为两部分:测量模型和结构模型
测量模型:测量指标与潜变量之间的关系
x=∧xξ+δ
y= ∧yη+ε
其中,
ξ:外生潜变量(xi) η:内生潜变量(eta)
x:外生指标 δ:x的误差项(delta)
y:内生指标 ε:y的误差项(epsilon)
∧x:外生指标与外生潜变量的关系(lambda)
∧y:内生指标与内生潜变量的关系
结构模型
对于潜变量间的关系,可用结构方程
表示:
η=Bη+Гξ+ζ
η:内生潜变量(eta)
ξ: 外生潜变量(xi)
B:内生潜变量间的关系(bta)
Г:外生潜变量对内生潜变量的影响(gamma)
ζ: 结构方程的残差项(zeta)
3、SEM的优点:
(1)同时处理多个因变量;
(2)容许自变量和因变量含有误差,精确估计观察变量与潜在变量之间的关系;
(3)同时估计因子结构和因子关系;
(4)可以估计整个模型和数据的拟合程度。
十三、参数检验
1、对参数平均值、方差进行的统计检验。
先由测得的样本数据计算检验统计量,若计算的统计量值落入约定显著性水平a 时的拒绝域内,说明被检参数之间在所约定的显著性水平a 下在统计上有显著性差异;反之, 若计算的统计量值落入约定显著性水平a 时的接受域内,说明被检参数之间在统计上没有显著性差异,是同一总体的 2、参数检验运用范围
当总体分布已知(如总体为正态分布),根据样本数据对总体分布的统计参数进行推断。
此时,总体的分布形式是给定的或是假定的,只是其中一些参数的取值或范围未知,分析的主要目的是估计参数的取值,或对其进行某种统计检验。这类问题往往用参数检验来进行统计推断。它不仅仅能够对总体的特征参数进行推断,还能够实现两个或多个总体的参数进行比较。
3、参数检验的步骤
(1)提出原假设和备择假设
(2)确定适当的检验统计量
(3)规定显著性水平a
(4)计算检验统计量的值
(5)作出统计决策
十四、非参数检验
参数检验是在总体分布形式已知的情况下,对总体分布的参数如均值、方差等进行推断的方法。但是,在数据分析过程中,由于种种原因,人们往往无法对总体分布形态作简单假定,此时参数检验的方法就不再适用了。非参数检验正是一类基于这种考虑,在总体方差未知或知道甚少的情况下,利用样本数据对总体分布形态等进行推断的方法。由于非参数检验方法在推断过程中不涉及有关总体分布的参数,因而得名为“非参数”检验。
非参数统计在总体未知时效率要比传统方法要高。是否用非参数统计方法,要根据对总体分布的了解程度来确定。
十五、投入产出分析法
1、投入产出分析法是从宏观经济角度出发,把国民经济划分为若干不同但互有联系的产品群或产品部门,并借助线性方程,来模拟社会再生产过程和国民经济结构,以此综合分析各部门之间的经济技术联系和重要比例关系的一种方法
2、投入产出表的数学模型 :
(1)投入产出表的行模型:投入产出表的行模型是根据投入产出表的横行平衡关系式建立的模型,它主要反映了各部门中间产品、最终产品和总产出之间的数量平衡关系。
Ø 应用行模型分析最终使用量变化对各产业部门生产规模的影响
Ø 应用行模型分析各产业部门总产出变化对各产业部门最终使用量的影响
(2)投入产出表的列模型:投入产出表的列模型是根据投入产出表的纵列平衡关系式建立的模型,它主要反映了各部门中间投入、最初投入和总投入之间的数量平衡关系。
Ø 应用列模型分析各产业部门总产出变化对各产业部门增加值的影响
Ø 应用列模型分析各产业部门增加值变化对各产业部门总产出的影响
第二篇:统计方法总结
统计方法总结.txt10有了执著,生命旅程上的寂寞可以铺成一片蓝天;有了执著,孤单可以演绎成一排鸿雁;有了执著,欢乐可以绽放成满圆的鲜花。一、统计分析方法总结
1.连续性资料
1.1 两组独立样本比较
1.1.1 资料符合正态分布,且两组方差齐性,直接采用t检验。
1.1.2 资料不符合正态分布,(1)可进行数据转换,如对数转换等,使之服从正态分布,然后对转换后的数据采用t检验;(2)采用非参数检验,如Wilcoxon检验。
1.1.3 资料方差不齐,(1)采用Satterthwate 的t’检验;(2)采用非参数检验,如Wilcoxon检验。
1.2 两组配对样本的比较
1.2.1 两组差值服从正态分布,采用配对t检验。
1.2.2 两组差值不服从正态分布,采用wilcoxon的符号配对秩和检验。
1.3 多组完全随机样本比较
1.3.1资料符合正态分布,且各组方差齐性,直接采用完全随机的方差分析。如果检验结果为有统计学意义,则进一步作两两比较,两两比较的方法有LSD检验,Bonferroni法,tukey法,Scheffe法,SNK法等。
1.3.2资料不符合正态分布,或各组方差不齐,则采用非参数检验的Kruscal-Wallis法。如果检验结果为有统计学意义,则进一步作两两比较,一般采用Bonferroni法校正P值,然后用成组的Wilcoxon检验。
1.4 多组随机区组样本比较
1.4.1资料符合正态分布,且各组方差齐性,直接采用随机区组的方差分析。如果检验结果为有统计学意义,则进一步作两两比较,两两比较的方法有LSD检验,Bonferroni法,tukey法,Scheffe法,SNK法等。
1.4.2资料不符合正态分布,或各组方差不齐,则采用非参数检验的Fridman检验法。如果检验结果为有统计学意义,则进一步作两两比较,一般采用Bonferroni法校正P值,然后用符号配对的Wilcoxon检验。
****需要注意的问题:
(1) 一般来说,如果是大样本,比如各组例数大于50,可以不作正态性检验,直接采用t检验或方差分析。因为统计学上有中心极限定理,假定大样本是服从正态分布的。
(2) 当进行多组比较时,最容易犯的错误是仅比较其中的两组,而不顾其他组,这样作容易增大犯假阳性错误的概率。正确的做法应该是,先作总的各组间的比较,如果总的来说差别有统计学意义,然后才能作其中任意两组的比较,这些两两比较有特定的统计方法,如上面提到的LSD检验,Bonferroni法,tukey法,Scheffe法,SNK法等。**绝不能对其中的两组直接采用t检验,这样即使得出结果也未必正确**
(3) 关于常用的设计方法:多组资料尽管最终分析都是采用方差分析,但不同设计会有差别。常用的设计如完全随即设计,随机区组设计,析因设计,裂区设计,嵌套设计等。
2.分类资料
2.1 四格表资料
2.1.1 例数大于40,且所有理论数大于5,则用普通的Pearson 检验。
2.1.2 例数大于40,所有理论数大于1,且至少一个理论数小于5,则用校正的 检验或Fisher’s确切概率法检验。
2.1.3 例数小于40,或有理论数小于2,则用Fisher’s确切概率法检验。
2.2 2×C表或R×2表资料的统计分析
2.2.1 列变量&行变量均为无序分类变量,则(1)例数大于40,且理论数小于5的格子
数目<总格子数目的25%,则用普通的Pearson 检验。(2)例数小于40,或理论数小于5的格子数目>总格子数目的25%,则用Fisher’s确切概率法检验。
2.2.2列变量为效应指标,且为有序多分类变量,行变量为分组变量,用普通的Pearson 检验只说明组间构成比不同,如要说明疗效,则可用行平均分差检验或成组的Wilcoxon秩和检验。
2.2.3 列变量为效应指标,且为二分类变量,行变量为有序多分类变量,则可采用普通的Pearson 检验比较各组之间有无差别,如果总的来说有差别,还可进一步作两两比较,以说明是否任意两组之间的差别都有统计学意义。
2.3 R×C表资料的统计分析
2.2.1 列变量&行变量均为无序分类变量,则(1)例数大于40,且理论数小于5的格子数目<总格子数目的25%,则用普通的Pearson 检验。(2)例数小于40,或理论数小于5的格子数目>总格子数目的25%,则用Fisher’s确切概率法检验。(3)如果要作相关性分析,可采用Pearson相关系数。
2.2.2列变量为效应指标,且为有序多分类变量,行变量为分组变量,用普通的Pearson 检验只说明组间构成比不同,如要说明疗效或强弱程度的不同,则可用行平均分差检验或成组的Wilcoxon秩和检验或Ridit分析。
2.2.3 列变量为效应指标,且为无序多分类变量,行变量为有序多分类变量,则可采用普通的Pearson 检验比较各组之间有无差别,如果有差别,还可进一步作两两比较,以说明是否任意两组之间的差别都有统计学意义。
2.2.4 列变量&行变量均为有序多分类变量,(1)如要做组间差别分析,则可用行平均分差检验或成组的Wilcoxon秩和检验或Ridit分析。如果总的来说有差别,还可进一步作两两比较,以说明是否任意两组之间的差别都有统计学意义。(2)如果要做两变量之间的相关性,可采用Spearson相关分析。
2.4 配对分类资料的统计分析
2.4.1 四格表配对资料,(1)b+c>40,则用McNemar配对 检验。(2)b+c<40,则用校正的配对 检验。
2.4.1 C×C资料,(1)配对比较:用McNemar配对 检验。(2)一致性检验,用Kappa检验。
二、医学科研程序
⑴科研选题——⑵研究设计——⑶实施方法——⑷统计分析——⑸总结归纳
其中科研选题和研究设计最关键。
科研设计分为⑴专业设计⑵统计设计
统计设计的内容:研究对象数量的确定、对照组的选定、随机化分组原则、控制误差及统计分析方法的选定等。一、科研选题:⑴、查阅文献;⑵、选题原则:创新性、先进性、科学性、可行性;⑶、研究条件和优势
二、实施方法:⑴、调查;⑵、实验⑶、临床观察。
三、统计分析:⑴、正确搜集资料;⑵、描述资料统计特征⑶、统计推断并得出结论统计资料的要求:准确、完整、及时
描述资料:统计表、统计图、统计指标
统计推断:参数估计、假设检验
医学科研设计基本内容(临床实验设计参考用)
(社区干预试验设计可参照)
临床科研是以病人为研究对象,因此,在进行临床科研设计时应注意:①人有社会属性,受
精神因素、心理因素影响,要注意临床科研要符合医学伦理要求;②必须设立对照(设立对照的注意问题附后);③随访的起点和止点应有明确的定义;④注意影响实验研究结果的因素,并适当控制(具体内容附后)。
1.国内外研究现状、水平、发展趋势(简要介绍与本课题有关研究的国内外现状、水平、发展趋势等,写明本课题提出的依据及本课题研究目的;简要介绍预试验内容及结果。)。
2.研究对象:
(1)具体诊断标准(用公认的或统一的,并阐明出处;如没有统一的标准也应写明是自定标准。)、制定入选(纳入)标准及排除标准;
(2)研究对象选择范围(包括对照组)及选样和分组方法(使用正确的随机方法选样和分组;在实验对象的分组和施加因素分配实验组、对照组上,都要随机化);
(3)样本含量。(说明确定样本含量的依据)
3.处理因素:(详细写)
处理因素设置要求:①抓住主要因素;②找出非处理因素(混杂因素);③处理因素标准化。
(1)设备(或试剂或药物)生产厂家(来源)及型号(剂量);
(2)治疗方法及操作程序(包括对照组);
(3)操作过程中的质量控制(包括方法、人员、设备三统一及实验质控手段等);
(4)技术关键。
4.研究结果:
确定研究效应的测量指标及测定方法,要考虑与待评价的结果有关联性、客观性、灵敏性、特异性及实用性等。
(1)疗效判断标准(用公认的或统一的,并阐明出处;如没有统一的标准也应写明是自定标准。);
(2)(近期、远期)观察指标(各组观察指标应一致)及观察方法;
(3)科研记录表格及汇总表格式样;
(4)统计方法及指标确定,预计结果;
(5)科研质量控制措施(包括科研全过程的各环节,如预试验工作、分组、施加处理因素、临床观察及随访、原始资料的记录及收集、资料整理等方面质量控制措施)。
5.创新设想(本研究的):
6.工作时间安排(包括调研、设计、研究、统计分析、总结鉴定等):
7.研究人员分工(包括姓名、性别、年龄、职称、工作单位及在本研究中的详细分工):
8.经费的筹措及使用计划:
9.存在(可能出现)的问题、困难及解决办法:
临床科研的对照问题
为保证临床科研实验组与对照组之间具有可比性,对照组中的观察对象除了实验因素不同以外,实验过程中的实验条件和辅助措施,都应与实验组相同。常用对照方式如下:
1、空白对照:对照组不施加任何处理因素。这种对照仅用在某些病情较轻或长期稳定无任何危险的疾病,如:慢性关节炎、HbsAg携带者、近视等。
2、安慰剂对照:对照组采用无药理作用且无害的“药“,如:淀粉、生理盐水等经加工后其外形、味道等与试验药相似,不被受试者识别。这种对照仅用在研究的疾病尚无有效治疗方法,或使用安慰剂后该病的病情、临床经过、预后等影响小或无影响时。
3、实验对照:对照组不施加处理因素,但施加某种与处理因素有关的实验因素。
4、标准对照:用现有标准方法或常规方法做对照,注意以一种低疗效的方法作对照来提高试验的疗效是毫无意义的,甚至是有害的。
5、历史对照:以过去的研究结果作对照,这是一种非随机和非同期的对照,容易产生偏倚(可能因为疾病自然病程会随时间而变化,或医生的收治病人诊断标准和治疗方法或水平因时间而变化等,使两组失去可比性)。这种对照可用于狂犬病、骨折愈合等疗效对照。
6、自身对照:对照和实验在同一受试对象进行,这种对照简单易行,但应注意该方法的两个缺陷:一是实验总是把处理前作对照,这不符合随机分配原则;二是实验前后某些环境因素或自身因素发生了改变,可能影响实验结果。可考虑用交叉实验解决。
7、相互对照:多种待研究观察因素相互对照。
目前常用的设计方案有:随机对照实验、配对实验、交叉实验(适于病程较长的实验研究),可根据具体情况,选用适合的方法进行实验研究。
10、影响实验研究结果的因素及其控制
一、误差:
1、随机误差:通过增加样本含量,可减小随机误差,但不能消除。
2、非随机误差:
非系统误差:偶然失误造成的。
系统误差:误差值遵循一定的规律而存在或变化,增加样本量,不能纠正。
二、编倚:(可以看成是一种系统误差)
1、选择性偏倚:防止选择性偏倚的措施:①正确拟定观察对象的纳入和排除标准;②采用分层抽样方法;③正确设立对照;④遵守随机化原则。
2、测量偏倚(或称观察偏倚或信息偏倚):
产生原因:①沾染(对照组也接受了处理措施);②干扰;③依从与非依从;④失访(>20%);⑤检查与诊断结果不一致;⑥观察记录有误;⑦心理因素的干扰。
防止措施:①用盲法试验;②签定实验合同;③检查实验对象的依从情况;④注意医德问题;⑤定期检查研究记录;⑥对实验方法、诊断标准的一致性在实验前应做出估计。
3、混杂偏倚:
产生原因:多在总结分析阶段,评价被研究因素与疾病之间的关系时,如果存在外来因素与该病和研究因素均有联系,使研究因素效应与外来因素效应混
在一起,从而掩盖或夸大研究因素与疾病的真实联系。
防止措施:①设计时,用配对设计或采用分层抽样方法;②分析阶段,用分层分析技术或多变量回归分析技术。其目的是平衡混杂因素的作用。
医学科研设计基本内容(调查设计参考用)
1、国内外研究现状、水平、发展趋势(简要介绍与本课题有关研究的国内外现状、水平、发展趋势等,写明本课题提出的依据及研究目的。注意:研究目的应很明确,且围绕一个中心;简要介绍预试验内容及结果。)。
2、调查计划:
⑴、确定观察对象(所要研究的总体)和观察单位(总体中的个体统计对象)
⑵、选定调查指标(调查指标是调查目的的具体体现):指标选择要求:①精选、重点突出,不要贪多求全,分散精力。②计量指标比计数指标敏感。③客观指标优于主观指标。④选用灵敏度高,特异度高的检查方法作为诊断依据。
⑶、调查方法(普查、抽样调查等)
⑷、样本含量(说明确定样本含量的依据)
⑸、收集原始资料的调查方式(直接观察、直接采访(访问调查、自填调查)、间接采访(信访、电话))
⑹、设计调查表和问卷(调查表和问卷设计相关问题附后)
⑺、调查阶段的组织工作(包括组织领导、关系协调、调查员培训等)
⑻、设计阶段质量控制:①正确划分调查范围;②尽量选择客观、明确的指标;③对调查问题进行精选,避免问题过于繁杂;④对于可能引起混淆的调查项目给出明确的定义。 ⑼、调查阶段质量控制:①通过预试验工作完善调查设计;②抓好调查员的选拔和培训,避免因调查员工作态度不好或业务水平不足而影响调查结果;③对被调查者可能存在的拒绝、躲避、隐瞒、等问题,采取相应措施,如:开展宣传、摸清被调查者在家的时间规律、对敏感问题做好解释和保密工作,对记忆不清者,可请知情人帮助回忆;④在问卷中设置相反问题,以了解应答的可靠性;⑤选择调查方式时应考虑年龄和文化水平因素;⑥对检测项目的调查应注明检测设备、
试剂等生产厂家、型号、批号;操作过程应注意操作方法(包括诊断标准)、人员、设备(应有明确的校正灵敏度及准确度的方法及时间)三统一;⑦注意调查的效度(真实性)与信度(可靠性)问题,常采用现场抽样复查来评价调查信度等。
3、整理计划:(去粗取精,去伪存真)
⑴、计算机录入与整理工作:应提出确保录入质量的措施:①在建立数据库时,编写逻辑查错程序;②同一资料用两个录入员输入并用计算机核对;③资料录入完成后,做频数表或散点图,发现异常值;④正确选择合适的指标和分析方法等。
⑵、资料分组:(按数值大小分组、按类型分组等)
⑶、分组组数确定:
4、统计分析计划:(包括:①说明指标的内涵和计算方法及预期进行统计描述和推断内容;②拟进行的探索性分析;③控制混杂因素的措施;④列出统计分析表,并通过统计分析表检查调查、整理计划有否遗漏。)
5、创新设想(本研究的):
6、工作时间安排(包括调研、设计、研究、统计分析、总结鉴定等):
7、研究人员分工(包括姓名、性别、年龄、职称、单位及在本研究中的详细分工):
8、经费的筹措及使用计划:
9、存在(可能出现)的问题、困难及解决办法:
10、调查表及问卷设计相关问题
一、一般结构:
1、前言:用于说明调查目的、重要性、回答问题的必要性以及对调查内容保密等,以取得调查对象的合作。
2、填写说明:为保证所有调查员和调查对象均能对调查项目和填写方法正确理解,统一认识而编写。
3、核(备)查项目:该部分与调查目的无关,作核查核对用。内容包括调查员姓名、调查日期、复核结果、未调查原因等。
4、调查(分析)项目:为直接用于调查指标所必须以及排除混杂因素所必须的项目,包括调查对象的①背景资料,如:姓名、住址、单位、电话等;②人口学项目,如:年龄、性别、民族、婚姻状况、文化程度、职业等;③研究项目(该部分是调查表的核心内容,依不同调查目的而定,分问题项目和检测项目)。
二、问题的形式:问题的基本形式有提问式和陈述式两种;根据问题答案的形式分开放式问题(无统一答案)和封闭式问题(有固定答案)。
封闭式问题设计注意:1、答案应包括所有可能的答案,还应有“其它”一栏;2、各选择答案不应相互包含,不应有重叠情况。
三、问题设计的一般原则:
1、尽量避免用专业术语(提问一般就低不就高);
2、避免混淆,对语义较模糊的词(如:经常、偶尔、普通、大概等)应给出本次调查的定义或标准。
3、避免双重问题,避免一个问题中实际提出两个问题。
4、提问避免诱导或强制性(否定形式的提问有诱导之嫌);对有社会期望偏倚的问题应注意。
5、问题应适合全部调查对象并符合逻辑。
6、敏感问题的处理:对国家政策、伦理道德、经济收入、生活行为、其它个人隐私等敏感问题,可以采用对象转移法或假定法提问;关于敏感问题调查的随机应答技术问题,须参考有关统计学专著。
7、调查项目的安排顺序(注意问题顺序的逻辑性)
①、一般问题在前,特殊问题在后;
②、易答问题在前,难答问题在后;
③、敏感问题一般在最后;如敏感问题较多,可分散在问卷中,以降低其敏感性; ④、一般将问题项目放在前,检测项目放在后。