统计学实验报告与心得体会
班级: 姓名: 学号: 成绩:
一 实验报告 成绩:
实验一 数据的搜集与整理
实验目的和要求
培养学生处理数据的基本能力,熟悉Excel2003的基本操作界面,熟悉间接和直接数据的搜集方法,掌握不同类型的数据处理方法,以及数据的编码、分类、筛选、排序等整理操作的方法。
实验步骤
1、 数据的搜集:确定数据来源,主要由两种渠道,间接数据和直接数据。间接数据一种方式是直接进入专业数据库网站查询,另一种是使用搜索引擎。直接数据搜集步骤有:调查方案设计、调查问卷设计、问卷发放、问卷收回、数据初步整理等。
2、数据的编码:如果数据是由开放式的问题来获取的,那么,需要对答案进行罗列、合并、设码三个过程来完成编码工作。
3、数据的录入:Excel的数据录入操作比较简单,一般只要在工作表中,单击激活一个单元格就可以录入数据了。通过“格式-单元格格式”(Ctrl+1)菜单来实现数据的完整性。
4、数据文件的导入:导入的方法有二,一是使用“文件-打开”菜单,二是使用“数据-导入外部数据-导入数据”菜单,两者都是打开导入向导,按向导一步步完成对数据文件的导入。
5、数据的筛选:Excel中提供了两种数据的筛选操作,即“自动筛选”和“高级筛选”。
6、数据的排序:在选中需排序区域数据后,点击“升序排列”(“降序排列”)工具按钮,数据将按升序(或降序)快速排列
7、数据文件的保存:保存经过初步处理的Excel数据文件。可以使用“保存”工具按钮,或者“文件-保存”菜单,还可以使用“文件-另存为”菜单。
实验二 描述数据的图标方法
实验目的和要求
通过软件辅助,将数据转换为直观的统计表和生动形象的统计图,掌握Excel的制图和制表功能,并能准确地很据不同对象的特点加以运用。
实验步骤
利用Frequency函数获取频数频率:1、将数据输入并激活分别符合条件的单元格。2、打开“插入函数”对话框,选择函数。3、点击“插入函数”对话框确定按钮进入“函数参数”对话框,选中符合条件的对话框。4、使用组合键“Ctrl+Shift+Enter”,得到频数,返回结果。5、对结果进行修饰,加入分组标志及其值,再加入频数具体名称,并且计算频数。
利用直方图:1、将数据输入到指定单元格。2、使用“工具——数据分析”菜单,选择“直方图”。3、进入“直方图”分析工具库,选中复选框。4、单击确定按钮,得到直方图分析工具扩展函数的返回结果。5、对结果进行修饰。
实验三 统计数据的描述
实验目的及要求
应用统计软件,描述统计数据的集中趋势、离散程度、分布偏态。掌握Excel 2003中描述统计指标对应的函数,包括算数平均数、调和平均数、几何平均数、众数、中位数、标准差、方差等。.熟练掌握Excel 2003“描述统计”工具进行描述统计。
实验步骤
掌握一些常用的使用函数。就Average函数进行举例,计算参数的算术平均值,简单算术平均数:1、直接将数据输入到符合条件的单元格。2、然后激活一个空白单元格,输入公式“=AVERAGE( )”,回车返回结果;加权算术平均数,Excel没有提供专门的内置函数,1、可先计算各组的组中值,作为该组一般代表2、激活一空白单元格,输入相关公式,回车返回结果。
“描述统计”分析工具扩展函数:1、使用“工具——数据分析”菜单,打开“数据分析”对话框,从分析工具下框中选择“描述统计”。2、点击数据分析对话框的确定按钮进入“描述统计”对话框,输入区域点击右侧箭头,选择需要分析描述统计结果的数据。3、点击描述统计对话框确定按钮,得到描述统计结果。
实验四 参数估计
实验目的和要求
应用统计软件,完成抽样的工作,并且在抽样数据获取的基础上,计算样本统计量,对对应总体参数进行区间估计。了解抽样组织形式以及如何抽取样本数据,掌握Excel2003中应用函数表单进行参数估计的方法和步骤。
实验步骤
“抽样”分析工具将输入区域视为总体,并使用总体来建立样本。1、使用“工具——数据分析”菜单打开“数据分析”对话框,选择“抽样”,并将其打开。2、点击输入区域右侧的箭头,鼠标拖动选择单元格。3、点击“抽样”对话框的确定按钮,返回结果。
点估计是依据样本估计总体分布中所含的未知参数或未知参数的函数。通常它们是总体的某个特征值,如数学期望、方差和相关系数等。点估计问题就是要构造一个只依赖于样本的量,作为未知参数或未知参数的函数的估计值
区间估计:1、选中单元格,使用“插入——名称——指定”菜单,打开“指定名称”,选择“首行”,点击确定。2、构建函数表单框架。3、输入框架下对应的数据和函数公式。
实验五 假设检验
实验目的与要求
了解不同假设检验内容要求的不同检验统计量和检验方法;掌握利用函数表单进行假设检验的方法和步骤;掌握Excel 2003中应用分析工具库进行假设检验的方法和步骤。
实验步骤
1、创建样本数据,确定需进行假设检验的总体参数2、确定抽样样本统计量及其服从的分布3、进行假设设计(单侧,双侧)4、确定置信水平5、计算检验统计量6、计算置信水平下的检验区间(或检验临界值)7、比较检验统计量与检验区间(或检验临界值) ,得出结论。
实验六 方差分析
实验目的与要求
应用统计软件,对数据进行单因素饭方差分析和双因素方差分析。了解方差分析的假设前提,掌握Excel 2003中应用分析工具库进行方差分析的方法和步骤。
实验步骤
单因素方差分
1、使用“工具——数据分析”打开数据分析对话框,选择“方差分析:单因素方差分析”分析工具,点击确定按钮打开“方差分析:单因素方差分析”对话框。2、输入区域点击右侧箭头,选择单元格。3、分组方式选择“列”单选框。4、点击“方差分析:单因素方差分析”对话框确定按钮,返回结果。
双因素方差分析
1、使用“工具——数据分析”打开数据分析对话框,选择“方差分析:无重复双因素方差分析”分析工具,点击确定按钮打开“方差分析:无重复双因素方差分析”对话框。2、输入区域点击右侧箭头,选择单元格。3、分组方式选择“标志”复选框。4、点击“方差分析:无重复双因素方差分析”对话框确定按钮,返回结果。
二 心得体会 成绩:
统计学实验心得体会
某生产车间30名工人的日产零件数如下(单位:个),试对其一组距为10进行等距分组,第一组为100-110。
编制的频数频率表如下
一个学期的实训不知不觉的就这样过去了,在这里不敢说自己学到很多的东西,但我真的懂得了很多,也在其中明白了很多。在这学期的统计学实验学习中,我加深了对统计学原理的学习,以及对数据知识的理解和掌握,同时也对Excel操作软件的应用有了更深刻的了解,巩固了所学知识,拓展了知识面。结合以上的数据分析,以下是我这几次实验的一些心得和体会。
在统计实验中,对数据的筛选和处理是比较重要的内容和要求。同时对数据的分析也离不开相关软件的支持。比如,要求一个企业30名职工的日生产零件数,就要对数据进行导入、分析、筛选,最后得出答案。因此,Excel软件是实验所不可缺少的。例如,假设样本取自30名职工的日生产零件数,他们的平均生产数是123.1333,总体标准偏差为11.16563,则平均生产数在下列区域内的置信度为95%。。实验主要是对数据进行归类分析,所以完整准确的数据很重要,这就要求我们在进行分析的过程中,不能粗心大意。比如,生产车间30名工人的日生产零件数分别为148、116、128、125、129、140、109、123、137、119、127、132、114、107、124、120、135、108、113、130、110、129、132、123、118、104、123、124、140、107,计算30名工人的平均生产数。这就要注意将30个数据顺次输入A1至A30单元格,然后必须确认激活一个空白单元格,最后输入公式“=Geomean(A1:A30)”,回车返回结果为123.1333。这个例子其实就告诉我们一定要认真地做好每一步,否则就会出错。实验过程中,对Excel软件的安装因要求具体而变的相对简单。虽然大多数计算机都已内存此软件,但在实验中通过具体的操作亦可以提高自己的计算机操作水平。接下来的重头戏就是对统计数据的输入与分析了。按Excel对输入数据的要求将数据正确输入的过程并不轻松,既要细心又要用心。不仅仅是仔细的输入一组数据就可以,还要考虑到整个数据模型的要求,合理而正确的分配和输入数据。因此,输入正确的数据也就成为了整个统计实验的基础。假设某5名工人的生产数为A1=148,A2=116,A3=128,A4=125,A5=129,则计算所有生产零件数的标准偏差公式为:“=STDEVO(A1:A5)”,返回的结果。
通过统计学实验课的学习,培养了我处理数据的基本能力,熟悉了利用Excel搜集和整理数据,掌握了不同类型的数据整理与操作方法;基本学会了Excel的统计制图与制表功能;熟悉了描述统计指标对应的函数,应用统计软件,描述统计数据的集中趋势、离散程度,分布偏态以及峰度等分布特征;了解了抽样组织形式以及如何抽取样本数据,掌握了应用函数表单进行参数估计的方法和步骤;知道了不同假设检验内容要求的不同检验统计量和检验方法,基本懂得Excel中应用函数表单和分析工具库进行假设检验的方法和步骤;可以应用统计软件,对数据进行单因素方差和双因素方差分析、相关和回归分析、时间序列分析。就拿回归来说,示例a=471.4365524,b=3.616534,c=3.432346.所以回归方程为Y=471.4365524+3.616534X1+3.432346X2。判定系数为0.99889,自由度为6,检验统计量为2719.982等。
数据的输入很重要,但如果没有分析的数据则是一点意义都没有实验过程中,在确认Excel安装设置成功的前提下,首先进行的就是对统计数据的输入与分析。因此,统计数据的描述与分析也就成了关键的关键。对统计数据的众数,中位数,均值的描述可以让我们对其有一个初步的印象和大体的了解,在此基础上的概率分析,抽样分析,方差分析,回归问题以及时间序列分析等则更具体和深刻的向我们揭示了统计数据的内在规律性。比如,某地区粮食总产量时间序列数据分别为230、236、241、246、252、257、262、276、281、286,,首先要用“回归”分析工具对数据进行分析,构建的回归方程为:产量=221.8+6.345454545*年份,SignificanceF=1.58282*10^-8,远远小于显著性系数0.05,这说明回归方程是极高度显著的,反映了产量和时间之间的关系,可以进行预测和控制。要预测下一年或下几年的总产量,在对数据进行描述和分析的过程中,Excel软件的数据处理功能得到了极大的发挥,工具栏中的工具和数据功能对数据的处理起了事半功倍的作用。
实验操作当然是统计学实验的核心。 经过了几节课的实验,我发现做实验有许多需要注意的地方,掌握了这些技巧才能让实验结果变的更加准确和方便。在实践中,懂得了怎样用excel来分析和处理数据认识数据背后所隐藏的信息。c.总体方差的置信区间估计。已知总体服从正态分布,将以上数据视为样本数据,样本容量为30,求在概率为90%的保证下,总体方差的置信区间。( 1 )做实验的时候,一定要集中精神,比如我们在做 置信度置信区间的实验时,要注意观察各个数据,选取恰当的公式和计算方法,填写表格时也要注意看清楚,一旦错了一处,就处处都会错。因此集中注意力是相当重要的。( 2 )做实验时要有足够的耐心和定力。就像在计算方差的时候,每个数据都不同,而且分组很多,虽然是用计算机 EXCEL 做,但是我们一定要看清楚数字到底是多少,现在实验结果错了可以改正,但是将来走上工作岗位后,一个数据错了,后果就不堪设想,这就需要足够的耐心。比如:工人的生产零件数样本为数为A1=148,A2=116,A3=128,A4=125,A5=129,则估算所有成绩标准差的公式为“=STDEV(A1:A5)”,返回的结果。
通过实验过程的进行,对统计学的有关知识点的复习也与之同步。在将课本知识与实验过程相结合的过程中,实验步骤的操作也变的得心应手。也给了我们一个启发,在实验前应该先将所涉内容梳理一遍,带着问题和知识点去做实验可以让我们的实验过程不在那么枯燥无谓。同时在实验的同步中亦可以反馈自己的知识薄弱环节,实现自己的全面提高。通过统计学实验学习,提高了自己的动手能力和对数据的敏感度,提高了对数据的分析处理能力,学会从数据中找出隐含的信息点,作出预测和判断,同时也巩固了统计学理论知识。例如,Excel使用Varp,Var,Stdevp,Stdev四个函数分别计算总体方差,样本方差,总体标准差和样本标准差。假设车间有5名工人加班4小时,生产量为A1=88,A2=55,A3=90,A4=72,A5=85,用VARP函数计算成绩方差,则公式“=VARP(A1:A5)”返回171.6。
本次实验是我大学生活中不可或缺的重要经历,其收获和意义可见一斑。首先,我可以将自己所学的知识应用于实践中,理论和实际是不可分的,在实践中我的知识得到了巩固,解决问题的能力也受到了锻炼;其次,本次实验开阔了我的视野,使我对统计在现实中的运作有所了解,也对统计也有了进一步的掌握。 通过本次实验,不仅仅是掌握操作步骤完成实验任务而已,更重要的是在实验中验证自己的所学知识的掌握和运用。统计学的学习就是对数据的学习,而通过实验可以加强我们对统计数据的认知和运用,更好的学习统计学的知识。
这学期的统计学实验与原理课都已经结束了,虽然我并没有完全掌握统计的基本知识与方法,但我也从中学到了不少。至少了解到了统计学的一些一般原理,可以运用Excel进行基本的数据处理与分析;此外,除了关于统计学本门课的知识外,我还明白了对知识的学习不能局限于书面的文字信息,我们需要进一步的实际操作与锻炼,理论联系实际,这样才能更好地掌握一门知识,并在生活中加以运用。总之,我觉得统计学就是要在实践的基础上才能够不断巩固和发展,用理论指导实践,用实践检验理论。
以上就是我这学期统计学实验的一些心得体会,它将会对我以后的工作和学习起到至关重要的作用,帮助我不断提高和完善自己,我为在大学中有机会学习统计学而感到庆幸。在此,我也要感谢老师的辛苦教导与帮助。
第二篇:统计学总结
统计学(Statistics):应用统计学的原理与方法,研究数据的搜集、整理与分析的科学,对不确定性数据作出科学的推断。
医学统计学(Medical Statistics):应用统计学的原理与方法,研究医学科研中有关数据的搜集、整理和分析的应用科学。
统计学方法的特点:
1. 用数量反映质量
2. 统计逻辑:用群体规律估算/推测个体
3. 手段:常通过部分个体估计总体
同质和变异(考试重点)
l 同质(homogeneity) :据研究目的所确定的所有研究对象的相同属性。例子:身高、体重、年龄、容貌……
l 变异(variation):同质研究单位中变量值间的差异,整个统计学甚至是整个科学研究存在的基础。
总体、样本和研究单位(考试重点)
l 总体(population):是根据研究目的确定的同质研究单位的全体。统计学人员习惯将其叫做同质研究单位某种变量值的集合,包括有限总体和无限总体。
l 样本(sample):是总体中抽取的一部分个体。包括随机抽样和非随机样本。
l 样本含量( sample size):样本中包含的研究单位数。
l 观察单位(observed unit):也叫个体或研究单位,它是研究中的个体(individual),完全由研究目的确定。它可以是一个(群)人、一只动物和一个细胞。
变量、变量值和资料(考试重点)
l 变量(variable):按特定目的确定的研究单位的某种特征或属性。
l 变量值(value of variable) :变量的观察或检测结果,也叫变量的观测值。
l 资料(data):在特定目的指引下而确定的变量及其变量值。
l 计量资料(measurement/quantitative/numerical data):其特征是能够用数量衡量,通常具体计量单位。按照变量值是否连续又可分为连续型(continuous/interval)和离散型(discrete)两类按特定目的确定的研究单位的某种特征或属性(请举例)。要特别注意比值资料,如细胞凋亡率。
l 计数资料(enumeration/qualitative/categorical/ nominal data):是将观察单位按某种属性或类别分组计数,分组汇总各组观察单位数后而得到的资料。其变量值是定性的,表现为互不相容的属性或类别。按变量值类别的多少又分为二分类和多分类两种类型(举例)。
l 等级资料(ordinal categorical/rank/semi-quantitative data):是将观察单位按某种属性的不同程度分成等级后分组计数,分组汇总各组观察单位数后而得到的资料,其变量值具有半定量性质。(举例,如血清反应强度、疗效)
参数和统计量(考试重点)
l 参数(parameter):根据总体中所有个体值计算出来的特征量/指标,一般用希腊字母表示。
l 统计量(statistic):根据样本个体值计算出来的描述的特征量/指标,一般用拉丁字母表示。
l 总体参数一般是不知道的,统计工作的目的是:通过样本统计量估计推测总体参数。
误差、随机误差、系统误差和非系统误差(考试重点)
l 误差(error):泛指实际观测值与真值之差,也即样本指标/统计量与总体指标/参数之差。
l 按误差产生的原因分为:系统误差、非系统误差和随机误差。
l 系统误差(systematic error):由于仪器未校正、测量者感官的某种障碍、医生掌握疗效标准偏高或偏低等原因,使观察值不是分散在真值两侧,而是有方向性、系统性或周期性地偏离真值。
l 非系统误差(nonsystematic error):由于研究者偶然 失误而造成的误差。例如:仪器失灵、抄错数据、点错小数点、写错单位等,亦称过失误差(gross error)
l 测量值 = 真值 + 随机误差 + 非随机误差
l 随机误差:是一类不恒定的、随机变化的误差,由于多种目前尚无法控制的因素引起。如:在同一条件下对某一实验进行多次重复,虽极力对其进行控制或消除系统误差后,但实验结果却不尽相同。
l 抽样误差(sampling error):由于抽样所造成的样本统计量与总体参数的差别。随机抽样误差不可避免,具有统计规律性,主要由个体差异(变异)
频率、概率和小概率事件(考试重点)
l 频率(relative frequency): 一次随机试验有几种可能结果,在重复进行试验时,各种结果看来是偶然发生的,但当重复试验次数相当多时,将显现某种规律性。例如,投掷一枚硬币,结果不外乎出现“正面”与“反面”两种
l 概率(probability) 概率是度量随机事件发生可能性大小的一个数值。设在相同条件下,独立地重复n次试验,随机事件A出现 f 次,f/n 则称为随机事件A出现的频率。当 n 逐渐增大时, 频率 f/n趋向于一个常数,则称该常数为随机事件A的概率,可记为 P(A) ,简记为P。概率的取值范围: 0≤ P(A)≤1。
l 频率是就样本而言的,而概率从总体的意义上说的,频率是概率的估计值。试验次数(样本含量)越多(越大),估计就越可靠。
l 小概率事件: 统计分析中的很多结论都基于一定置信程度下的概率推断,小概率是研究人员确定的统计判断或决策标准,习惯上将概率小于0.05或0.01定为小概率事件。研究人员认为小概率事件在一次试验中不可能发生,这即是统计决策必须付出的代价。
医学统计工作的基本步骤
1. 设计(design)
l 设计阶段主要涉及实验的三要素(对象对象、研究因素、实验效应)、四原则(对照、随机、重复和均衡)和设计方法。
l 包括专业设计和统计设计。根据研究对象的不同可将医学科研设计分为:实验设计、调查设计 和 临床实验设计。
2. 收集资料(collection of data)
(1)资料来源
Ø 第一手资料:统计报表(传染病报表、职业病报表、医院工作报表、死亡登记、疫情报告等);经常性工作记录(卫生监督记录、健康检查记录、病历等);专题调查、实验或临床试验。
Ø 第二手资料:已公布的资料,特别是官方出版物,以及其他各种类型的数据。
(2)对资料要求
l 完整:观察单位及观察指标应尽可能地完整
l 准确:即真实、可靠。真实是统计学的灵魂
l 及时:即时限性
3. 整理资料(sorting data)
l 目的:通过对原始数据的条理化、系统化和数量化的处理,使得其能够满足统计分析的需要,特别是要满足统计软件的要求。因此,国外有些教材也把该阶段称作数据筛查(data screening)
l 评估数据质量,弥补缺失值或补做调查或实验,确保数据准确、可信。
4. 分析资料(analysis of data)(考试重点)
l 目的:揭示样本数据中潜藏的内在联系和规律,借以估计总体的特征,从而达到支持决策的目的。
l 包括统计描述(统计图、表、统计指标)和统计推断(假设检验和置信区间)。
资料的类型
l 定量资料: 可直接利用原始测量值进行分析,也可将其分为几类,完全取决于研究目的。
l 无序资料: 二项分类资料(赋值进行量化)和多项分类资料(必须采用哑变量)举行分析。
l 有序数据:可直接进行量化处理。
统计描述:采用合适的统计指标、统计图和统计表来表达数据分布的特征和规律。
极差(range)也称全距,即最大值和最小值之差,记作R。(考试重点)
编制频数表的步骤
1. 求极差
2.确定组距(i)
3.写组段(分为12个组段)
组下限(L):每个组段的起点
组上限(U):每个组段的终点
4.分组段划记并统计频数
描述数据分布类型
(1)对称分布 :若各组段的频数以频数最多组段为中心左右两侧大体对称,就认为该资料是对称分布。
(2)偏态分布 :
l 右偏态分布也称正偏态分布:右侧的组段数多于左侧的组段数,频数向右侧拖尾。 (考试重点)
l 左偏态分布也称负偏态分布:左侧的组段数多于右侧的组段数,频数向左侧拖尾。(考试重点)
频数表和频数分布图用途
1.描述数据分布类型
2.描述频数分布的特征
3.便于发现一些特大或特小的可疑值;
4.便于进一步做统计分析和处理。
集中趋势:遴选最合适的代表值。 离散趋势:评判代表值对总体代表的程度。
集中趋势的描述(考试重点)
统计上使用平均数(average)这一指标体系来描述一组变量值的集中位置或平均水平。 (考试重点) 常用的平均数有:算术均数、几何均数、中位数
l 算术均数:简称均数(mean)。可用于反映一组呈对称分布的变量值在数量上的平均水平或者说是集中位置的特征值。(考试重点)适用于对称分布,特别是正态分布或近似正态分布的资料。
l 几何均数(geometric mean):可用于反映一组经对数转换后呈对称分布的变量值在数量上的平均水平。 适用于成等比级数的资料,特别是对数正态分布资料。
l 中位数(median):是将变量值从小到大排列,位次居于正中间的那个变量值。当数据个数为奇数时,取位次居中的变量值;当为数据个数为偶数时,取位次居中的两个变量值的平均值。 各种分布类 型的资料,特别是偏态分布资料和含有不确定数值的资料。
l 百分位数(percentile)是一种位置指标,用 来表示,读作第X 百分位分数。
离散趋势的描述(考试重点)
常用统计指标:极差、四分位数间距、方差、标准差和变异系数。
极差或全距(Range),用R表示:即一组变量值最大值与最小值之差。
四分位数间距,用QR表示:QR=p75-p25 下四分位数:QL=P25 上四分位数;QU=P75
方差(variance)也称均方差(mean square deviation),反映一组数据的平均离散水平。
标准差:方差的开方
变异系数(coefficient of variation)记为,多用于观察指标单位不同时的变异程度的比较;或均数相差较大时变异程度的比较。 (考试重点)


正态分布的概念:如果随机变量X的分布服从概率密度函数
则称服从正态分布,记作 μ为X的总体均数, 为总体方差。
百分位数法:公式:双侧1-α参考范围 P100α/2~ P100-100α/2 单侧1-α参考范围 >P100或<P100-100α
医学参考值(reference value)是指包括绝大多数正常人的人体形态、机能和代谢产物等各种生理及生化指标常数,也称正常值。 由于存在个体差异,生物医学数据并非常数而是在一定范围内波动,故采用医学参考值范围(medical reference range)作为判定正常和异常的参考标准。
双侧 :即指标过高和过低都不正常,如:血清总胆固醇、血压、体重等等。
单侧: 即仅在指标值过低或过高才被认为不正常,如:血清转氨酶仅过高异常、肺活量。
计算医学参考值范围的常用方法:
l 正态分布法(当资料服从正态分布)
l 百分位数法(当资料不服从正态分布)
抽样误差: 由于存在个体差异,抽得样本的均数不太可能恰好等于总体均数,因此通过样本推断总体会有误差。这种由个体变异产生的、抽样造成的样本统计量(statistic)与总体参数(parameter)的差异,称为抽样误差。(常考内容)
标准误(standard error, SE): 表示样本统计量抽样误差大小的统计指标。
均数标准误:说明均数抽样误差的大小,总体计算公式
t 分布: 若某一随机变量X服从总体均数为
、总体标准差为
的正态分布
,则可通过u变换(
)将一般正态分布转化为标准正态分布N(0,12),即u分布.
t 分布特征
1. 单峰分布,以0为中心,左右对称;
2. 自由度
越小,则t值越分散,t分布的峰部越矮而尾部翘得越高;
3. 当
逼近¥,
逼近
, t分布逼近u分布,故标准正态分布是t分布的特例
参数估计 :用样本统计量推断总体参数。
总体均数估计:用样本均数推推断总体均数
点估计:就是用相应样品统计量直接作为其总体参数的估计值。如用ˉX估计μ,S估计σ等。其方法虽简单,但未考虑抽样误差的大小。
区间估计:是按预先给定的概率(1-α)所确定的包含位置总体参数的一个范围。该范围称为参数的可信区间(confidence bound/confidence interval, CI);预先给定的概率1-α称为可信度或置信度(confidence level),常取95﹪或99﹪,如果没有特别说明,一般取双侧95﹪。

可信区间的两个要素
(1) 准确度:用可信度(1-a)表示:即区间包含总体均数m的理论概率大小 。它愈接近1愈好,如99%的可信区间比95%的可信区间要好 。
(2) 精确度:即区间的宽度 。 区间愈窄愈精确,如95%的可信区间比99%的可信区间要好 。
假设检验的步骤
1.建立检验假设,确定检验水准
① m=m0:即检验假设,常称无效假设或零/原假设,用H0表示。
② m¹m0:即备择假设,常称对立假设,用H1表示。
③ a:即检验水准,也称显著性水准。a是预先规定的概率值,它确定了小概率事件的标准。在实际工作中常取a=0.05。
2.计算检验统计量
应根据变量和资料类型、设计方案、统计推断的目的、方法的适用条件等选择检验统计量。
3.确定P值
按照所选择的统计方法计算P值。P值的含义是指从H0规定的总体中随机抽样,抽得等于及大于(或/和等于及小于)现有样本获得的检验统计量(如t、u)值的概率。
4.下结论
n 将上述计算所得概率P与检验水准a进行比较,判断其是否为小概率事件,从而得出结论。一般来说,结论应包含统计结论和专业结论两部分。统计结论只说明有无统计学意义,而不能说明专业上的差异大小。必须将二者结合起来,才能得出符合客观实际的结论。
n 若P≤a,则结论为按所取的a检验水准,拒绝H0,接受H1,有统计学意义(统计结论),可认为……不等或不同(专业结论)。 ;
n 若P>a,则结论为按a检验水准,不拒绝H0,无统计学意义(统计结论),还不能认为……不等或不同(专业结论)。
t检验和u检验的应用条件
1. t检验应用条件 样本含量n较小时(如n<60)
(1)正态分布
(2)方差齐性
2. u 检验应用条件 样本含量n较大,或n虽小但总体标准差已知
( 1)方差齐性(homogeneity of variance)
总变异:全部测量值大小不同,这种变异称为总变异。
离均差平方和:总变异的大小可以用离均差平方和(sum of squares of deviations from mean,SS)表示,即各测量值Xij与总均数差值的平方和,记为SS总。
组间变异:各处理组由于接受处理的水平不同,各组的样本均数(i=1,2,…,g)也大小不等,这种变异称为组间变异。其大小可用各组均数与总均数的离均差平方和表示,记为SS组间 。
均方差,均方(mean square,MS)。
完全随机设计:(completely random design)是采用完全随机化的分组方法,将全部试验对象分配到g个处理组(水平组),各组分别接受不同的处理,试验结束后比较各组均数之间的差别有无统计学意义,推论处理因素的效应。
随机区组设计(randomized block design)又称为配伍组设计,是配对设计的扩展。具体做法是:先按影响试验结果的非处理因素(如性别、体重、年龄、职业、病情、病程等)将受试对象配成区组(block),再分别将各区组内的受试对象随机分配到各处理或对照组。
率:说明某现象发生的频率或强度。 常以百分率(%)、千分率(‰)、万分率(1/万)、十万分率(1/10万)等表示,计算公式为:
构成比:表示事物内部某一部分的个体数与该事物各部分个体数的总和之比,用来说明各构成部分在总体中所占的比重或分布。通常以100%为比例基数。
相对比简称比(ratio),是两个有关指标之比,说明两指标间的比例关系。两个指标可以是性质相同,如不同时期发病数之比;也可以性质不同,通常以倍数或百分数(%)表示。
应用相对数的注意事项
1、计算相对数应有足够数量即分母不宜太小。
2、不能以构成比代替率
3.正确计算合计率
4.注意资料的可比性
动态数列(dynamic series):是一系列按时间顺序排列起来的统计指标(可以为绝对数,相对数或平均数),用以观察和比较该事物在时间上的变化和发展趋势。常用的动态数列分析指标有:绝对增长量、发展速度与增长速度、平均发展速度与平均增长速度。
二项分布(binomial distribution)是指在只会产生两种可能结果如“阳性”或“阴性”之一的n次独立重复试验(常常称为n重Bernoulli试验)中,当每次试验的“阳性”概率保持不变时,出现“阳性”的次数X=0,1,2,…,n的一种概率分布。
二项分布的适用条件
- 每次试验只会发生两种对立的可能结果之一,即分别发生两种结果的概率之和 恒等于1;
- 每次试验产生某种结果(如“阳性”)的概率π固定不变;
- 重复试验是相互独立的,即任何一次试验结果的出现不会影响其它试验结果出 现的概率。
Poisson分布(Poisson distribution)作为二项分布的一种极限情况,已发展成为描述小概率事件发生规律性的一种重要分布。Poisson分布是描述单位面积、体积、时间、人群等内稀有事件(或罕见事件)发生数的分布。
Poisson分布的适用条件
假定在规定的观测单位内某事件(如“阳性”)平均发生次数为λ,而其样本计数为X(X=0,1,2,…)。则在满足下面三个条件时,有X~P(λ)。
1. 普通性 在充分小的观测单位上X的取值只能为1个,不能同时取多个值。
2. 平稳性 X的取值只与观测单位的大小有关,而与观测单位的位置无关。
3. 独立增量性 在某个观测单位上X的取值与其他各观测单位上X的取值无关。
卡方检验目的:推断两个总体率或构成比之间有无差别
多个总体率或构成比之间有无差别
多个样本率的多重比较
两个分类变量之间有无关联性
频数分布拟合优度的检验。
检验统计量:X2
应用:计数资料
X2分布的一个基本性质是可加性
参数检验
如果总体分布为已知的数学形式,对其总体参数作假设检验。 如: t 检验和 F 检验 。
非参数检验:对总体分布不作严格假定,又称任意分布检验(distribution-free test),
它直接对总体分布作假设检验。
秩转换的非参数检验应用范围:
对于计量资料:
1. 不满足正态和方差齐性条件的小样本资料;
2. 分布不明的小样本资料;
3. 一端或二端是不确定数值(如<0.5、>5.0等)的资料(必选);
对于等级资料:
若选行×列表资料的 x2检验,只能推断构成比差别,而选秩转换的非参数检验,可推断等级强度差别。
wilcoxon秩和检验,用于推断两个独立样本所来自的两个总体分布是否有差别。
直线回归
目的:研究应变量Y对自变量X的数量依存关系。
特点:统计关系。 X值和Y的均数的关系,不同于一般数学上的X 和Y的函数关系。
回归模型的前提条件:线性(linearity)独立(independent)正态(normal)等方差(equal variance)
直线回归方程的一般表达式为
a 为回归直线在 Y 轴上的截距, b为回归系数,即直线的斜率.
残差(residual)或剩余值,即实测值Y与假定回归线上的估计值的纵向距离。
直线回归方程的求法: 原则:最小二乘法(least sum of squares),即可保证各实测点至直线的纵向距离的平方和最小.

决定系数(coefficient of determination)
取值在0到1之间且无单位,其数值大小反映了回归贡献的相对程度,也就是在Y的总变异中回归关系所能解释的百分比。
SS总=SS回+SS残,
即
,为
的离均差平方和,表示未考虑
与
的回归关系时
的总变异。
直线相关(linear correlation)又称简单相关(simple correlation),用于双变量正态分布(bivariate normal distribution)资料。目的:研究两个变量X,Y数量上的依存(或相关) 关系。特点:统计关系
相关系数(correlation coefficient)又称Pearson积差相关系数,用来说明具有直线关系的两变量间相关的密切程度与相关方向。
相关系数没有单位,其值为-1≥ r≥ 1。r值为正表示正相关,r值为负表示负相关,r的绝对值等于1为完全相关,r=0为零相关。
样本相关系数的计算公式为
秩相关适用条件:双变量计量资料: ①资料不服从双变量态分布; ②总体分布型未知,一端或两端是不确定数值(如<10岁,≥65岁)的资料;原始数据(一个或两个变量值)用等级表示的资料。
曲线拟合: 当发现散点图中应变量 Y 和自变量 X 间表现出非线性趋势时,可以通过曲线拟合方法来刻画两变量间数量上的依存关系。
几种曲线拟合:对数曲线、指数曲线、抛物线 、S型曲线
统计表(statistical table)是表达统计分析结果中数据和统计指标的表格形式;
统计图(statistical graph)是用点、线、面等各种几何图形来形象化表达统计数据。
制表的基本要求
(1)标题:概括表的主要内容,包括研究的时间、地点和研究内容,放在表的上方。
(2)标目:分别用横标目和纵标目说明表格每行和每列数字的意义,注意标明指标的单位。
(3)线条:至少用三条线,表格的顶线和底线将表格与文章的其它部分分隔开来,纵标目下横线将标目的文字区与表格的数字区分隔开来。部分表格可再用横线将合计分隔开,或用横线将两重纵标目分割开。其它竖线和斜线一概省去。
(4)数字:用阿拉伯数字表示。无数字用“—”表示,缺失数字用“¼”表示,数值为0者记为“0”,不要留空项。数字按小数位对齐。
(5)备注:表中数字区不要插入文字,也不列备注项。必须说明者标“*”号,在表下方说明。
常用统计图
1.直条图(bar chart)
2.圆图(pie chart)和百分比条图(percent bar chart)
3.线图(line graph)
4.直方图(histogram)
5.统计地图(statistical map)
6.其他特殊分析图
箱式图(box plot)
茎叶图(stem-leaf plot)
误差条图(error bar chart)
线图是用线段的升降来表示数值的变化,适合于描述某统计量随另一连续性数值变量变化而变化的趋势,最常用于描述统计量随时间变化而变化的趋势。
箱式图(box plot)使用5个统计量反映原始数据的分布特征,即数据分布中心位置、分布、偏度、变异范围和异常值。箱式图的箱子两端分别是上四分位数和下四分位数,中间横线是中位数,两端连线分别是除异常值外的最小值和最大值。另外标记可能的异常值。
多因素试验资料的方差分析设计类型:析因设计 各因素各水平的全面组合 处理组合数 g = 各因素水平数之积。
正交试验:非全面组合,g个处理组是各因素 各水平的部分组合,即析因设计 的部分实施。
嵌套试验:非各处理因素各水平的全面组合,而是各因素按隶属关系系统分组,各因素水平没有交叉。
裂区设计:两因素析因设计的特殊形式。
单独效应 指其他因素的水平固定时,同一因素不同水平间的差别。
主效应 指某一因素各水平间的平均差别/不考虑其他因素下的效应。
交互作用 当某因素的各个单独效应随另一因素变化而变化时,则称这两个因素间存在交互作用。
析因设计变异分解
重复测量资料
目的:推断处理、时间、处理×时间作用于试验对象的试验指标的作用。
资料特征:处理因素 g (≥1 )个水平,每个水平有n个试验对象,共计 gn个试验对象。时间因素 同一试验对象在m(≥2 )个时点获得m个测量值,共计gnm个测量值。
方法:方差分析
单组前后测量设计与配对设计的区别区别
logistic回归 分析目的:作出以多个自变量(危险因素)估计应变量(结果因素)的logistic回归方程。属于概率型非线性回归。
用途:研究某种疾病或现象发生和多个危险因素(或保护因子)的数量关系。
logistic回归种类: 1. 成组(非条件)logistic回归方程。
2. 配对(条件)logistic回归方程。
优势比OR(odds ratio)流行病学衡量危险因素作用大小的比数比例指标。计算公式为:
logistic回归的应用及注意事项
1.流行病学危险因素分析
2.便于控制混杂因素效应
3.预测与判别
等级变量和无序分类变量的数量化
样本含量的计算(经验标准和科学计算)
模型拟合优度(偏差、显著性检验、假决定系数、AIC、BIC和预测准确率)
二分类logistic回归、有序logistic回归和多分类logistic回归的选择