《非参数统计分析》
课程设计指导书
一、 课程设计的目的
加深理解本课程的研究方法,思想精髓,加强解决实际问题的能力,熟练Excel,MINITAB,常用统计软件的应用.
掌握符号检验的方法及其应用,学习非参数统计的思想,掌握统计软件的用法。
二、 设计名称:
江苏省内南北地区差异对降水量的影响
三、 设计要求
1.运用Minitab Excel软件对数据进行处理
2.掌握Mood中位数检验法和Wicoxon秩和检验法去分析地域差异对房地产开发投资是否有影响
3.数据来源必须真实,并独立完成
四、 设计过程
1.思考课程的目的,寻找来源真实的数据
2.利用上网、图书馆等积极搜集整理数据
3.应用统计软件来分析地域差异对房地产开发投资的影响
4.写出相应的实验报告,并对结果进行分析
五、设计细则
1.注意对数据的采集,不要过于繁杂,不要过少
2.吸取他人的经验,总结自己的教训,有条不紊的进行
3.利用Minitab软件分析处理数据具有简介、直观、科学的特点,而且功能很强大
4.写报告书时,理论说明部分要简洁易懂,操作过程要正确完整,叙述过程要清楚明了。分析结果要正确与实际问题背景相符。
六、说明
1. 对对于同一题,可以采用不同的方法来分析检验问题,也许两种结果都是合理的,这是从不同的角度来分析问题,这就是统计学与简单的数学不同之处;
2. 符号检验法,符号秩检验法的相关知识点,统计相关软件的操作方法;
3. 对于同一个问题要从不同角度考虑,学会多角度思考分析问题;
4. 学会小组交流讨论,懂得与他人团结合作,加强团队交流合作精神。
课程设计任务书
课程设计报告
课程: 非参数统计分析
学号:
姓名:
班级:
教师:
设计名称: 江苏省内南北地区差异对降水量的有没有影响 日期: 2013年6 月 30日
设计内容:
在研究江苏省内南北地区差异对降水量有没有影响的实验中,选取4个北部城市和9个南部城市5月份的降水量(徐州,连云港,宿迁,以及淮安属于北部,其余属于南部)
南部: 40.6 43.3 42.6 52.7 52.0 77.8 37.5 60.3 89.2
北部: 49.3 64.6 102.6 68.2
能否说明南部地域北部地域的降水量高。
设计目的与要求:
加深理解本课程的研究方法,具备运用非参数方法以及相应的Minitab,Excel统计软件操作处理实际问题的能力。并掌握统计软件实现Mood中位数检验和Wicoxon秩和检验法解决两样本中心位置的一致性检验问题
设计环境或器材、原理与说明:
设计环境与器材:机房 计算机 Minitab软件 Excel软件
原理与说明:
(1)Mood中位数法
假设样本和分别取自相互独立的连续型随机变量总体X和Y。
记X和Y的中位数分别为,。
Mood检验法检验的原假设和备择假设都有三种情况,这三种情况的原假设都是=,而备择假设分别为,和,将样本和混合在一起,记样本,的中位数为,
构成四格表:
(2)Wicoxon秩和检验法
假设样本和分别来自相互独立的连续型随机变量总体和。由于总体服从连续型分布,不妨假设合样本的各个单位之间互不相等,记合样本容量,Wilcoxon秩和检验问题的原假设为:和同分布。
记在合样本中的秩为,则在原假设为真时,服从均匀分布:
,其中是从这N个数中任取个数的一个排列。
记样本的秩和为:
设计过程(步骤)或程序代码:
(1) 描述性统计分析
(1)a.进入minitab 系统,建立数据文件,
b.选择图形→直方图→图形变量
c.在变量中键入c2,单击确定。
d.选择统计→基本统计量→显示描述性统计
e.在描述性统计对话框键入c2→单击确定
(2)a.进入minitab系统,调入工具单数据。
b.选择图形→箱线图→图形变量
c.在变量中键入c2,单击确定。
(2)Mood中位数法:
应用Minitab软件,键入数据
(1) 打开minitab软件,导入数据
a:数据→堆叠(堆叠‘南部’,‘北部’、当前工作表的列‘c3’、将下表存储在‘c4’) →确定
(2)选择统计→基本统计量→显示描述性统计→在变量中选择c3,点击确定。
(3)选择统计下拉菜单;
(4)选择非参数选项;
(5)选择Mood中位数检验;
(6)在Mood中位数的对话框中的响应中填入c3,因子中填入c4,点击确定。
(3)Wilcoxon秩和检验法:
(1)分别输入南部地区和北部地区降水量数据,选择统计—>非参数—>Mann-Whitney,在第一样本中选择“C1”,第二列样本中选择“C2”,备择假设为小于,单击确定;
(2)选择数据—>堆叠—>列,堆叠“C1”和“C2”,选择当前工作表的列为“C3”,将结果储存在“C4”,单击确定;
(3)选择数据—>排秩,对“C3”进行排秩,结果保存在“C5”中,单机确定;
(4)选择数据—>排序,对“C3 C4 C5”进行升序,按C5进行,结果保存在原工作表,点击确定;
设计结果与分析(可以加页):
(1)描述性统计分析
描述性统计: 南部
均值标 下四分 上四分
变量 N N* 均值 准误 标准差 最小值 位数 中位数 位数 最大值
南部 9 0 55.11 5.93 17.80 37.50 41.60 52.00 69.05 89.20
(2)Mood中位数检验法:
描述性统计: C3
均值标 下四分 上四分
变量 N N* 均值 准误 标准差 最小值 位数 中位数 位数 最大值
C3 13 0 60.05 5.53 19.93 37.50 42.95 52.70 73.00 102.60
Mood 中位数检验: C3 与 C4
C3 的 Mood 中位数检验
卡方 = 1.93 DF = 1 P = 0.164
单组 95.0% 置信区间
C4 N<= N> 中位数 Q3-Q1 ---------+---------+---------+-------
北部 1 3 66.4 40.9 (-------*-----------------)
南部 6 3 52.0 27.4 (----*----------)
---------+---------+---------+-------
60 80 100
整体中位数 = 52.7
* 注 * 观测值小于 6 的水平具有的置信度小于 95.0%
中位数 (北部) - 中位数 (南部) 的 95.0% 置信区间: (-11.0,60.0)
解:设X ,Y 分别江苏南部地域,江苏北部地域两组降水量。
中位数分别为,
要检验 : >
将两组数据混合,按顺序排列,则其合并数据的中位数=52.7
当为真时,选取“样本中小于等于的数据的个数”A作为检验统计量
10
这时A=3
k=0,1、、、、10
P值=0.164
当,接受,认为江苏省内南北地区降水量差异不大。
(3)Wilcoxon秩和检验法:
解:X ,Y 分别江苏南部地域,江苏北部地域两组降水量。
中位数分别为,分别抽取样本
要检验 : >
当为真时,选取统计量
其中为混合数据中的秩
其中d=9*4/2+9*4=54
是从1,、、、、、、,13中取4个数,其和为的所有可能取法。
Mann-Whitney 检验和置信区间: 南部, 北部
N 中位数
南部 9 52.00
北部 4 66.40
ETA1-ETA2 的点估计为 -14.45
ETA1-ETA2 的 96.3 置信区间为 (-50.60,13.19)
W = 54.0
在 0.0948 上,ETA1 = ETA2 与 ETA1 < ETA2 的检验结果显著
由实测值=54
相应的p值=0.0948
当时,接受原假设,认为江苏省内南方地区与北方地区降水量差异不大。
设计体会与建议:
通过这次课程设计,我学会了许多课本上学不到的东西,同时也加强了我的动手、思考和解决问题的能力,受益匪浅。在课程设计过程中,我觉得是对课本知识的巩固和加强,由于课本上的知识太多,同时平时课间又没有好好的运用课本知识,而且考试的内容有限,所以在这次课程设计过程中,我了解很多有关非参数的知识,对其实际生活的应用有更多的认识。
从前的学习过程过于浮浅,只是流于表面的理解,而现在要做课程设计,就不得不要求我对所用到的知识有更深层次的理解。因为课程设计的内容比及书本中的理论知识而言,更接近于现实生活,而理论到实践的转化往往是一个艰难的过程,它犹如一只拦路虎,横更在我的面前。但是我毫不畏惧,因为我相信我能行。通过这次课程设计使我懂得了理论与实际相结合是很重要的,只有理论知识是远远不够的,只有把所学的理论知识与实践相结合起来,从理论中得出结论,才能真正为社会服务,从而提高自己的实际动手能力和独立思考的能力。在设计的过程中遇到问题,可以说得是困难重重,这毕竟第一次做的,难免会遇到过各种各样的问题,同时在设计的过程中发现了自己的不足之处,对以前所学过的知识理解得不够深刻,掌握得不够牢固。
此次课程设计,学到了很多课内学不到的东西,比如独立思考解决问题,出现差错的随机应变,和与人合作共同提高,都受益非浅,今后的制作应该更轻松,自己也都能扛的起并高质量的完成项目。
四周的课程设计已经结束,我将珍藏这段难忘的时光,是她让我让我知道,任何一种小小的成绩后面,也许就隐藏着许许多多不为人的艰辛。
在此,我要感谢我的代课老师,还有其他代理课程设计的老师,也向他们表示衷心的感谢!
设计成绩: 教师签名:
年 月 日
第二篇:非参数统计结课总结
非参数统计结课论文
姓名:姚文锋
班级:20xx157
学号:20xx15726
专业:统计学
非参数统计检验方法的总结
引言:非参数统计作为数理统计学的分支,是解决很多不知道数据分布的问题的主要方法,通过运用非参数方法可以对事物起建立统计模型和数学描述。
摘要:本文主论述了非参数估计的符号检验、秩检验和ridit检验法等多种检验方法。
关键字:符号检验、秩检验、ridit检验
1、非参数估计的理解
对计量资料进行统计分析,常对计量资料进行统计分析,常用用方法有两类——参数统计和非参数统计。t检验、方差分析和直线相关回归分析都属于参数统计方法。参数统计方法要求的前提条件是,资料应服从或近似服从正态分布, t检验、方差分析还要求方差具有齐性。当前提条件不满足时,就不应选用参数统计方法。符号检验、秩和检验属于非参数统计方法。非参数统计方法对资料不要求必须是正态分布,也不要求方差必须具有齐性。当对资料的分布情况及方差情况不清楚或没把握,或者经过检验不满足正态分布或方差齐性的要求时,就应当选用非参数统计方法对资料进行统计分析。
2非参数检验的方法
非参数检验不仅对资料分布没有特殊要求,除了用连续数量表示的的
资料外,它还可以对样本数据的符号、等级程度、大小顺序等进行比较,加上方法简便,易于掌握,不要求复杂的计算工具,还可查表判断,能处理一些参数法处理不了的问题, 因而应用更广泛,值得学习和推广。常用的非参数统计方法有: 符号检验、秩和检验、秩检验、等级相关检验以及Ridit分析等。
?符号检验是指通过符号“+”和“-”的个数来进行统计推断的,它所关心的信息只与两类观测值有关。
?Wilcoxon符号秩检验、wilcon-mann-whitney秩和检验、spearman秩相关检验、方差检验。
秩检验统计量定义:设样本X1,X2,X3,...,Xn是取自总体X的简单随机样本,该组数据中不超过Xi的数据个数Ri,称Ri为Xi的秩,Xi是第Ri个顺序统计量,R是由样本产生的统计量,称为秩统计量。 符号秩检验
下面是wilcoxon符号秩检验的过程,假设样本点来自连续对称总体分布,在这个假定下总体中位数等于均值。它的检验目的和符号检验是一样的,即要检验双边问题Ho:M=Mo 或检验单边问题Ho:M≤Mo及Ho::M≥Mo,具体步骤如下:
1)对i=1,2,...,n,计算∣Xi-Mo∣;它们表示这些样本点到Mo的距离。
2)将上面n个绝对值排序,并找出它们的n个秩;如果you相同的样本点,每个点取平均秩。
3)令W+等于Xi-Mo>0的∣Xi-Mo∣的秩的和,而W-等于Xi-Mo<0的
∣Xi-Mo∣的秩的和,注意:W++W-=n(n+1)/2.
4)对双边检验Ho:M=Mo←→H1:M≠Mo,在零假设下,W+和W-应差不多 。因而,当其中之一很小时,应怀疑零假设;在此,取检验统计量W=min{W+,W-}.类似的,对Ho:M≤Mo←→H1:M>Mo的单边检验取W=W-;对Ho:M≥Mo←→H1:M<Mo的单边检验取W=W+.
5)根据得到的W值,查符号秩检验的分布表以得到在零假设下的p值,如果n很大要用正态近似,得到一个与W有关的正态随机变量Z的值,再查表得到p值,或直接在软件中计算得到p值。
6)如果p值小,则可以拒绝零假设,实际上显著性水平ɑ可取任何大于或等于p值的数,如果p值较大,则没有充分证据来拒绝零假设,但不意味着接受零假设。
秩和检验 检验的基本步骤为:
(1)建立假设; H0:差值的总体中位数为0;H1:差值的总体中位数不为0;检验水准为0.05。
(2)算出各对值的代数差;
(3)根据差值的绝对值大小编秩;
(4)将秩次冠以正负号,计算正、负秩和;
(5)用不为“0”的对子数n及T(任取T+或T-)查检验界值表得到P值作出判断。
应注意的是当n>25时,可用正态近似法计算u值进行u检验,当相
同秩次较多时u值需进行校正。
秩方差检验
当各处理得样本重复数据存在区间之间的差异时,必须考虑区组对结果的影响,对于随机区组的数据,传统的方差分析要求实验误差是正态分布的,当数据不符合方差分析的正态前提时,Friedman建议采用秩方差分析法。它对实验误差没有正态分布的要求,仅仅依赖于每个区组内所观测的秩次。
其他检验方法:
ridit检验法
Ridit是relative to an identified distribution unit一词的缩写,其意为“与特定分布相对的单位”。Ridit分析的步骤是:(1)选观察人数较多、数据比较稳定的组作为标准组,计算各等级所相应的Ridit值R。 (2)计算标准组的平均Ridit值 标准组的Ridit值。(3)计算标准误SRi,求标准组以外各组Ri的95%可信限。(4)判断结论。以各组的95%可信限与标准组R=0.5比较,如可信限不包括0.5在内则认为差别有显著性,否则为无显著性。
正态分布检验法
正态分布检验,即判断一样本所代表的背景总体与理论正态分布是否没有显著差异的检验,具有最重要的意义,也是应用最为广泛的检验方法,是参数统计分析的前提[1]。
采用的正态分布检验方法有:
1、正态概率累积分布图法,具有直观性好的特点,适用于大样本(总体)。
2、经验法,用样本中位数M与算术平均值的比值和算术平均值与标准差的关系进行判断,反映峰形和峰态:0.9<M/X<1.1 且 >3S如果以上关系成立,则可认为样本大致成正态分布。根据总体和样本的大小,正态概率累积分布图法用于总体正态分布特征的描述,经验法用于样本分布特征分析。
综述
对于单一样本的推断问题可以采用符号检验、符号秩检验以及正态性检验;对于多组数据位置推断要用jonckheere-terpstra检验、随机区组数据的调整秩和检验及Cochran检验;最后卡方独立性检验和ridit检验作用分类数据的关联分析。