试验统计方法复习总结
引言
? 统计学:研究事物的数量特征及其数量规律的一门方法论学科
? 生物统计学:研究生物的数量特征及其数量规律的一门方法论学科(数理统计和概率论的原理在生物学研究中的应用)
? 生物统计学的两大内容及其作用
? 1.试验设计:科学的设计和操作试验,其主要作用是减少试验误差,获得科学准确的试验数据.主要内容有基本知识,试验方案,试验误差,试验设计的原则和方法.
? 2.统计分析:科学的分析数据,其主要作用是发现事物数量的本质及其规律.主要内容有基本知识,基本原理,统计假设测验,方差分析,相关回归分析等.
科学研究的基本过程和方法
(一) 科学研究的基本过程(与第五章的统计假设测验有密切的联系)
(1)提出假设或假说;
(2)进行试验或抽样调查;
(3)分析数据肯定或否定或修改假说。
(二) 科学研究的基本方法
1.选题2.文献3.假说 4.试验的规划与设计 5.假说的检验
第一章
1.何为实验因素,实验水平,实验处理?何谓简单效应、主要效应和交互作用效应?举例说明。
试验因素:简称因素或因子(factor):被变动并设有待比较的一组处理的因子或试验研究的对象(研究对象的效应)。
水平(level):试验因素内不同的级别或状态。
试验处理(treatment):单因素试验中的每一个水平即为一个处理;多因素试验中是不同因素的水平结合在一起形成的处理组合,也简称为处理。
简单效应(simple effect): 在同一因素内两种水平间试验指标的差异。
主效(main effect):一个因素内各简单效应的平均数。
交互作用效应(interaction effect),简称互作: 因素内简单效应间差异的平均。
例、有一N和P对水稻A品种的小区试验产量结果如下:
互作的实质:反映了一个因素的不同水平在另一个因素的不同水平上 反应不一致的现象.
2.什么是实验方案,如何制定一个正确的实验方案?试举例说明?
试验方案:根据试验目的和要求所拟定的用来进行比较的一组试验处理的总称。
1.目的明确。
2. 选择适当的因素及其水平。
3. 设置对照水平或处理,简称对照(check,符号CK)。
4. 应用唯一差异原则。
3.什么是实验误差?实验误差与实验的准确度,精确度以及实验处理间的可靠性有什么关系?
试验误差的概念:试验结果与处理真值之间的差异
试验误差的分类:
1.系统误差(systematic error) : 由于固定原因造成的试验结果与处理真值之间的差异.
系统误差影响了数据的准确性,准确性是指观测值与其理论真值间的符合程度;
2.随机误差(random error):由于随机因素或偶然因素造成的
试验结果与处理真值之间的差异.
随机误差影响了数据的精确性,精确性是指观测值间的符合程度。
4实验误差有哪些来源?如何控制?
来源:(1)试验材料固有的差异
(2)试验时农事操作和管理技术 的不一致所引起的差异
(3)进行试验时外界条件的差异
控制:(1)选择同质一致的试验材料
(2) 改进操作和管理技术,使之标准化
(3) 控制引起差异的外界主要因素
选择条件均匀一致的试验环境;
试验中采用适当的试验设计和科学的管理技术;
应用相应的科学统计分析方法。
第二章
1、试验设计( experiment design)
广义----是指整个试验研究课题的设计,包括确定试验处理的方案,小区技术,以及相应的资料搜集、整理和统计分析的方法等;
狭义----专指小区技术,特别是抽样方法.重复区组和试验小区的排列方法。主要通过抽样方法,重复区组和处理小区的不同排列方法,达到控制或减少试验误差的目的.
处理小区----一个处理所占有的一小块试验空间或试验地.
重复区组( block ) ----一个试验的全部处理小区相邻排列在一起即构成一个区组.
2、田间试验设计的基本原则是什么?有何作用?
试验设计的三个基本原则
1.重复 2.随机 3.局部控制
重复的作用: 估计试验误差 ;降低试验误差 。
随机的主要作用:无偏估计试验误差;研究随机事件----获得随机变量-----概率的性质------进行统计分析(统计推断)!
局部控制就是分范围分地段或分空间地控制非处理因素,使之对各试验处理的影响在较小空间内达到最大程度的一致,从而有效地降低试验误差。
这是降低误差的重要手段之一
第三章
1总体,样本,参数,统计数的概念和关系?
总体( population ):具有共同性质的个体所组成的集团.
有限总体----由有限个个体构成的总体.
无限总体----总体所包含的个体数目有无穷多个 .
样本( sample ):从总体中抽取若干个个体的集合称为样本(sample)。
参数:由总体中全部个体观察值计算得总体特征值.
统计数( statistic ):测定样本中的各个体而得的样本特征数,如平均数等,称为统计数
关系:试验研究的目的是为了获得总体的信息或特征;
试验研究的方法则是抽样研究;
利用样本的结果(统计数)推断或估计总体特征 (参数).
2算数平均数的意义和特性?
算术平均数 一个数量资料中各个观察值的总和除以观察值个数所得的商数,称为算术平均数
算术平均数的重要特性:(1)离均差之和为零(2)离均差平方的总和最小
3变异数的意义、种类和计算?
变异数的意义:一表示资料数据间的变异程度或离散程度或离均程度;二可以衡量平均值的代表性.
变异数的种类: 一、极差 二、方差 三、标准差 四、变异系数
计算:样本标准差的公式为:
总体标准差用表示:
变异系数( coefficient of variation ) ----样本的标准差对均数的百分数:
变异系数是一个不带任何单位的平均一个单位纯数离均程度,其作用:消除了平均值大小及所带单位不同的影响,其可用以比较二个事物的变异度大小。
第四章
1统计概率、正态离差含义?
统计学上用n较大时稳定的频率近似代表概率。通过大量实验而估计的概率称为实验概率或统计概率,以p表示。
正态离差:
2正太分布曲线特征的第五点?
正态曲线与横轴之间的总面积等于1,因此在曲线下横轴的任何定值,例如从y=y1到y=y2之间的面积,等于介于这两个定值间面积占总面积的成数,或者说等于y落于这个区间内的概率。正态曲线的任何两个y定值ya与yb之间的面积或概率乃完全以曲线的 和 而确定的。详细数值见附表2,下面为几对常见的区间与其相对应的面积或概率的数字:(非常重要)
区间 ±1 面积或概率=0.6827
±2 =0.9545
±3 =0.9973
±1.960 =0.9500
±2.576 =0.9900
对于标准正态分布则有区间 0±1 面积或概率=0.6827
0±2 =0.9545
0±3 =0.9973
0 ± 1.960 =0.9500
0 ±2.576 =0.9900
3小概率原理及其在统计假设测验中的应用?
小概率原理----若事件A发生的概率较小,如小于0.05或0.01,则认为事件A在一次试验中不太可能发生,这称为小概率事件实际不可能性原理,简称小概率原理。
小概率事件实际不可能性原理在统计假设测验中的应用:如果事先假设了一些条件,在这些假设的条件下若计算出某一事件为一小概率事件,然而它在一次正常的试验中竟然发生了;反过来说明假设的条件不正确,从而否定该假设(接受另一个相反的假设)
4、样本平均数抽样分布及其参数?样本平均数差数抽样分布及其参数?
从已知的总体中以一定的样本容量进行随机抽样,由样本的统计数所对应的概率分布称为抽样分布。抽样分布( sampling distribution )是统计推断的理论基础。
如果从容量为N的有限总体抽样,若每次抽取容量为n的样本,那么一共可以得到 个样本(所有可能的样本个数)。 抽样所得到的每一个样本可以计算一个平均数,全部可能的样本都被抽取后可以得到许多平均数。如果将抽样所得到的所有可能的样本平均数集合起来便构成一个新的总体,平均数就成为这个新总体的变量。由平均数构成的新总体的分布,称为平均数的抽样分布。随机样本的任何一种统计数都可以是一个变量,这种变量的分布称为统计数的抽样分布。
(1) 该抽样分布的平均数 与母总体的平均数相等:
(2) 该抽样分布的方差与母总体方差间存在如下关系:
如果从一个总体随机地抽取一个样本容量为n1的样本,同时随机独立地从另一个总体抽取一个样本容量为n2的样本,那么可以得到分别属于两个总体的样本,这两个独立随机抽取的样本平均数间差数( )的抽样分布参数与两个母总体间存在如下关系:
(1) 该抽样分布的平均数与母总体的平均数之差相等:
(2) 该抽样分布的方差与母总体方差间的关系为:
第五章
1区间估计,置信区间,置信限,置信度的概念?
区间估计:在一定的概率保证之下,由样本的统计数估计出总体参数可能位于的区间.
置信区间( confidence interval ):在一定的概率保证之下,由样本的统计数估计出的总体参数可能位于的区间.区间的上、下限称为置信限( confidence limit )
一般以L1和L2分别表示置信下限和上限。
置信系数或置信度:保证总体参数位于置信区间的概率以P=(1- )表示。
2什么是统计假设?统计假设有哪几种?各有何含义?假设测验时直接测验的统计假设是那一种为什么?
统计假设(statistical hypothesis) :对样本所属的总体(特征值或参数)提出假设(包括无效假设和备择假设两个,在后面有说明)。
- 无效假设(null hypothesis):记作H0,假设样本所属总体效应或参数(平均数)与某一指定值相等或假设两个总体参数相等,即相对而言都不具有自己的独特效应.
- 备择假设( alternative hypothesis ):记作 HA,假设样本所属总体效应或参数(平均数)与某一指定值不相等或假设两个总体参数不相等,或相对而言它们都有自己的独特效应.所以也可以称为有效假设.
因为只有无效假设相当于总体已知,这样才能从已知的总体中进行抽样分布,才能进一步计算样本在无效假设中出现的概率。
3区间估计和假设测验的关系?
区间估计与统计假设测验的关系为:
1 如果无效假设位于置信区间内,就接受无效假设,称为
差异不显著;
2 如果无效假设位于置信区间外,就否定无效假设,接受
备择假设,称为差异显著;
4什么是显著水平?为什么要有一个显著水平?根据什么确定显著水平?它和统计推断有何关系?
用来测验假设的小概率标准5%或1%等,称为显著水平
由于显著水平不同可能直接影响到推断结果.本例题如果
用0.01水平就要接受无效假设,所以必须事先确定显著水平.
选用显著水平的原则:统计上达显著,实际上有应用价值.
选用显著水平的原则:试验误差小的,选高水平0.01;
试验误差大的,选低水平0.05.
5什么叫统计推断?它包括哪些内容?什么是统计假设测验,它的原理和方法?
统计推断:利用概率论和抽样分布的原理,由样本结果(统计数)推断或估计其总体特征(参数).
它有两条路:一是统计假设测验,二是参数的区间估计.本教材主要是统计假设测验.
统计假设测验的含义:首先对样本所属的总体提出统计假设(无效假设 ,备择假设 )然后计算样本在无效假设的总体中出现的概率,若概率大则接受该假设;若概率小则否定该假设,从而接受另一个相反的备择假设
具体有以下三大步:
(一)提出统计假设:对所研究的总体首先提出统计假设
(二)计算概率: 在假定无效假设为正确的前提下,研究抽样分布,从而计算出样本在无效假设的总体中出现的概率
(三) 推断: 根据“小概率事件实际上不可能发生”原理接受或否定无效假设
第六章
1方差分析的基本方法基本步骤?
方差分析的步骤:
1.平方和及自由度的分解:把试验资料总变异的平方和及自由度分解为各个因素的平方和及自由度,并计算出它们的方差.
2.F测验:利用f分布测验各个因素的方差是否显著大于误差方差.以明确哪个因素的效应是显著的.
3.多重比较:对方差显著的因素内水平间的平均数进行比较(差异显著性测验),以明确哪些平均数间差异显著,哪些平均数间差异不显著.
2、F测验的两个前提条件?
F测验需具备条件:
(1)变数y遵循正态分布N( , ),
(2) s12 和 s22 彼此独立 。
3、多重比较方法尺度大小和应用?
多重比较方法尺度的大比较:
1.P=2时:
2.P>2时:
(1)试验事先确定比较的标准,凡与对照相比较,或与预定要比较的对象比较,一般可选用最小显著差数法(LSD法);
(2)新复极差法(SSR法)适用于试验精确度一般的所有均值间的相互 比较.
(3)q法测验适用于试验精确度较高的所有均值间的相互比较.
4、方差分析的含义是什么?如何进行自由度和平方和的分解?如何进行F测验和多重比较?
所谓方差分析(analysis of variance) :是将总变异剖分为各个变异来源的相应部分,从而发现各变异原因在总变异中相对重要程度的一种统计分析方法。是关于k(k≥3)个样本平均数的假设测验方法.
平方和及自由度的分解:把试验资料总变异的平方和及自由度分解为各个因素的平方和及自由度,并计算出它们的方差.
F测验:利用f分布测验各个因素的方差是否显著大于误差方差.以明确哪个因素的效应是显著的. F测验(方差差异的显著性测验或方差的同质性测验)的方法
1.提出统计假设
2.规定显著水平
3.计算概率
4.推断:如果 就否定无效假设,接受备择假设
如果 接受无效假设
多重比较的基本思路
利用误差方差计算出最小显著差异标准,若任两个均值之差的绝对值
标准, 则它们的总体均值 就差异显著; 反之就差异不显著.
多重比较:对方差显著的因素内水平间的平均数进行比较(差异显著性测验),以明确哪些平均数间差异显著,哪些平均数间差异不显著.
5、方差分析有哪些基本假定?
(1) 处理效应与环境效应等应该具有“可加性”(additivity) 以组合内只有单个观察值的两向分组资料的线性可加模型为例予以说明
(2)试验误差 应该是随机的、彼此独立的,具有平均数为零而且作正态分布,即“正态性”(normality) .
(3)所有试验处理必须具有共同的误差方差,即误差同质性(homogeneity)
第七章
1适合性测验独立性测验的含义?
适合性测验的概念:测验实际次数与理论次数是否相适合的卡平方测验
独立性测验的概念:测验两个因素的列联次数是否相互独立的卡平方测验. 独立性测验的实质:测验实际次数与理论次数是否相适合的卡平方测验
第九章
1什么叫回归分析?直线回归方程和回归截距回归系数的统计意义是什么?如何计算?如何对直线回归进行假设测验和区间估计?
回归分析:计算回归方程为基础的统计分析方法。
(一)直线回归方程式
(9·1)
n a回归截距(regression intercept):a是x=0时Y的值,即回归直线在y 轴上的截距。
n b 回归系数(regression coefficient):b是x 每增加一个单位数时,Y平均地将要增加(b>0时)或减少(b<0时)的单位数。
建立回归方程或求a和b的原理是:
最小二乘法或最小平方法原理,即使各个实际值y与回归直线对应值之差平方之和最小.
其几何图形上的含义:各个实际观测点与回归直线上点之距离和为最小,即误差为最小.
(1).提出统计假设,H0: =0 , Ha: ≠O
(2).规定显著水平为0.05或0.01
(3).计算概率:计算b来自 =0的总体的概率
2什么叫相关分析?相关系数决定系数各有什么具体意义?如何计算?如何对相关系数做假设测验?
相关分析:计算相关系数为基础的统计分析方法。计算表示Y 和X 相关密切程度的统计数,并测验其显著性。
相关系数是两个变数标准化离差的乘积之和的平均数。
n 相关系数的功能定义:表示变量间相关性质与程度的统计数
n 相关系数的计算定义:由自变量引起的回归平方和占依变量总平方和比率的平方根(见公式9.34下)
n 相关系数的推导定义:是两个变数标准化离差的乘积之和的平均数。
n 一般回答问题时常指功能定义!
决定系数(determination coefficient)定义为由x不同而引起的y 的平方和 占y总平方和SSy= 的比率
所以决定系数即相关系数r 的平方值。
n (一) 的假设测验
n 测验一个样本相关系数 r 所来自的总体相关系数是否为0,所作的假设为H0: 对HA: ≠0。
n 在的总体中抽样,r的分布随样本容量n的不同而不同。
n r的抽样误差:
n 当 时:
n 或 (9·37)
n 此 t 值遵循 的t分布,由之可测验 H0: 。
n 对于同一资料,线性回归的显著性等价于线性相关的显著性。
n 将(9·37)移项,即可得到自由度和显著水平一定时的临界 r 值: