第一章
生物统计学:是数理统计在生物学研究中的应用,它是应用数理统计的原理和方法来分析和解释生物界各种现象和试验调查资料的一门学科,属于应用统计学的一个分支。
内容:试验设计:试验设计的基本原则、试验设计方案的制定和常用试验设计的方法
统计分析:数据资料的搜集、整理和特征数的计算、统计推断、方差分析、回归和相关分析、协方差分析等
生物统计学的作用:
1. 提供整理、描述数据资料的科学方法并确定其特征
2. 判断试验结果的可靠性
3. 提供由样本推断总体的方法
4. 试验设计的原则
相关概念:1.总体:研究对象的全体,是具有相同性质的个体所组成的集合
2.个体:组成总体的基本单元
3.样本:由总体中抽出的若干个体所构成的集合 n>30 大样本; n<30 小样本
4.参数:描述总体特征的数量
5.统计数:描述样本特征的数量
由于总体一般很大,有时候甚至不可能取得,所以总体参数一般不可能计算出来,而采用样本统计数来估计总体的参数
6..效应:由因素而引起试验差异的作用
7. 互作:两个或两个以上处理因素间的相互作用产生的效应
生物统计学的研究包括了两个过程:
1. 从总体抽取样本的过程——抽样过程
2. 从样本的统计数到总体参数的过程——统计推断过程
第二章
1.算术平均数:是所有观察值的和除以观察的个数 平均数(AVERAGE)
特性:(1)样本中各观测值与平均数之差-离均差-的总和等于零
(2)样本中各观测值与其平均数之差平方的总和,比各观测值与任一数值离均差的平方和小,即离均差平方和最小
2.中位数:将试验或调查资料中所有观测依从大小顺序排列,居于中间位置的观测值称为中位数,以Md表示
3.众数:在一个样本的所有观察值中,发生频率最大的一个值称为样本的众数,以Mo表示
4.几何平均数:资料中有n个观测值,其乘积开n次方所得的数值,以G表示。
5.极差(全距):样本数据资料中最大观测值与最小观测值的差值
R=max{x1,x2,…,xn} — mix{x1,x2,…,xn}
7.样本标准差:
(1)标准差的大小,受多个观测值的影响,如果观测值与观测值间差异大,标准差就大
(2)在计算标准差的时候,如果对各个观测值加上或者减去一个常数a,其标准差不变;如果乘以或除以一个常数a,则标准差扩大或者缩小a倍
STDEV: 基于给定样本的标准偏差
STDEVP:基于给定样本总体的标准偏差
8变异系数(CV):样本标准差除以样本的平均数,得到百分比
(1)变异系数是样本变量的相对变量,是不带单位的纯数
(2)用变异系数可以比较不同样本相对变异程度的大小
第三章
概率的计算法则:
(1)乘法定理:如果A和B为独立事件,则事件A和B同时发生的概率等于各自事件的概率的乘积
(2)加法定理:互斥事件A和B的和的概率等于事件A和事件B的概率之和
加法定理推理1:
如果A1、A2、…An为n个互斥事件,则其和事件的概率为:
P(A1+A2…An)=P(A1)+P(A2)+…+P(An)
加法定理:如果A和B是任何两件事件,则
概率分布:
(1)离散型随机变量的概率分布
P(x=xi)=pi (i=1,2,…, n)
离散随机变量的方差
(2)连续型随机变量的概率分布
连续型随机变量的概率分布
1. 连续型随机变量可以取某一区间或整个实数轴上的任意一个值
2. 它取任何一个特定的值的概率都等于0
3. 不能列出每一个值及其相应的概率
4. 通常研究它取某一区间值的概率
5. 用数学函数的形式和分布函数的形式来描述
概率密度函数:(1)设X为一连续型随机变量,x 为任意实数,X的概率密度函数记为f(x),它满足条件
(2) ,f(x)不是概率
几种常见的概率分布:(适用范围,尾函数,自由度)
1. 二项分布的概率函数 记作B(n,p)或者B(n,π)
(1)每次试验只有两个对立结果,分布记为A与 它们出现的概率分布为p与q(q=1-p)
(2)试验具有重复性和独立性
二项式分布的概率累积函数:
若随机变量x服从二项式分布,则有二项分布的总体平均数为
二项分布的总体标准差为:
二项成数(百分数)分布的平均数:
二项成数(百分数)分布的标准差:
例:假设年龄60~64岁的100名男性在1986年注射了一种新的流感疫苗而在第二年内死亡5人,这正常嘛?(注:1986年,60~64岁的男性老人第二年的死亡率约为0.02)
解:要知道100个男性的样本死亡5人是不是“异常”事件,这种估计的一个准则是寻找至少5人死亡的概率。
注:通常是把概率值为0.05或者更小的概率事件识别为异常(稀有事件)。
由于至少5人死亡的概率是0.05,可见100人中至少死亡5人是稍微有点异常,但不是很异常。
如果至少死亡10人,那么概率是3.44*10-5,这就很不正常,因而,在没有其他证据显示此疫苗有效前,应考虑停止使用。
2. 泊松分布
二项式分布中,如果p值很小而n值很大( p<0.1 和np<5 ),则泊松分布
式中: 为参数,
泊松分布的平均数、方差、标准差
例:假如我们研究乳腺癌的遗传敏感性。我们发现,母亲
曾患有乳腺癌的1000名40~49岁的妇女,在研究开始后的1年中,有4人患有乳腺癌,而我们从大总体中知道在这相同的时间内,1000人中有1个人发生乳腺癌。试问乳腺癌有没有敏感性?
解:如果用二项分布,则n=1000,p=1/1000,
解:如果用泊松分布,则n=1000,p=1/1000, 则平均值 =1
则:这个事件是异常事件,则认为有乳腺癌的妇女,她们的子代具有遗传敏感性
6. 正态分布求和为0
4. t分布:是小样本分布,小样本分布一般是指n<30。t分布适用于
当总体标准差未知时用样本标准差代替总体标准差,
由样本平均数推断总体平均数.
以及2个小样本之间差异的显著性检验等 P45
6.F分布
1、概率抽样:根据已知的概率选取样本
简单随机抽样:完全随机地抽选样本
分层抽样:总体分成不同的“层”,然后在每一层内进行抽样
整群抽样:将一组被调查者(群)作为一个抽样单位
等距抽样:在样本框中每隔一定距离抽选一个被调查者
2、非概率抽样:不是完全按随机原则选取样本
非随机抽样:由调查人员自由选取被调查者
判断抽样:通过某些条件过滤来选择被调查者
3、配额抽样:选择一群特定数目、满足特定条件的被调查者
抽样分布:从一个给定的总体中抽取(不论是否有放回)容量(或大小)为n的所有可能的样本,对于每一个样本,计算出某个统计量(如样本均值或标准差)的值,不同的样本得到的该统计量的值是不一样的,由此得到这个统计量的分布,称之为抽样分布
1. 所有样本指标(如均值、比例、方差等)所形成的分布称为抽样分布
2. 是一种理论概率分布
3. 随机变量是 样本统计量——样本均值, 样本比例等
4 结果来自容量相同的所有可能样本
(符号)
样本平均数的基本性质:
(1)样本均值的均值(数学期望)等于总体均值