一、生物数据统计分析的功用
1、科学地整理分析数据:科学试验或调查的数据很多,需要系统整理才能进行统计分析。
2、判断试验结果的可靠性、有效性:试验总是会受到非处理因素的影响,分析后才能知道结果的可靠性,才能下比较正确的结论。
3、确定事物之间的相互关系:生物事件(变量)之间的相互关系是重要的生物学研究命题。
4、提供试验设计的原则:生物学研究首先应进行科学的试验设计,节省经费,结果可靠。
5、为相关学科研究提供基础:生物各学科的研究均需要生物统计学。
二、科学方法的种类:
1. 归纳推理:根据多次观察总结出的理论和定律。真实的理论和定律需要足够的观察次数。
2. 演绎推理: 从定理和理论导出解释和预言的方法。
科学研究一般将理论或由理论演绎出的理论看作假说,然后采用证伪论,论证此假说是否符合逻辑(实际),若观察与假说不一致,就可以否定此假说。
三、科学研究的过程:
1. 模式描述(观察研究):对自然现象的数量化和充分描述。
2. 模型:对观察模式的解释称为模型或理论。
经验模型是对过程产生关系的描述,而不是过程本身的数学描述。
理论模型是研究过程的,其预测范围通常更大一些。
3. 假说和检验:从模型或理论推导出的预言称为(逻辑)假说。
4. 证伪的备择:归纳与演绎都有优缺点,每一个假说的真假判断都有一定的概率测度
四、实验检验的问题:
1. 不论实验室还是野外实验,总是存在对自然的操作处理。
2. 调查、实验的空间和时间尺度的大小。尺度过小,结论往往带有片面性,代表性不足; 尺度过大(如整个生态系统),很难再设重复,检验的精度又不能保障。
因此,在强调处理试验的同时,不能过于教条。研究的尺度要适中。
五、常用名词:
?总体与个体:总体是根据研究目的确定的研究对象的全体,是具有相同性质的个体所组成的集合; 个体是组成总体的基本单元。
?样本与样本量:样本是指从总体中抽出的若干个体的集合; 样本(容)量是样本个体数目的大小。样本量在30以下的为小样本,30以上的为大样本。
?随机抽样与随机样本:随机抽样是消除主观愿望的客观抽样,总体中的每个个体被抽取的机会均等。随机样本是由随机抽样获得的样本。
④变量与常量:变量:相同性质的事物间表现差异性或差异特征的数据称为变数或变量。如人的身高,小麦的株高,花卉的分枝数等。变量可分为定量和定性变量。定量变量包括连续变量和非连续变量(离散型变量)。 常量:能代表事物特征和性质的数值。如样本平均数、标准差等。
⑤参数与统计量:参数(参量)是对总体特征的度量。如总体平均数,标准差等。
统计量:根据样本计算出的用来推断总体参数的数值称为统计量(数),可用作总体参数的估计值,但参数不是样本的计算值。
⑥效应与互作:效应是通过施加试验处理,引起试验差异的作用;互作又叫连应:是指两个或两个以上处理因素间相互作用产生的效应。
⑦ 随机误差与系统误差:随机误差,也叫抽样误差,是由于试验中无法控制的内在和外在的偶然因素所造成的试验结果与真实结果之间的差异。带有偶然性质、是不可避免的。统计上的试验误差一般都指随机误差。随机误差影响试验的精确性;
系统误差,也叫片面误差,是由于试验处理以外的其他条件控制不一致所产生的带有倾向性的或定向性的偏差。系统误差可以克服,系统误差影响试验的准确性
错误是指在试验过程中,由于人为作用引起的差错。错误在试验中是完全可以避免,不允许出现。
⑧准确性与精确性:准确性,也叫准确度,指在调查或试验中某一试验指标或性状的观测值与其真值接近的程度; 精确性,也叫精确度,指调查或试验中同一试验指标或性状的重复观测值彼此接近的程度。准确性是说明测定值对真值符合的程度大小,而精确性是说明多次测定值的变异程度大小。正确性是准确性、精确性的合称。
⑨数量性状是指能够以计数和测量或度量的方式表示其特征的性状。数量性状资料就是观察测定数量性状而获得的数据。数量性状资料的获得方式有计数和测量两种,因而数量性状资料又分为计数资料和计量资料两种。
计数资料:其数据在两个相邻整数间不得有任何带小数的数值出现,因此各观察值是不连续的,计数资料也称为非连续变量资料或间断变量资料或离散变量资料。
计量资料:数据是用长度、重量、容积、温度、浓度等来表示,要带单位。这种资料的各个观测值不一定是整数,数据间的变异是连续性的,所以计量资料也称为连续变量资料。
⑩质量(属性)性状资料:观察质量性状而获得的数据;质量性状是指能观察到而不能直接测量的性状。
抽样调查:是根据一定的原则从研究对象中抽取一部分具有代表性的个体进行调查的方法
抽样的方法主要有:机械抽样法、随机抽样法、分层抽样法,一般采用随机抽样法。
随机抽样必须满足2个条件:一是总体中每个个体被抽中的机会是均等的;二是总体中任意一个个体是相互独立的,是否被抽中不受其他个体的影响。
⑴试验是对已有的或没有的事物加以处理的方法。常见的试验设计方法有:对比设计、随机区组设计、平衡不完全区组设计、裂区设计、拉丁方设计、正交设计、正交旋转设计等等
组限 是指每个组变量值的起止界限;组中值 是两个组限的中间值。
⑵变量的分布具有两种明显的基本特征:集中性和离散性。
集中性是变量在趋势上有着向某一中心聚集,或者说以某一数值为中心而分布的性质。
离散性是变量有着离中分散变异的性质。
⑶平均数是统计学中最常用的统计量,是计量资料的代表值,表示资料中观测数的中心位置
算术平均数(均数/值)是总体或样本资料中所有观测数的总和除以观测数的个数所得的商。
中位数Md(中数)是资料中所有观测数依大小顺序排列,居于中间位置的观测数。
众数M0是资料中出现次数最多的那个观测值或次数最多一组的组中值或中点值。
几何平均数G是资料中有n个观测数,其乘积开n次方所得数值。
算术平均数的计算方法:直接计算法,减去常数法,加权平均法。
第二篇:《生物统计学》试题B
《生物统计学》试题(B)
一、名词解释(每题2分,共20分)
总体与样本 数量性状资料与质量性状资料 无效假设与备择假设 中心极限定理
a 错误与 b错误 点估计与区间估计 随机模型与固定模型
简单回归、偏回归与多元回归 回归分析与相关分析 适合性测验与独立性测验
二、选择题(将所选答案填在下表中,每题2分,共20分)
1.二项分布、Poisson分布、正态分布各有几个参数:( )
A、 (1,1,1 ) B、 (2,2,2) C、 (2,1,2) D、 (2,2,1 )
2.第一类错误是下列哪一种概率: ( )
A、 P(接受H0| H0为假) B、 P(否定H0| H0为假)
C、 P(接受H0| H0为真) D、 P(否定H0| H0为真)
3.测量某医学指标,得到500个性质相同且近似服从正态分布的实验数据,求得算术平均数(),标准差(s)和标准误(),则区间[-1.960s, +1.960s]所代表的含义为:( )
A、它是的99%置信区间 B、它是总体平均数的5%置信区间
C、它是该医学指标的95%正常值范围 D、它是该医学指标的99%正常值范围
4.、 s和同上题,试问区间[-2.576, +2.576]所代表的含义为:( )
A、它是总体平均数的99%置信区间 B、它是的99%置信区间
C、它是该医学指标的95%正常值范围 D、它是总体平均数的95%置信区间
5.统计学中,“标准误”的正确解释是:( )
A、样本均值的标准差 B、样本率的标准差 C、标准差的标准差 D、统计量的标准差
6.变异系数的定义式为:( )
A、CV=(·s)×100% B、CV= (/s)×100%
C、CV= (s/)×100% D、CV= (s2/)×100%
7.u、t和F检验的共同前提条件是( )
A、方差齐性(同质性) B、正态性 C、可加性 D、正态性和方差齐性(同质性)
8.两因素A、B之间有显著的交互作用,意味着:( )
A、因素A的作用随因素B的作用增强而增强
B、因素A的作用随因素B的作用增强而减弱
C、一个因素的各水平对试验结果的影响随另一个因素水平的改变而改变
D、一个因素的各水平对试验结果的影响不随另一个因素水平的改变而改变
9.有资料如下:
两种劳动类型的人的血清胆固醇水平(mg%)
问有哪些方法可用来比较两种劳动类型的人的血清胆固醇水平之间的差别是否有显著性意义?( )
A、t测验或u测验 B、c2测验 C、相关分析 D、回归分析
10.设ρ为总体相关系数,根据实际资料算得样本相关系数r后,需进行显著性检验,其零假设应该为:( )
A、H0:r=0 B、H0:r≠0 C、H0:ρ=0 D、H0:ρ≠0
三、填空题(每空1分,共20分)
1.平均数是反映样本( )性的特征数,平均数有( )、( )、( )、( )等。
2.算术平均数的两个重要特征是( )和( )。
3.常用的变异数有( )、( )、( )、( )。
4.通常当( )时用u测验,当( )时用t测验。
5.多重比较方法有( )、( )、( )。
6.对于次数资料X2检验,可以分为( )和( )两类。
7.两变数资料相互关系的分析中测定相关性质和密切程度的统计量是( ),而测定两变量线性回归显著程度的统计量是( )。
四、简答题(每题5分,任选4题)
1.举例说明生物性状中哪类性状及情况服从正态分布?二项分布?泊松分布?
2.试述统计假设测验的方法和步骤。
3.试述方差分析的基本假设。方差分析时数据转换的方法主要有哪几种?
4.LSD法、SSR测验和q测验间有何异同?
5.什么是卡平方(c2)测验?如何应用c2测验进行适合性测验和独立性测验?
五、简单计算题(每题10分,任选2题)
1.一种遗传疾病检测的敏感性为95%,而其专一性为98%。假定该遗传病在群体中的发病率为1/1000,试计算某人经检测为阳性,而实际上也是该遗传病患者的可能性。(提示:若A表示某人确实患该遗传病,B表示某人检测为该遗传病患者,95%敏感性意味着Pr(B|A)=0.95,98%专一性意味着Pr(B|notA)=0.02)
2.请选用合适的变异指标,初略地评价下列两组数据的变异度何者较大?6只中年大鼠谷丙转氨酶含量(u/L, X1)和白蛋白含量(g/L, X2)的测定结果如下:
3.维吾尔族与回族居民血型构成比资料见下表,试问两民族血型分布是否相同?
维吾尔族与回族居民血型构成比调查结果
4.某研究者测得10名3岁儿童的体重(X:kg)与体表面积(Y:×100cm2),并求得Y随X变化的直线回归方程为=2.5212+0.2385X,相关系数r=0.5779。问此直线回归方程是否有显著性意义?
附录:
附表1 学生氏t值表(两尾)
附表2 值表(右尾)
附表3 r和R的5%和1%显著值