如何确定临床试验设计中的样本含量?(一)
在临床试验研究中,无论是实验组还是对照组都需要有一定数量的受试对象。这是因为同一种实验处理在不同的受试对象身上表现出的实验效应是存在着变异的。仅凭一次实验观测结果或单个受试者所表现出来的实验效应说明不了什么问题。必须通过一定数量的重复观测才能把研究总体真实的客观规律性显示出来,并且可以对抽样误差做出客观地估计。一般说来重复观测次数越多,抽样误差越小,观测结果的可信度越高。一定数量的重复还可起到部分抵消混杂因素影响的作用,增强组间的可比性。但重复观测次数越多(即样本含量越大)试验所要消耗的人力、物力、财力和时间越多,可能会使试验研究成为不可能。而且,样本含量过大还会增加控制试验观测条件的难度,有可能引入非随机误差,给观测结果带来偏性(bias)。所以在实验设计中落实重复原则的一个重要问题就是如何科学合理确定样本含量。由于在各对比组例数相等时进行统计推断效能最高,因此多数情况下都是按各组样本含量相等来估计。但在个别情况下,也可能要求各组样本含量按一定比例来估计。
1 与样本含量估计有关的几个统计学参数
在估计样本含量之前,首先要对以下几个统计学参数加以确定或作出估计。
1.1 规定有专业意义的差值δ,即所比较的两总体参数值相差多大以上才有专业意义。δ是根据试验目的人为规定的,但必须有一定专业依据。习惯上把δ称为分辨力或区分度。δ值越小表示对二个总体参数差别的区分度越强,因而所需样本含量也越大。
1.2 确定作统计推断时允许犯Ⅰ类错误(“弃真”的错误)的概率α,即当对比的双方总体参数值没有差到δ。但根据抽样观测结果错误地得出二者有差别的推断结论的可能性,α确定的越小,所需样本含量越大。在确定α时还要注意明确是单侧检验的α,还是双侧检验的α。在同样大小的α条件下;双侧检验要比单侧检验需要更大的样本含量。
1.3 提出所期望的检验效能power,用1-β表示。β为允许犯Ⅱ类错误(“取伪”的错误)的概率。检验效能就是推断结论不犯Ⅱ类错误的概率1-β称把握度。即当对比双方总体参数值间差值确实达到δ以上时,根据抽样观测结果在规定的α水准上能正确地作出有差别的推断结论的可能性。在科研设计中常把1-β定为0.90或0.80。一般来说1-β不宜低于0.75,否则可能出现非真实的阴性推断结论。
1.4 给出总体标准差σ或总体率π的估计值。它们分别反映计量数据和计数数据的变异程度。一般是根据前人经验或文献报道作出估计。如果没有前人经验或文献报道作为依据,可通过预实验取得样本的标准差s或样本率P分别作为σ和π的估计值。σ的估计值越大,π的估计值越接近0.5,所需样本含量越大。
在对以上统计学参数作出规定或估计的前提下,就可以根据不同的推断内容选用相应的公式计算出所需样本含量。由于在同样的要求和条件下完全随机设计(成组设计)所需样本含量最大,故一般都要按完全随机设计作出样本含量的估计。
2 常用的估计样本含量的方法
2.1 两样本均数比较时样本含量估计方法
(1)两样本例数要求相等时可按下列公式估算每组需观察的例数n。
n=2*[(α+β)σ/δ]^2 (公式1)
式中δ为要求的区分度,σ为总体标准差或其估计值s,α、β分别是对应于α和β的u值,可由t界值表,自由度υ=∞-行查出来,α有单侧、双侧之分,β只取单侧值。
例1,某医师研究一种降低高血脂患者胆固醇药物的临床疗效,以安慰剂作对照。事前规定试验组与对照组相比,平均多降低0.5 mmol/L以上,才有推广应用价值。而且由有关文献中查到高血脂患者胆固醇值的标准差为0.8 mmol/L,若要求犯Ⅰ类错误的的概率不超过5%,犯Ⅱ类错误的概率不超过10%,且要两组例数相等则每组各需观察多少例?
本例δ=0.5 mmol/L,σ=0.8 mmol/L,α=0.05,β=0.10,1-β=0.90,查t界值表自由度为∞一行得单侧t0.05=1.645,t0.1=1.282,代入公式(1)
n=2*[(1.645+1.282)×0.8/0.5]^2=44
故要达到上述要求,两组至少各需观察44例。
(2)两样本例数要求呈一定比例(n2/n1=c)时,可按下列公式求出n1,再按比例求出n2=c*n1。
n1=[(α+β)σ/δ]^2*(1+C)/C (公式2)
例2 对例1资料如一切要求都维持不变,但要求试验组与对照组的例数呈2∶1比例(即C=2),问两组各需观察多少例?
n1=[(1.645+1.282)×0.8/0.5]^2×(1+2)/2 =33(例)(对照组所需例数)
n2=2×33=66(例)(试验组所需例数。)
两组共需观察99例多于两组例数相等时达到同样要求时两组所需观察的总例数2×44=88。
2.2 配对设计计量资料样本含量(对子数)估计方法
配对设计包括异体配对、自身配对、自身前后配对及交叉设计的自身对照,均可按下列公式进行样本含量估计。
n=[(α+β)σd/δ]^2 (公式3)
式中δ、α、β的含义同前,σd为每对差值的总体标准差或其估计值sd。
例3 某医院采用自身前后配对设计方案研究某治疗矽肺药物能否有效地增加矽肺患者的尿矽排出量。事前规定服药后尿矽排出量平均增加35.6 mmol/L以上方能认为有效,根据预试验得到矽肺患者服药后尿矽排出量增加值的标准差 sd=89.0 mmol/L,现在要求推断时犯Ⅰ类错误的概率控制在0.05以下(单侧),犯Ⅱ类错误的概率控制在0.1以下,问需观察多少例矽肺病人?
本例δ=35.6 mmol/L, sd=89.0 mmol/L,α=0.05,β=0.10。1-β=0.90,单侧t0.05=1.645,t0.1=1.282,代入公式(3)得到。
n=[(1.645+1.282)×89/35.6]^2=54(例)
故可认为如该药确实能达到平均增加尿矽排出量在35.6 mmol/L以上,则只需观察54例病人就能有90%的把握,按照α=0.05的检验水准得出该药有增加矽肺病人尿矽作用的正确结论。
2.3 样本均数与总体均数比较时样本含量估计方法
可按下式估算所需样本含量n。
n=[(α+β)σ/δ]^2 (公式4)
例4已知血吸虫病人血红蛋白平均含量为90g/L,标准差为25g/L,现欲观察呋喃丙胺治疗后能否使血红蛋白增加,事先规定血红蛋白增加10g/L以上才能认为有效,推断结论犯Ⅰ类错误的概率α(双侧)不得超过0.05,犯Ⅱ类错误的概率β不得超过0.10,问需观察多少例病人?
本例δ=10g/L,σ=25g/L,0.05=1.96(双侧),0.10=1.282代入公式(4)得:
n=[(1.960+1.282)×25/10]^2=66(例)
故如果呋喃丙胺确实能使血吸虫病人血红蛋白平均含量增加10g/L以上,则只需观察66例就可以有90%的把握在α=0.05检验水准上得出有增加血吸虫病人血红蛋白平均含量的结论。
.
--------------------------------------------------------------------------------
第二篇:临床研究中的样本量估算_1_临床试验
?504?中医杂志20xx年第48卷第6期 JournalofTraditionalChineseMedicine,2007,Vol.48,No.6
?循证医学与中医?
临床研究中的样本量估算:(1)临床试验
万 霞 李赞华 刘建平
(北京中医药大学基础医学院循证医学中心,100029)
[摘 要] 临床试验中的样本含量估算是临床医生进行科研设计所关注的重要问题之一。介绍了临床试验研究中样本量估算的重
要性、常用的参数以及常见的两个样本比较及分层设计的样本含量的估算,并附有实例说明。同时,在的常见问题,提出了几点注意事项。
[关键词] 临床试验;样本量;均数;率;分层
1 临床研究样本含量估算的重要性
,,?理论上来说,样本含量越小,所需的经费越少,实际操作也越简单,这正是所有临床医生所期望的;但是如果样本含量太小,则研究结果的可重复性及代表性较差,研究结果容易得出假阴性或假阳性的结论,即很难获得两组之间存在的真实差异。那么是否样本量越大就越好呢?样本量越大,则所需经费和需要的研究资源越多,实际操作的难度就越大。因此,样本的代表性和执行成本之间存在着不可调和的矛盾。所以,如果对样本含量进行正确的估算,获得适当的样本含量,既可以节省大量的人力、物力和财力,同时也可以减少对受试者造成的潜在伤害,使研究结果真实可靠。一般情况下,两组间效应差异越小,则所需的样本含量越大。在临床中,需要根据研究的目的和研究设计的方法,对样本含量进行正确的估算。
本文介绍临床试验研究中常见的两个样本比较及分层设计的样本含量的估算,下期将介绍观察性研究的样本量估算。
2 决定临床试验样本含量大小的参数
在正确估计样本含量时,应考虑以下几个重要的统计学参数:(1)总体平均数(Λ)、标准差(Ρ)或总体率(Π)等。、、ΛΡΠ一般未知,通常以样本的θx、S、P作为估计值,可以从预试验、查阅文献、经验估计而获得;(2)处理组间的差别?:所比较的两个总体参数间的差别
基金项目:国家重点基础研究发展计划资助(2006CB504602)通讯作者:万霞,wanxiasnake@1631com,(010)64286757
由于研究者无法得到总体,1Λ2-Λ1。
,可以通过预试验来估计或用临床上认为有意义的差值(假设)来代替;(3)统计检验的水准Α(即第一类错误的概率),Α规定越小,则所需样本量越多。一般取值为0105。U1-0105?2=1196(双侧),U1-0105=1164(单侧);为了计算简便,以下所用公式Α均取(4)统计检验的效能(1-Β0105。,其中Β为第二类错误的概率),即在特定的Α水准下,若总体间确实存在差
异,该次试验能发现此差异的概率。统计检验效能越大,所需样本例数越多,通常取Β=011或Β=012,此时的检验效能分别为90%或80%。一般临床试验的检验效能不能低于75%,否则可能出现非真实的阴性结果。为了计算简便,以下所用公式Β均取0110,U1-0110?2=
(5)单侧还是双侧1164(双侧),U1-0110=1128(单侧)。
的问题,需要根据专业知识来定。以未知总体与已知总体均数比较为例,通常的假设检验的目的是两个总体是否相等,备择假设是Λ≠Λ0,即Λ可以大于Λ0,也可以小于Λ0,因此是双侧检验。但是如果从专业知识的角度
判断Λ不可能大于Λ0(或者是Λ不可能小于Λ0),这就是单侧的检验,此时备择假设为Λ<Λ0(或者是Λ>Λ0)。
在试验方案设计中应交代以上参数的设置要求,并通过相应的样本含量计算公式,
估计出每组的样本例数。
3 假设检验的类型
临床研究的目的不同,所采用的样本含量估算方法也不同。在临床试验过程,需要区分是做显著性检验(significancetest),还是区间假设检验(interval
中医杂志20xx年第48
卷第6期 JournalofTraditionalChineseMedicine,2007,Vol.48,No.6?505?
hypothesestest)。
显著性检验(significancetest)用于推断两个样本
是否来自同一总体,它的检验假设为两组相等的零假设,即样本来自同一总体。其无效假设为H0?Λ1=Λ2,备择假设为H1?Λ1≠Λ2。临床试验中,对于两组疗效的评价,显著性检验结果不能评价差别的实际大小,更不能说明差别是否有临床实际意义,只能说明两组的疗效是否来自不同的总体。
目前,在临床中往往是要确认新药是否不差于或相当于甚至优于标准的有效药物,所以非劣效?等效?优效检验也就应运而生。它们的检验假设不再是一个点,而是一个区间,所以又可称之为“区间假设”(intervalhypothesis)或(intervaltest)[1]。区“区间检验”
间假设检验包括了等效性检验(equivalencetest)、非劣效性检验(noninferioritytest)与优效性检验(superioritytest)。以等效性检验为例,H
22
=0107625,d2=(5160-(30-1)+(30-1)
2
5170)=0101
2×=58158≈59n1=n2=
01011
Sc=
2
因此,每组样本含量为59例。41112 两个均数之间的区间假设检验
计算公式:
(1)优效性或非劣效性试验:
n1=
?
2
c
,n2=cn1(公式2)
(2)等效性试验:
n1=
2
c
,n2=cn1(公式3)
以上两个公式中,通常令当Α=0105,则U1-Α=
1164;Β=0110,则U1-Β=1128,U1-Β?、2=1164;Ρc含义1;?,采用西药。根据预调查结果,可知一般糖尿病患者的空腹血糖水平为917mmol?L(标准差为211mmol?L),若两药物降糖均数相差不超过1mmol?要求L,则认为该中药的疗效不差于某西药。两组例数相同,问需要多大的样本量?
解答:本例设计为非劣效性试验,将有关的数值代入公式2:
?Λ1-Λ2≤-?,H021--HΛ1-Λ2?,H12?Λ1-Λ2(,成立,4 常用的样本含量估算方法
01
411 两样本均数比较时样本含量的估算方法41111 两个均数之间的显著性检验
计算公式[2]:
n1=
2
22
c
d
,n2=cn1(公式1)
n1=n2=
1
2
=75120≈761
上式中,通常令Α=0105,则U1-Α?2=1196;Ρ为总体标准差,它可以从样本或预调查资料通过合并样本
222
方差S2。Sc=1和S2得到合并方差Sc来估计
2
2,其中n1和n2是预调查的样本大(n1-1)+(n2-1)小,S1和S2是预调查中两个样本的标准差;d表示不同
方向离开总体差别Λ1-Λ2的距离,即容许误差。常根据文献得到或通过预调查的样本值来估计。c为两样本例数之比,当样本例数相同时,c=1,n2=n1。
例1:欲了解某中成药与某西药对糖尿病患者空腹血糖值的影响有无差别。将60例符合纳入标准的糖尿病患者,按照随机分配的原则进入中成药和西药组进行预试验。结果,中成药组的空腹血糖均数θx1=5160mmol?L,标准差S1=0125mmol?L,西药组的空腹
因此,每组样本含量为76例。
例3:假定例2各参数不变,只是按等效性试验来设计,则每组样本含量可用公式3来估计:
n1=n2=
1
2
=94189≈951
因此,每组样本含量为95例。412 两样本率比较时样本含量估计方法41211 两个率之间的显著性检验
计算公式:
n1=
2,n2=cn1
cd2
Α?2
(公式4)
上式中,通常令Α=0105,则U1-=1196;
p1和p2为两样本的阳性率,可通过文献或预试验
获得。若文献中未报告过,且又没有做过预试验,一般可取最为保守的估计值p1=p2=015;d表示与总体率
差的距离,即容许误差。常根据文献得到或通过预调查的样本值来估计。c的含义同前。
例4:欲了解某中药与某西药治疗糖尿病患者的疗效有无差别。假设某中药治疗糖尿病的有效率p1为0140,某西药的有效率p2为0132,则两组估计的率差如果认为估计的总体率差与真实率差p1-p2=0108。
血糖均数θx2=5170mmol?L,标准差S2=0130mmol?L,
要求两组例数相同,问需要多大的样本量?
解答:本例只需比较两药物的疗效上是否有差别,
并不关心中成药的疗效是否不差于或相当于甚至优于标准的西药,因此,属于显著性检验。
按照上述公式:
?506?中医杂志20xx年第48卷第6期 JournalofTraditionalChineseMedicine,2007,Vol.48,No.6
相差不超过10%,则认为两组的疗效无差别。要求两组例数相同,问需要多大的样本量?
解答:本例只需比较两药物的疗效上是否有差别,并不关心中药的疗效是否不差于或相当于甚至优于标准的西药,因此,属于显著性检验。
按照上述公式:
2=175119n1=n2=(0110)2
≈176
平均期望有效率,Νi=q1Πi1+q2Πi2。
计算公式[3]:
N=
(1,,)QiΝi(1-Νi)
q1q2[
∑
2
Qi(Πi1-Πi2)]
(公式7)
式中Κ值为非中心参数表达式,通常,Α=0105,
=0110,则Κ(1,0105,0110)=101507Β
因此,代入公式7:
由于三期和四期病例数的比例为1?1,故Q1=Q2
=1?2;中、西药病例数的比例也为1?1,故q1=q2=1?2;Π11=0185,Π12=0170,Π21=0175,Π22=0160;则Ν1=015×(0185+0170)=01775,Ν2=015×(0175+0160)=01675,因此可求得:
因此,每组样本含量为176例。41212 两个率之间的区间假设检验
计算公式:
(1)优效性或非劣效性试验:
)n1=Π(1-Π
??
2
c
2
,n2=cn1(
公式5)
N=
015×05[015×(0185-+015×(0175-0160)]2
(2)等效性试验:
)n1=Π(1-Π
c
≈,n2=cn1
(,164例。。临床试验最常见的是多中心两组临床试验。各院条件不同,治疗同一疾病的有效率可能不同,所得病例资料不宜作简单相加,宜按分层样本处理。5 注意事项
以上两个公式中,Π,计;例5:西药。0180。要求?=0115。两组例数相同,问需要多大的样本量?
解答:本例属于非劣效性试验,将有关数值代入公式5,
n1=n2=0180(1-0180)
通过上述介绍的样本含量的公式,我们可以看出
决定样本含量估算主要的要素有容许误差(d或?值)、、、变异度(Ρ)、设计类型、两组的分配比例等。在实际ΑΒ
的试验中,还有一些其他的影响因素影响着样本含量的估算,包括依从性、失访、设计方法、组数、研究的变量个数等。
依从性(compliance):也称顺从性、顺应性,指患者执行医疗措施的程度,即患者执行医嘱的程度。在一些试验中,如果存在比较大的副作用,则多数患者不会长期忍耐,在开始治疗后不久就可能会发生不依从性。或者由于观察的时间较长,患者无法长期坚持,也会发生不依从性。如果估计不依从的病例数过多,则需要对估算的样本含量进行校正。校正的公式[4]为:nadj=
,其中pm为估计不依从的比例。例如,在例4
(1-pm)2
0115
2
=1211261
≈122
因此,每组样本含量为122例。
例6:假定例2各参数不变,只是按等效性试验来设计,则每组样本含量可用公式3来估计:
n1=n2=0180(1-0180)
0115
2
=1531
因此,每组样本含量为153例。413 分层设计的样本含量估算
由于分层设计的样本含量估算比较复杂,本文仅以两个率比较的显著性检验为例。
例7:判断某种中药治疗糖尿病肾病三期和四期是否有效,采用西药作对照,中、西药病例数按1?1,糖尿病肾病三期和四期也按1?1。根据现有文献资料可知,糖尿病肾病三期治疗组有效率85%,对照组70%,糖尿病肾病四期治疗组有效率75%,对照组60%,问用何种计算公式能估算最后的样本量?
该例属于分层的随机对照试验。设所需总病例数
为N,糖尿病肾病各期病例数为QiN,Qi是层样本分数,i=1,…,R,
中每组要求样本含量为176,在试验前预估计每组的不依从性可能为10%,则pm=0105,则经过依从性的校正,每组所需样本含量nadj=
196。
(1-0105)2
失访(losstofollow2up):是指研究对象因迁移或
∑Q
与本病无关的其他疾病死亡等而造成失访,是截尾(censoring)的一种类型,泛指分析时未能获得最后的终点结果。假定失访的原因与研究的终点结局事件无关,如果失访的概率为l,则可对样本含量进行调整[4]:
i
=1。设第i层每组样本量为
QiqjN,qj是组样本分数,j=1,2,q1+q2=1。Ν为第i层
中医杂志20xx年第48卷第6期 JournalofTraditionalChineseMedicine,2007,Vol.48,No.
6?507?
nadj=
[5]
(1-l
15%,对样本量进行偏大估计:nadj=1115n。例如,上
为了简便计算,按照失访率为10%~)
述例4中,经过不依从性的校正,每组样本量为196例,再按照10%的失访率进行偏大估计,每组样本量则为
≈216。nadj=111n=111×196
研究设计不同,样本含量的估算也不同。本文所介
绍的两样本比较,均指临床中常见的完全随机设计(或称为成组设计)。若临床实际中出现的是配对设计,则需要选用其它公式进行估算。具体公式可参考相关书籍[5]或文献[6]。
由于篇幅的限制,本文仅介绍了两个样本的比较。有时在临床中会遇到3个甚至多个样本间的比较,有些研究者会按照两个样本的比较方法,直接选取其中两个样本的统计量值进行估算,这样做是不对的。应选用多个样本比较的样本含量公式,书籍[5]或文献[6]。例数较精确。有时,法[7],,例数不够精确。
多组设计时,由于在各对比组例数相等时进行统计推断效能最高,因此一般要求各组间的样本含量相等。只有在某些特殊情况下,才考虑各组的样本含量不等。
本文所介绍的都是单因素的样本含量的估算。不
可简单用来对多因素的样本含量的估算。对于多因素
有一个粗略的估计方法是,观测数至少是变量数目的5~10倍。例如:欲了解治疗高血压病的疗效除了受到药物的疗效,是否还受到年龄、饮食、锻炼及遗传等许多因素的影响。这时属于多因素分析,样本含量则可粗略地估计为250~500例。6 结语
在临床试验过程中,样本量既不是越大越好,也不是越小越好,需要根据研究的目的、研究的设计方案选择正确的方法正确地进行样本含量的估算。参考文献
[1]夏结来,于莉莉,蒋红卫.新药疗效评价的区间检验.第四军
医大学学报.2003,24(24):2209~.
[2],..上海:复
,.31~33.
,..
.10(1):27~29.
[],姚晨,陈峰,等.非劣性?等效性试验的样本含量估
计及把握度分析.中国卫生统计.2004,21(1):31~35.
[5]王家良主编.临床流行病学——临床科研设计、衡量与评
价.2版.上海:上海科学技术出版社,1990:138~156.
[6]刘勖.临床试验设计与数据处理(四).疑难病杂志,2003,2
(1):55~57.
[7]郭静,徐勇勇,何大卫.多组比较样本含量及检验效能的线
性算图估计.中国卫生统计.2002,19(2):94~95.
(收稿日期:2007-05-15
)