药物临床试验多重性问题指导原则(试行)
一、概述
临床试验中普遍存在多重性问题,它是指在一项完整的研究中,需要经过不止一次统计推断(多重检验)对研究结论做出决策的相关问题。例如,多个终点(如主要终点和关键次要终点)、多组间比较、多阶段整体决策(如以有效性决策为目的的期中分析)、纵向数据的多个时间点分析、亚组分析、同一模型不同参数组合或不同数据集的分析、敏感性分析等。对于确证性临床试验,将总 I 类错误率(FWER)控制在合理水平是统计学的基本准则。上述多重性问题有的可以导致FWER膨胀,有的则不会。对于前者,需要采用恰当的策略与方法将FWER控制在合理水平,这一过程称为多重性调整;对于后者,则无需多重性调整。因此,在制订临床试验方案和统计分析计划时,采用恰当的策略与方法控制FWER是非常重要的。
本指导原则主要阐述常见的多重性问题和相应的决策策略,介绍常用的多重性调整方法和多重性分析方法,旨在为确证性药物临床试验中如何控制FWER提供指导意见,所讨论的一般原则也适用于其它类型的临床研究。
二、多重检验中的I类错误、总I类错误率和II类错误
(一)I类错误和总I类错误率
I类错误是指原假设(或称无效假设)正确但检验结果拒绝了原假设的错误,相当于把实际上无效的药物经统计推断得出有效结论的错误。其概率需控制在某一水平,该水平称为检验水准,或称显著性水准,用α表示;对于多重检验中某一假设检验的检验水准称之为名义检验水准,又称局部检验水准,用αi表示。
总I类错误率是指在同一临床试验所关注的多个假设检验中,至少一个真的原假设被拒绝的概率。不论多次假设检验中哪个或哪些原假设为真,都能将FWER控制在α水平,称为强控制FWER;在所有原假设都为真的条件下,将FWER控制在α水平,称为弱控制FWER。弱控制FWER只能得出整体性结论,而不支持其中单个假设检验的结论,故在确证性临床试验中的应用意义不大。本指导原则所描述的“控制FWER”均指强控制 FWER。
(二)II类错误
II类错误是指原假设不正确,但检验结果未能拒绝原假设的错误,相当于把实际上有效的药物经统计推断得出无效结论的错误,其概率用β表示,相应地1-β称为检验效能。对于确证性临床试验,在I类错误得到有效控制的前提下,II类错误的风险也需要注意。对于需要调整的多重检验,由于控制FWER降低了多重检验中单个假设检验的α,相应地也降低了检验效能。因此,当涉及多重性调整时,制定研究计划应考虑控制FWER对检验效能的影响,例如通过适当增加样本量以保证足够的检验效能。
三、常见的多重性问题
临床试验中常见的多重性问题一般体现在多个终点、多组间比较、亚组分析、期中分析、纵向数据不同时间点的分析等方面。
(一)多个终点
1. 主要终点
主要终点是指与临床试验所关注的主要问题(主要目的)直接相关的、能够提供最具临床意义和令人信服的证据的终点,常用于主要分析、样本量估计和评价试验是否达到主要目的。确证性临床试验中,单一主要终点较为常见,但某些情况下会涉及多个主要终点,对于多个主要终点的研究,通常有两类研究假设,即多个主要终点均要求显著和多个主要终点中至少有一个显著。
(1)多个主要终点均要求显著
即要求所有主要终点均显著时才认为研究药物有效(此种情况常称为共同主要终 点)。例如,在一项治疗慢性阻塞性肺病的确证性临床试验中设置两个单独的主要疗效终点,第 1 秒用力呼气量和患者报告症状评分,决策规定两个主要终点均显著才可推断研究药物有效。在此情况下,不会导致FWER膨胀,因为这种策略没有机会选择对研究药物最有利的某个或某几个主要终点,只有一种可能得出药物有效的结论(即两个原假设都被拒绝)。但是,这会增大 II 类错误和降低检验效能。检验效能降低的程度与主要终点的个数和主要终点之间的相关性有关,个数越多、相关性越弱,检验效能降低的幅度越大。
(2)多个主要终点中要求至少一个终点显著
即至少一个主要终点显著时就认为研究药物有效。例如,某一确证性临床试验旨在验证一种治疗烧伤伤口的药物,设置两个单独的主要终点:伤口闭合率和瘢痕形成,临床试验方案规定只要其中一个终点显著,或两个终点都显著,就可认为该药物整体临床有效。此种情况下会导致FWER膨胀,因为得出药物有效的结论包括以下三种可能的组合:①伤口闭合率显著而瘢痕形成不显著;②伤口闭合率不显著而瘢痕形成显著;③伤口闭合率和瘢痕形成都显著。由于多个主要终点中至少有一个终点显著的组合不尽相同,是否会导致FWER膨胀应视具体的研究假设而定。
2. 次要终点
临床试验的次要终点通常有多个,多数情况下它们提供对主要终点的支持作用。但在某种情况下,有些次要终点可能用于支持药品说明书声称的获益,一般被称为关键次要终点。此时,应将关键次要终点与主要终点共同纳入FWER控制。只有主要终点的假设检验认为整体显著后,才考虑关键次要终点的假设检验。
3. 复合终点
复合终点是指将多个临床相关结局合并为一个单一变量,如表示心血管事件的复合终点,只要发生心肌梗死、心力衰竭、冠心病猝死等其中的任一事件将被视为终点事件发生;或者将若干症状和体征的评分通过一定的方法合并为一个单一变量,如评价类风湿关节炎的ACR20量表。如果将某一复合终点作为单一主要终点,将不涉及多重性问题。但是,如果同时将复合终点中某一组成部分(如某一事件或构成量表的某一维度)用于支持药品说明书声称的获益,应将其定位于主要或关键次要终点,再根据上述定位对所涉及的主要或次要终点的多重性问题予以考虑。
4. 探索性终点
探索性终点可以是预先设定、也可以是非预先设定(例如数据驱动)的终点,一般包括预期发生频率很低而难以显示治疗效果的临床重要事件,或由于其它原因被认为不太可能显示效果但被纳入探索性假设的终点,其结果可能有助于设计未来新的临床试验。此类终点不涉及多重性问题。
5. 安全性终点
如果安全性终点(事件)是确证性策略的一部分,即用于支持药品说明书声称的获益,则应事先确定并考虑多重性问题。需注意,在临床试验的实践中,由于安全性事件具有很大的不确定性,有时难以事先规定主要安全性假设,因此,对于多个安全性终点(通常是严重的不良反应)的确证性策略可能会基于事后的多重性调整策略,此时应充分说明其合理性,并与监管机构达成共识。
(二)多组间比较
临床研究中多组间的比较颇为常见,如三臂设计、剂量-反应关系研究、联合用药和复方药的评价等。
1. 三臂设计
三臂设计多用于非劣效试验,安排的三个组分别是试验组、阳性对照组和安慰剂组。此时,研究假设应该考虑三种情形:①试验组与安慰剂组比较的优效性;②阳性对照组与安慰剂组比较的优效性;③试验组与阳性对照组比较的非劣效性。对于上述多重性问题,如果三个假设检验均显著才可认为试验药物有效,或者基于一个比较弱的研究假设,即只要满足①即可认为试验药物有效(需得到监管机构的认可才可实施),或者采用固定顺序法,如假设检验顺序为①->②->③,此时不会导致FWER膨胀。其它的三臂设计如果不是遵循上述多重检验策略,且不满足所有假设检验均显著的话,需根据情况考虑是否会导致FWER膨胀。
2. 剂量-反应关系
剂量-反应关系研究对于找到安全有效的治疗剂量或剂量范围至关重要。剂量探索的方法和目的在探索性试验和确证性试验中有所不同。
在探索性试验中,用剂量-反应关系进行剂量探索研究时,是否需要控制FWER由申办方自行决定。在确证性临床试验中,为了选择和确证试验药物在特定患者人群中推荐使用的一个或多个剂量水平,必须控制FWER。
3. 联合用药和复方药
联合用药是指治疗用药同时使用两种或以上的药物,复方药是指治疗用药由两种或以上的药物组合而成。联合用药或复方药临床试验的目的主要是验证联合用药的获益-风险是否优于其中的单药,或复方药的获益-风险是否优于其组分药。
以两个单药的联合用药为例,试验设计至少会设置三个组,即联合用药组、单药 A 组和单药 B 组,后两组为阳性对照组。如果再增加一个安慰剂组,就是一个2x2的析因设计。无论是三组的设计还是四组的析因设计,其假设检验以推断联合用药组是否优于其它各组为主,这将不会导致FWER膨胀,因为只有所有假设检验均显著的情况下方可证明联合治疗的疗效。
(三)纵向数据不同时间点的分析
纵向数据,即基于时间点的重复测量数据,是临床试验常见的数据类型。此类数据与时间点相关的分析分两种情况,一种是在不同时间点进行组间比较;另一种是比较处理组内不同时间点的效应。
以只有一个主要终点且只涉及两个处理组的研究设计为例,如果主要终点评价被定义为在多个时间点中的某一个时间点(如最后一个访视点)进行处理组间的比较,其它时间点的组间比较被视为次要终点评价,则不涉及多重性问题;如果主要终点评价被定义为在不止一个时间点进行处理组间的比较,若其所有相关时间点的组间比较达到显著才认为有效,则不会导致FWER膨胀,否则会导致膨胀。
对于比较处理组内不同时间点效应的情形,如果目的是通过时间点之间的比较确证最佳时间点的效应,即当时间效应成为确证性策略的一部分时,就需要考虑多重性问题,否则无需考虑。
对于多于一个主要终点或多于两个处理组且涉及到纵向数据不同时间点分析的研究设计,其多重性问题更加复杂,需要综合考虑。
如果希望回避纵向数据的多重性问题,一种可能的解决方案是将不同时间点的效应转换为折线下的面积,例如治疗后不同时间点的疼痛VAS评分可以转化为折线下面积以代表治疗后总的疼痛评分,即把多个变量转化为一个变量,但相应地,在这种转换之后,每个时间点的组间比较就无法实施了。另一种可能的解决方案是对重复测量数据用单个模型分析,如重复测量方差分析或混合效应模型。
(四)亚组分析
亚组分析通常用于说明试验药物在某一目标亚组人群中的疗效、或者各亚组之间疗效的一致性。如果目标亚组的分析用于支持药品说明书声称的获益,则需要综合考虑总人群和亚组人群的多重性问题,同时还要注意保证亚组的样本量有足够的检验效能。反之,如果亚组分析不用于支持药品说明书声称的获益,则无需考虑多重性问题。
(五)期中分析
针对有效性进行监查的期中分析,因为在研究过程中需要进行多次决策,多重性问题复杂多样,所以控制FWER显得尤为重要。在制定临床试验方案时,应仔细考虑并预先设定恰当控制FWER的策略和方法。
(六)复杂设计
对于以确证性为目的的篮式设计、伞式设计、平台设计等涵盖多疾病领域、多种药物、跨研究的复杂设计,由于同时开展多个分题研究,可能涉及多重性问题。但是,由于这些分题研究多是独立的研究且回答特定的临床问题,如适用疾病、目标人群等,故一般不会导致FWER膨胀。
对于复杂设计分题研究的目标人群有较大重叠时,或者对于多个分题研究使用同一个对照组时,是否会导致FWER膨胀,应视具体情况而定。此时,建议申办方与监管机构进行充分沟通。
四、常见的多重性调整的策略与方法
针对临床试验中可能导致FWER膨胀的多重性问题,所采用的多重性调整的策略与方法取决于试验的目的、设计、研究假设及其检验方法。申办方需在试验设计时对选用的多重性调整的策略与方法进行必要的评估,并在临床试验方案和统计分析计划中详述。
多重性调整的策略与方法可以从决策策略、调整方法和分析方法三个层面考虑。
(一)多重性问题的决策策略
临床试验的研究结论主要依据综合所有试验数据分析结果所做的推断,是一个从局部决策到整体决策的过程。多重性问题的决策策略可分为平行策略和序贯策略。除了从局部决策到整体决策的过程外,还有分阶段的整体决策。根据研究目的和试验方案梳理出可能的多重性问题,可采用某一种策略或者多种策略组合,再根据所选策略或策略组合确定每一个检验假设所对应的统计分析方法和名义检验水准αi的分配策略(如需要)。
1. 平行策略
平行策略是指所包含的各个假设检验相互独立,平行进行,与检验顺序无关,就像一种并联关系,每个假设检验的推断结果不依赖于其它假设检验的推断结果。
2. 序贯策略
序贯策略是指按一定顺序对原假设进行检验,直到满足相关条件而停止检验,就像一种串联关系,根据设定条件,前一个假设检验的结果将决定是否进行后续的假设检验。序贯策略中假设检验的顺序以及相应的多重性调整方法的不同对整体结论的影响也不同,这一点在设计阶段尤其要注意。
3. 分阶段的整体决策策略
分阶段的整体决策策略是指将整体决策按照事先确定的顺序分阶段进行,其典型代表是以有效性为目的的期中分析。每个阶段都进行一次整体决策,确定试验因有效或无效提前终止还是继续。每一阶段的整体决策可以采用多重性问题决策策略中的平行策略或序贯策略。多阶段决策需要多重性调整,即每个阶段都会消耗一定的α,各阶段的名义检验水准αi可以相同,也可以不同,视采用的α消耗策略而定。
(二)多重性调整方法
多重性调整方法实质上是通过调整整体决策中每一个独立假设检验的名义检验水准αi以达到将FWER控制在α水平的目的。名义检验水准αi的确定方法可以根据多重性问题的决策策略选择。
1. 平行策略的多重性调整方法
(1)Bonferroni法
Bonferroni法的基本思想是各个独立假设检验的名义检验水准αi之和等于α,即
各名义检验水准αi可以相同(αi=α/m),也可以不同,后者往往在各个假设检验的重要性不同时使用。例如,某临床试验设有3个主要终点,需要进行3次假设检验,设定α=0.05。如果3个主要终点的重要性相同,则每个假设检验的αi相同,均为0.0167(=0.05/3),则每个假设检验的P值小于0.0167才被认为有显著性;如果3个主要终点的重要性不同,如设置α1、α2和α3分别为0.030、0.015和0.005,则每个假设检验的P值小于所对应的αi才被认为有显著性。
(2)前瞻性α分配法
前瞻性α分配法(PAAS)与Bonferroni法思想相近,可理解为各个假设检验的名义检验水准αi的互余的乘积等于α的互余,即
各αi可以相同也不可以相同也不可以相同也不,若相同若相同,则可根据则可根据Šidák法
例如,一个有3个终点的临床试验,其中两个终点被指定分配了αi值,α1=0.02、α2=0.025,若设α为0.05,则根据上式有0.98×0.975×(1-α3)=0.95,求得第3个终点的α3为0.0057。如果3个原假设的αi等权重分配,则基于Šidák法求得αi为0.01695。需要注意,PAAS法在满足多重检验呈独立或正相关时才能实现控制FWER。
2. 序贯策略的多重性调整方法
(1)Holm法
。Holm法是一种基于Bonferroni法的检验统计量逐步减小(P值逐步增大)的多重调整方法。该法首先计算出各假设检验的P值后,将各P值按从小到大排序,记为P1 < P2 < ... < Pm,其相对应的原假设为H01,H02,...,H0m,然后按照P值从小到大顺序依次与相对应的αi进行比较,依次检验H0i,1 ≤ i ≤ m。第一步从最小的P值开始,检验原假设H01,如果P1 > α1(=α/m),则不拒绝原假设H01,并停止检验所有剩余的假设;如果P1 ≤ α1,则拒绝H01,HA1成立,进入下一步假设检验。第2个假设检验的α2=α/(m-1),将该假设检验的P值与α2比较,若P2 > α2,则停止检验余下的假设;否则,HA2成立,并进入下一步假设检验。更一般地,在检验第i个原假设H0i时,如果Pi > αi(=α/(m–i+1)),则停止检验并接受H0i,...,H0m;否则,拒绝H0i(接受HAi),并进入下一步假设检验;以此类推。