药物临床试验样本量估计指导原则（试行）

一、概述

样本量估计，又称样本量确定，是药物临床试验设计的重要组成部分，也是确保研究具有合理性、准确性、可靠性、完整性和科学性的重要手段。通常，临床试验的样本要有充分的代表性，纳入的样本量必须足够大，以可靠地回答研究假设所针对的目标人群的临床问题。

对于药物临床试验，当样本量估计相关参数设置缺乏依据或依据不充分时，会为样本量估计带来不确定性，增大试验失败的风险等。另外，若试验中样本量调整的方法不当或操作不当则会导致总 I类错误率（FWER）膨胀、破坏试验完整性及引入偏倚等方面的问题。

为指导申办者进行科学合理的样本量估计，本指导原则主要阐述基于统计假设进行样本量估计时的参数设置和样本量调整等的基本考虑。本指导原则适用于以注册为目的的确证性临床试验。

二、样本量估计的主要考虑

对于临床试验所要回答的科学问题，统计学主要根据估计目标对应的研究假设提出统计假设，通过假设检验进行推断。样本量估计一般依据主要估计目标，原则上应保证整体检验在控制 FWER 的同时并具有足够的检验效能。某些情况下，可能需要对关键次要估计目标进行样本量估计，此时同样需要考虑 FWER 的控制。不同的假设检验方法有不同的样本量估计方法。正确的样本量估计应基于与估计目标相一致的试验设计和恰当合理的统计分析方法。应在方案中描述计算样本量的方法，以及在计算时使用的相关参数及其依据。

样本量估计需考虑的因素众多，一般包括：①试验设计；②检验水准和检验效能；③统计分析方法；④预期治疗效应及变异等。

(一) 试验设计

试验设计是样本量估计时需考虑的重要因素，通常包括但不限于比较类型、设计类型、变量类型、伴发事件及其处理策略、多重性调整策略、组间分配比例及随机化方法等。

对于优效设计，试验组效应估计值应优于对照组，且应根据临床获益确定达到优效的判断标准，并据此明确统计学假设。在非劣效性和等效性试验中，阳性对照药疗效以及相应的非劣效界值和等效界值是样本量估计中的关键参数；在制定非劣效界值和等效界值时，应考虑所采用历史研究的估计目标与当前研究的差异，非劣效界值的确定方法建议参考《药物临床试验非劣效设计指导原则》

当单臂设计采用目标值对照时，目标值的设定应基于专业领域具有共识或认可程度较高的标准，当采用历史对照或基于历史数据确定目标值时，应选择可靠的历史数据。

对于时间-事件类型的变量，最终决定检验效能的主要是随访中观测到的结局事件数，因此结局事件发生率、入组速度、入组时长、随访时长、脱落率等因素也会进一步影响最终样本量。

样本量估计需要考虑估计目标中伴发事件及其处理策略对治疗效应及变异参数的影响。疗法策略将伴发事件作为治疗（处理）的一部分，其对样本量估计的影响主要体现在治疗（处理）中伴发事件对治疗效应和变异的影响。在治策略与复合变量策略，直接影响结局变量的定义，进而影响治疗效应和变异。假想策略设想一种没有发生伴发事件的情景，通常伴随着一定的假设，相应的假设会直接影响治疗效应和变异。主层策略体现在估计目标人群属性的定义中，该策略下主层人群的识别方法、主层人群所占比例及相应人群预期的治疗效应和变异会影响最终的样本量估计。

若存在多重性问题，可能会涉及调整检验水准、调整检验效能及调整统计分析方法等方面，在样本量计算时应考虑这些调整。例如若设置了期中分析，则在样本量估计时需考虑 FWER 的控制；确证性亚组的样本量估计应结合多重性策略加以考虑。

组间样本量的分配比例是样本量估计中需考虑的参数，药物临床试验常采用平衡设计，即各组样本量相同。当出于伦理考虑或其他合理理由需要降低某组或某些组的样本量的分配比例时，可采用非平衡设计。样本量在各组的分配比例直接影响最终样本量估计，研究方案中须明确说明。采用分层随机化时可能需考虑各层比例与目标人群保持一致以及分层因素可能导致的某个或某些层受试者例数稀疏等问题。

(二) 检验水准及检验效能

检验水准和检验效能是样本量估计中考虑的基本参数，须在方案中明确。

设置合适的检验水准可以达到控制 FWER 的目的。对于确证性试验，FWER 通常要求控制在单侧 0.025、双侧0.05 以内。当涉及多重性问题时，名义检验水准的设置可参考《药物临床试验多重性问题指导原则（试行）》

对于检验效能，通常设定不低于 80%，当涉及多重性问题时，需考虑其对检验效能的影响。对于析因设计，当研究目的包含交互作用的检验时，若基于检验主效应计算样本量，则交互作用的检验效能可能不足。对于多中心试验，样本量和检验效能的计算通常基于各中心的组间治疗差异是相同的无偏估计的假设，因此，制定共同研究方案并给予实施很重要，同时试验的实施流程应该尽可能标准化。

(三) 统计分析方法

恰当合理的统计分析方法，是科学的样本量估计的基础和前提，样本量估计前须确保所选择的统计分析方法与研究设计相匹配。例如，统计分析方法应适合研究设计的设计类型、比较类型、随机化方法、变量类型等。方案中需明确给出样本量估计所基于的统计分析方法，且原则上应与主分析方法相一致，否则需有合理的理由认为所依据的方法能满足主要估计目标所需的样本量，不会导致样本量低估。方案中应明确样本量估计的具体计算方法、工具，当采用统计模拟估计样本量时，模拟的参数设置、模拟方法、种子数以及模拟代码等应在相关文件中详细描述并在与监管机构沟通时递交。

需要注意的是，每种统计分析方法均有其相对应的假设，在选择统计分析方法时需充分评估所选择方法违背其假设时的风险，以及违背假设对样本量估计可能产生的影响。统计分析方法中常见的假设有关于数据分布的假设和关于统计分析模型的假设等。

1. 数据分布假设

统计分析常需要对数据的分布进行假设，例如，连续变量的数据服从正态分布假设，时间-事件变量的数据服从指数分布假设等。需评估偏离数据分布假设的可能性，一方面当偏离风险较大时应采用对分布假设更稳健的分析方法或不依赖于分布假设的分析方法，另一方面在参数设置时，也应考虑偏离分布假设带来的治疗效应高估或变异低估的可能性。当采用非参数或半参数方法分析时，样本量估计基于方便计算的考虑可能会依赖一定的参数假设，例如生存分析log-rank检验，样本量估计时可能会假设生存数据服从指数分布，在应用时需考虑偏离假设所带来的风险。

当数据存在相关性并影响治疗效应或变异估计时，若忽略相关性，则可能对样本量估计和分析带来影响，以及带来 FWER 膨胀的风险。因此在样本量估计时需评估数据间相关性，并在方案中明确描述其大小和依据；在统计分析时也应考虑相关性。

2. 统计分析模型假设

统计分析模型通常会基于一系列假设，需关注模型的适用性，对模型假设是否成立应进行预先判断并进行事后验证。若统计分析模型的假设存在不成立的风险，建议在计算样本量时，将此风险纳入考虑。此外，协变量会影响治疗效应及变异的估计，样本量估计时应考虑是否调整协变量。关于协变量调整可参考《药物临床试验协变量校正指导原则》。另外，对于分层随机，若存在某些层的样本量较少等情况时，校正分层因素或采用分层分析可能存在降低检验效能的风险，在设计时应进行考虑。

(四) 预期治疗效应及变异

在基于给定的统计分析方法进行样本量估计时，需在原假设和备择假设分别成立的情况下对各参数进行合理设置，主要包括对影响预期治疗效应及变异的相关参数设置。

参数设置须有充分依据，一般应基于历史数据（前期研究结果或已发表的数据等），并注意其临床意义与合理性。不建议出于减少样本量的目的，设置激进的参数。当参数设置无依据（无历史数据）或参数设置依据不充分（历史数据过少）时，建议先开展探索性试验获得所需参数。

对于所参考的历史数据，应充分评估当前拟开展研究的估计目标与历史数据相关研究估计目标之间的差异。当历史数据的相关研究与当前研究的估计目标相同或相近时，所提供的参数较为可靠；当差异在可接受范围时，建议基于合理假设设置参数；当差异较大时，建议进一步开展探索性试验。由于人群、治疗（处理）或变量（终点）的定义会与伴发事件处理策略相关，因此应考虑伴发事件的处理策略对预期治疗效应及变异估计的影响，参数设置时，若假定的参数或参考的历史数据未能反映伴发事件的影响，则建议评估伴发事件的发生比例及其处理策略和可能带来的疗效损失，尽可能降低样本量低估的风险。此外，若当前拟开展研究与历史数据相关研究的统计分析方法之间存在差异，也需评估其对参数估计的影响。

样本量估计还应考虑缺失数据的影响，该影响可在治疗效应和变异的参数假设中考虑，也可采用对计算所得样本量增加一定比例等方法进行处理。

三、样本量调整

样本量调整是指临床试验期间对初始设计的样本量所做的调整。样本量调整一般不建议减小样本量。应在方案中说明样本量调整的必要性和合理性，以及为保持盲态和试验完整性所采取的措施。

(一) 样本量调整的原则

只有合理的样本量调整才能达到提高试验效率的目的。应充分评估进行样本量调整的必要性、合理性、可行性，并确保试验的完整性，通常基于可行性及最小临床意义差别或可接受的最大方差设置最大可接受样本量。

1. 必要性

不应无根据地随意调整样本量，需充分评估样本量调整的必要性。当历史数据过少导致参数设置的依据不足时，可通过开展探索试验获得所需的数据；如果历史数据较充分可靠，相比样本量重新估计设计，固定样本量设计可在保证检验效能的情况下，具有节省期中分析成本、避免期中分析可能带来试验完整性破坏的风险、效率更高等优点。对于非劣效性和等效性试验，阳性对照药参数较明确，缺乏调整的必要性且样本量调整可能存在I类错误率膨胀的问题，建议谨慎考虑样本量调整。

2. 合理性

样本量调整应以控制 FWER 和保证试验完整性为前提，保证调整的合理性并根据调整方法制定正确的统计分析方法。与样本量计算的原则一致，调整后的样本量应避免有统计学意义但没有临床意义的情形。如果根据试验本身累积的数据进行样本量重新估计，建议选择合理的调整时间节点，不建议过早或过晚进行样本量调整。过早进行调整，可能会面临由于数据较少导致调整所基于的参数可靠性不足；过晚进行调整，可能面临入组结束等试验实施方面的问题。

3. 可行性

样本量调整需要考虑可行性。多次调整会增加设计和实施的复杂性，并存在引入操作偏倚的风险，一般不建议进行多次样本量调整；入组结束后的样本量调整会给临床试验实施带来挑战，因此样本量调整需要评估试验入组进度，以及数据收集和数据清理的进度和速度。另外，如果试验终点的观测需要随访的时间较长，还需要评估样本量调整对试验整体时间的影响。

4. 完整性

样本量调整应避免引入操作偏倚并保持试验的完整性。当根据试验累积数据进行样本量重新估计时应严格按照方案、统计分析计划和/或包含样本量调整的期中分析计划中预先设定的规则进行调整。

对于不使用试验分组信息且在双盲试验中进行的盲态样本量重新估计一般不会引入操作偏倚，可由申办者或数据监查委员会（DMC）及其独立统计团队完成；其他情况下的盲态样本量重新估计建议由DMC及其独立统计团队完成，以保持试验的完整性。

非盲态的样本量重新估计需由DMC及其独立统计团队完成。由于涉及非盲的数据和结果，期中分析的执行应是一个完全保密的过程。参与试验实施的所有人员（包括研究者、申办者项目组成员和申办者所雇佣的人员等）及受试者应当对这些分析结果保持盲态，否则可能会导致招募患者的特征改变、患者依从性降低、入组速度降低及产生治疗组间比较的偏倚等方面的问题。研究者应仅被告知继续或终止试验的决定，或实施修订试验方案的决定。DMC向申办者提出的建议中也应避免提供可以反推疗效的相关内容，以保证试验的完整性。

单臂试验一般不建议进行样本量调整。单盲试验和开放试验的样本量重新估计，建议由 DMC及其独立统计团队完成，并注意试验完整性以及盲态保持。