Biostatistics

Adaptive Designs for Clinical Trials of Drugs and Biologics Guidance for Industry

EMA
NMPA

药物临床试验的生物统计学指导原则
药物临床试验数据递交指导原则（试行）
药物临床试验非劣效设计指导原则
抗肿瘤药物临床试验统计学设计指导原则（试行）
药物临床试验协变量校正指导原则
药物临床试验多重性问题指导原则（试行）
药物临床试验适应性设计指导原则（试行）
药物临床试验随机分配指导原则（试行）
药物临床试验数据管理与统计分析计划指导原则
罕见疾病药物临床研究统计学指导原则（试行）
药物临床试验盲法指导原则（试行）
药物真实世界研究设计与方案框架指导原则（试行）
基于疾病登记的真实世界数据应用指导原则（试行）
疫苗临床试验统计学指导原则（试行）
药物临床试验样本量估计指导原则（试行）

PMDA
Invalid

化学药物和生物制品临床试验的生物统计学技术指导原则（无效）
药物临床试验数据管理与统计分析计划指导原则（无效）

FDA

Adaptive Designs for Clinical Trials of Drugs and Biologics Guidance for Industry

I. INTRODUCTION AND SCOPE

This document provides guidance to sponsors and applicants submitting investigational new drug applications (INDs), new drug applications (NDAs), biologics licensing applications (BLAs), or supplemental applications on the appropriate use of adaptive designs for clinical trials to provide evidence of the effectiveness and safety of a drug or biologic.² The guidance describes important principles for designing, conducting, and reporting the results from an adaptive clinical trial. The guidance also advises sponsors on the types of information to submit to facilitate FDA evaluation of clinical trials with adaptive designs, including Bayesian adaptive and complex trials that rely on computer simulations for their design.

2: The term drug as used in this guidance refers to both human drugs and biological products unless otherwise specified.

The primary focus of this guidance is on adaptive designs for clinical trials intended to support the effectiveness and safety of drugs. The concepts contained in this guidance are also useful for early-phase or exploratory clinical trials as well as trials conducted to satisfy post-marketing commitments or requirements.

In general, FDA’s guidance documents do not establish legally enforceable responsibilities. Instead, guidances describe the Agency’s current thinking on a topic and should be viewed only as recommendations, unless specific regulatory or statutory requirements are cited. The use of the word should in Agency guidances means that something is suggested or recommended, but not required.

II. DESCRIPTION OF AND MOTIVATION FOR ADAPTIVE DESIGNS

A. Definition

For the purposes of this guidance, an adaptive design is defined as a clinical trial design that allows for prospectively planned modifications to one or more aspects of the design based on accumulating data from subjects in the trial.

B. Important Concepts

The following are descriptions of important concepts used in this guidance:

An interim analysis³ is any examination of data obtained from subjects in a trial while that trial is ongoing and is not restricted to cases in which there are formal between-group comparisons. The observed data used in the interim analysis can include one or more types, such as baseline data, safety outcome data, pharmacokinetic, pharmacodynamic or other biomarker data, or efficacy outcome data.

3: The FDA guidance for industry E9 Statistical Principles for Clinical Trials (September 1998) defines an interim analysis as “any analysis intended to compare treatment arms with respect to efficacy or safety…” The current guidance uses a broader meaning for interim analysis to accommodate the wide range of analyses of accumulating data that can be used to determine trial adaptations. We update guidances periodically. For the most recent version of a guidance, check the FDA guidance web page.
A non-comparative analysis is an examination of accumulating trial data in which the treatment group assignments of subjects are not used in any manner in the analysis. A comparative analysis is an examination of accumulating trial data in which treatment groups are identified, either with the actual assigned treatments or with codes (e.g., labeled as A and B, without divulging which treatment is investigational).⁴ The terms unblinded analysis and blinded analysis are also sometimes used to make the distinction between analyses in which treatment assignments are and are not identified, respectively. We avoid the terms unblinded analysis and blinded analysis in this guidance because these terms can misleadingly conflate knowledge of treatment assignment with the use of treatment assignment in adaptation algorithms. An interim analysis can be comparative or non-comparative regardless of whether trial subjects, investigators, and other personnel such as the sponsor and data monitoring committee (DMC) have knowledge of individual treatment assignments or access to comparative results by treatment arm. For example, it is possible to include adaptations based on a non-comparative analysis even in open-label trials, but ensuring that the adaptations are completely unaffected by knowledge of comparative data presents additional challenges. The importance of limiting access to comparative interim results is discussed in detail in section VII. of this guidance.

4: These definitions of the terms non-comparative analysis and comparative analysis refer to the setting of a multi-arm clinical trial. In a single-arm clinical trial, any analysis of accumulating trial data involves identification of treatment assignment information and, therefore, is considered comparable to a comparative analysis for the purposes of this guidance.
The term prospective, for the purposes of this guidance, means that the adaptation is planned and details specified before any comparative analyses of accumulating trial data are conducted. In nearly all situations, potential adaptive design modifications should be planned and described in the clinical trial protocol (and in a separate statistical analysis plan) prior to initiation of the trial.
This guidance distinguishes between those trials that are intended to provide substantial evidence of effectiveness and other trials, termed exploratory trials.⁵ This distinction depends on multiple features of a clinical trial, such as the clinical relevance of the primary endpoint, quality of trial conduct, rigor of control of the chance of erroneous conclusions, and reliability of estimation.

5: A variety of terms have been used to describe different kinds of clinical trials, such as phase 1, phase 2, and phase 3 (21 CFR 312.21); pivotal; registration; and confirmatory (FDA guidance for industry E9 Statistical Principles for Clinical Trials (September 1998)). These terms will not be used in this guidance.
A fixed sample trial is a clinical trial with a targeted total sample size, or a targeted total number of events,⁶ that is specified at the design stage and not subject to prospectively planned adaptation.

6: In settings where the primary outcome of interest is the time to event (such as death), the statistical power of the trial is determined by the total number of observed events rather than the sample size.
A non-adaptive trial is a clinical trial without any prospectively planned opportunities for modifications to the design.
Bias is a systematic tendency for the estimate of treatment effect to deviate from its true value.
Reliability is the extent to which statistical inference from the clinical trial accurately and precisely evaluates the treatment effect.
A critical component of the demonstration of the effectiveness and, in some cases, safety of a drug is the test of a null hypothesis in a clinical trial. If the null hypothesis is rejected at a specified level of significance (typically a one-sided level equal to .025), with demonstration of a clinically meaningful effect of the drug, the evidence generally supports a conclusion of effectiveness. Sometimes, however, the null hypothesis is rejected even though the drug is ineffective. This is called a Type I error. Typically, there are multiple scenarios for which the null hypothesis is true. We will use the term Type I error probability to refer to the maximum probability of rejecting the null hypothesis across these scenarios.

C. Potential Advantages and Examples

Adaptive designs can provide a variety of advantages over non-adaptive designs. These advantages arise from the fundamental property of clinical trials with an adaptive design: they allow the trial to adjust to information that was not available when the trial began. The specific nature of the advantages depends on the scientific context and type or types of adaptation considered, with potential advantages falling into the following major categories:

Statistical efficiency: In some cases, an adaptive design can provide a greater chance to detect a true drug effect (i.e., greater statistical power) than a comparable non-adaptive design.⁷ This is often true, for example, of group sequential designs (section V.A.) and designs with adaptive modifications to the sample size (section V.B.). Alternatively, an adaptive design may provide the same statistical power with a smaller expected sample size⁸ or shorter expected duration than a comparable non-adaptive design.

7: An example of a comparable non-adaptive design is a fixed sample design with sample size equal to the expected sample size of the adaptive design.

8: The expected sample size is the average sample size if the trial were repeated many times.
Ethical considerations: There are many ways in which an adaptive design can provide ethical advantages over a non-adaptive design. For example, the ability to stop a trial early if it becomes clear that the trial is unlikely to demonstrate effectiveness can reduce the number of patients exposed to the unnecessary risk of an ineffective investigational treatment and allow subjects the opportunity to explore more promising therapeutic alternatives.
Improved understanding of drug effects: An adaptive design can make it possible to answer broader questions than would normally be feasible with a non-adaptive design. For example, an adaptive enrichment design (section V.C.) may make it possible to demonstrate effectiveness in either a given population of patients or a targeted subgroup of that population, where a non-adaptive alternative might require infeasibly large sample sizes. An adaptive design can also yield improved understanding of the effect of the experimental treatment. For example, a design with adaptive dose selection (section V.D.) may yield better estimates of the dose-response relationship, which may also lead to more efficient subsequent trials.
Acceptability to stakeholders: An adaptive design may be considered more acceptable to stakeholders than a comparable non-adaptive design because of the added flexibility. For example, sponsors might be more willing to commit to a trial that allows planned design modifications based on accumulating information. Patients may be more willing to enroll in trials that use response-adaptive randomization (section V.E.) because these trials can increase the probability that subjects will be assigned to the more effective treatment.

The following examples of clinical trials with adaptive designs illustrate some of the potential advantages:

clinical trial was conducted to evaluate Eliprodil for treatment of patients suffering from severe head injury (Bolland et al. 1998). The primary efficacy endpoint was a three-category outcome defining the functional status of the patient after six months of treatment. There was considerable uncertainty at the design stage about the proportions of patients in the placebo control group who would be expected to experience each of the three different functional outcomes. An interim analysis was prespecified to update estimates of these proportions based on pooled, non-comparative data in order to potentially increase the sample size. This approach was chosen to avoid a trial with inadequate statistical power and therefore helped ensure that the trial would efficiently and reliably achieve its objective. The interim analysis ultimately led to a sample size increase from 400 to 450 patients.
PARADIGM-HF was a clinical trial in patients with chronic heart failure with reduced-ejection fraction designed to compare LCZ696, a combination of the neprilysin inhibitor sacubitril and the renin-angiotensin system (RAS) inhibitor valsartan, with the RAS inhibitor enalapril with respect to risk of the composite endpoint of cardiovascular death or hospitalization for heart failure (McMurray et al. 2014). The trial design included three planned interim analyses after accrual of one-third, one-half, and two-thirds of the total planned number of events, with the potential to stop the trial for superior efficacy of LCZ696 over enalapril based on comparative results. The addition of interim analyses with stopping rules for efficacy reduced the expected sample size and expected duration of the trial while maintaining a similar probability of trial success, relative to a trial with a single analysis after observation of a fixed total number of events. PARADIGM-HF was stopped after the third interim analysis because the prespecified stopping boundary for compelling superiority of LCZ696 over enalapril had been crossed. The group sequential design therefore facilitated a more rapid determination of benefit than would have been possible with a fixed sample design.
To evaluate the safety and effectiveness of a nine-valent human papillomavirus (HPV) vaccine, a clinical trial with adaptive dose selection was carried out (Chen et al. 2015). The trial randomized subjects to one of three dose formulations of the nine-valent HPV vaccine or an active control, the four-valent HPV vaccine. An interim analysis was carried out to select one of the three dose formulations to carry forward into the second stage of the trial. The goal of the trial was to select an appropriate dose and confirm the safety and effectiveness of that dose in a timely manner.
STAMPEDE was a clinical trial designed to inform the practice of medicine and simultaneously evaluate multiple treatments in prostate cancer by comparing standard androgen deprivation therapy (ADT) with several different treatment regimens that combined ADT with one or more approved therapies (Sydes et al. 2012). The trial design included multiple interim analyses to potentially drop treatment arms that were not performing well based on comparative results. The use of a common control group, along with sequential analyses to potentially terminate treatment arms, allowed the simultaneous evaluation of several treatments more efficiently than could have been achieved in multiple individual trials.
PREVAIL II was a clinical trial conducted to evaluate ZMapp plus the current standard of care as compared to the current standard of care alone for treatment of patients with Ebola virus disease (PREVAIL II Writing Group et al. 2016; Dodd et al. 2016). The trial utilized a novel Bayesian adaptive design in which decision rules for concluding effectiveness at interim and final analyses were based on the Bayesian posterior probability that the addition of ZMapp to standard of care reduces 28-day mortality. Interim analyses were planned after every 2 patients completed, with no potential action taken until a minimum number of patients (12 per group) were enrolled. The design also allowed the potential to add experimental agents as new treatment arms and the potential to supplement or replace the current standard of care arm with any agents determined to be efficacious during the conduct of the trial.

D. Limitations

The following are some of the possible limitations associated with a clinical trial employing an adaptive design:

Adaptive designs require specific analytical methods to avoid increasing the chance of erroneous conclusions and introducing bias in estimates. For complex adaptive designs, such methods may not be readily available, and simulations are often critical (section VI.A.).
Gains in efficiency in some respects may be offset by losses in other respects. For example, an adaptive design may have a reduced minimum and expected sample size but have an increased maximum sample size⁹ relative to a comparable non-adaptive design. In addition, preplanning adaptive design modifications can require more effort at the design stage, leading to longer lead times between planning and starting the trial.

9: The minimum and maximum sample sizes are the smallest and largest sample sizes, respectively, that could be selected under the adaptive design if the trial were repeated many times.
The use of an adaptive design adds logistical challenges to ensuring appropriate trial conduct and trial integrity. In particular, approaches to appropriately limit access to comparative interim results may be complex and add costs to the trial. In addition, it is challenging to ensure high-quality interim data are available in a timely manner so that adaptive decision-making is based on up-to-date and reliable results.
The opportunity for efficiency gains through adaptation may be limited by important scientific constraints or in certain clinical settings. For example, a minimum sample size may be expected for a reliable evaluation of safety. There also may be limited utility in certain types of adaptations if the primary outcome of interest is ascertained over a longer period of time than the time it takes to enroll most or all patients in the trial.
An adaptive change to a trial design may lead to results after the adaptation that are different from those before the adaptation. This may lead to challenges in interpretability of results.

E. Choosing to Adapt

In general, the decision to use or not use adaptive elements in a clinical trial design will depend on a large number of factors, including the potential advantages and disadvantages described in the preceding sections. There may also be a variety of non-scientific considerations. In short, designing a clinical trial is a complex process, and it is not the intent of this guidance to require or restrict the use of adaptive designs in general or in specific settings. However, FDA encourages sponsors to explore a variety of design options in planning and to discuss their considerations with the appropriate FDA review division at regulatory meetings such as End-of-Phase-2 (EOP2) or Type C meetings.

III. PRINCIPLES FOR ADAPTIVE DESIGNS

In general, the design, conduct, and analysis of an adaptive clinical trial intended to provide substantial evidence of effectiveness should satisfy four key principles: the chance of erroneous conclusions should be adequately controlled, estimation of treatment effects should be sufficiently reliable, details of the design should be completely prespecified, and trial integrity should be appropriately maintained. While all clinical trials intended to provide substantial evidence of effectiveness should satisfy these four principles, the following sections outline considerations specific to adaptive designs.

A. Controlling the Chance of Erroneous Conclusions

Because clinical trials play a central role in premarket decision-making, it is critical to assess the probability that any trial design under consideration will lead to incorrect conclusions of safety or effectiveness, incorrect conclusions of lack of safety or effectiveness, or misleading estimates that contribute to an overall assessment of benefit-risk. For example, there are a number of ways in which adaptive features can inflate the Type I error probability of a trial. The most obvious examples of this are cases in which multiple statistical hypothesis tests are performed. Consider a group sequential design, in which a preliminary test to potentially stop the trial for efficacy is performed after 50 percent of planned subjects have completed the trial. If the trial is not stopped early, a final test is performed once 100 percent of the planned subjects have completed the trial. If each of these two tests were performed at the conventional .025 one-sided significance level and the drug were not effective, the overall chance of the trial yielding a Type I error would exceed 2.5 percent. This is a well-known problem, and a variety of methods exist to determine appropriate significance levels for interim and final analyses that together ensure the overall Type I error probability of the trial is controlled at 2.5 percent (Jennison and Turnbull 1999).

Explicit multiple hypothesis tests are not the only way adaptive design features can lead to erroneous conclusions. Consider a naive approach to adaptive patient population selection, in which data in the overall trial population and in a subpopulation are examined halfway through a trial, and the population with the larger treatment effect at that point is chosen for continued study. If the final analysis is performed in the selected population at a .025 significance level and includes the same data that were used to choose the patient population, the Type I error probability would exceed 2.5 percent. Other adaptive design features may introduce still more subtle Type I error probability inflation.

Adaptive design proposals for trials incorporating null hypothesis testing should therefore address the possibility of Type I error probability inflation. In some cases, such as simple group sequential designs (section V.A.), statistical theory can be used to derive significance levels that ensure Type I error probability is controlled at the desired level. In other cases, such as sample size re-estimation based on non-comparative interim results (section IV.), it can be shown that performing analyses at the conventional .025 significance level has no effect or a limited effect on the Type I error probability. In still other cases, such as many Bayesian adaptive designs (section VI.B.), it may be critical to use simulations (section VI.A.) to evaluate the chance of an erroneous conclusion.

B. Estimating Treatment Effects

It is important that clinical trials produce sufficiently reliable treatment effect estimates to facilitate an evaluation of benefit-risk and to appropriately label new drugs, enabling the practice of evidence-based medicine. Some adaptive design features can lead to statistical bias in the estimation of treatment effects and related quantities. For example, each of the two cases of Type I error probability inflation mentioned in section III.A. above has a potential for biased estimates. Specifically, a conventional end-of-trial treatment effect estimate such as a sample mean that does not take the adaptations into account would tend to overestimate the true population treatment effect. This is true not only for the primary endpoint which formed the basis of the adaptations, but also for secondary endpoints correlated with the primary endpoint. Furthermore, confidence intervals for the primary and secondary endpoints may not have correct coverage probabilities for the true treatment effects.

For some designs there are known methods for adjusting estimates to reduce or remove bias associated with adaptations and to improve performance on measures such as the mean squared error¹⁰ (e.g., Jennison and Turnbull 1999; Wassmer and Brannath 2016). Such methods should be prospectively planned and used for reporting results when they are available. Biased estimation in adaptive design is currently a less well-studied phenomenon than Type I error probability inflation, however, and methods may not be available for other designs. For these other designs, the extent of bias in estimates should be evaluated, and treatment effect estimates and associated confidence intervals should be presented with appropriate cautions regarding their interpretation.

10: The minimum and maximum sample sizes are the smallest and largest sample sizes, respectively, that could be selected under the adaptive design if the trial were repeated many times.

C. Trial Planning

In general, as with any clinical trial,¹¹ it is expected that the details of the adaptive design are completely specified prior to initiation of the trial and documented accordingly (section VIII.B.). Prospective planning should include prespecification of the anticipated number and timing of interim analyses, the type of adaptation, the statistical inferential methods to be used, and the specific algorithm governing the adaptation decision. Complete prespecification is important for a variety of reasons. First, for many types of adaptations, if aspects of the adaptive decision-making are not planned, appropriate statistical methods to control the chance of erroneous conclusions and to produce reliable estimates may not be feasible once data have been collected. Second, complete prespecification helps increase confidence that adaptation decisions were not based on accumulating knowledge in an unplanned way. For example, consider a trial with planned sample size re-estimation based on pooled, non-comparative interim estimates of the variance (section IV.) in which personnel involved in the adaptive decision-making (e.g., a monitoring committee) have access to comparative interim results. Prespecification that includes the exact rule for modifying the sample size reduces concern that the adaptation could have been influenced by knowledge of comparative results and precludes the use of a statistical adjustment to account for modifications based on comparative interim results (section V.B.). Finally, complete prespecification can motivate careful planning at the design stage, eliminate unnecessary sponsor access to comparative interim data, and help ensure that the DMC, if involved in implementing the adaptive design, effectively focuses on its primary responsibilities of maintaining patient safety and trial integrity (section VII.).

11: FDA guidance for industry E9 Statistical Principles for Clinical Trials (September 1998) recommends prespecification of the design and analysis plan for all clinical trials.

Although we recommend prespecification of the rules governing adaptations, monitoring committee recommendations might occasionally deviate from the anticipated algorithm based on the totality of the data. If this type of flexibility is desired, the prespecified plan should acknowledge the possibility of deviations from the anticipated algorithm, outline factors that may lead to such deviations, and propose testing and estimation methods that do not rely on strict adherence to the algorithm. When completely unforeseen circumstances arise, we recommend discussing any potential design changes with FDA as soon as possible.

D. Maintaining Trial Conduct and Integrity

Adaptive designs can create additional trial operational complications. Knowledge of accumulating data can affect the course and conduct of a trial, and the behavior of its sponsor, investigators, and participants, in ways that are difficult to predict and impossible to adjust for. Therefore, for all clinical trials (adaptive and non-adaptive) it is strongly recommended that access to comparative interim results be limited to individuals with relevant expertise who are independent of the personnel involved in conducting or managing the trial.¹² Maintaining confidentiality of comparative interim results is especially challenging when the trial design includes adaptive features. Two examples of issues that could arise in adaptive trials are:

12: This recommendation is also conveyed in FDA guidance for industry E9 Statistical Principles for Clinical Trials (September 1998).

If investigators are improperly provided access to comparative results from an interim analysis, knowledge of a small or unfavorable estimated treatment effect based on unreliable data could be misinterpreted as reliable evidence of no effect, leading to decreased adherence and decreased efforts to retain patients, increasing the amount of missing data in the remainder of the trial.
After an interim analysis in a design with sample size re-estimation based on comparative results (section V.B.), knowledge that the targeted sample size has been increased could be interpreted by investigators and potential trial subjects as indicative of a less-than-expected interim treatment effect, potentially depressing future enrollment and endangering the success of the trial.

As these and other similar issues are generally impossible to adjust for once data have been collected, planning for an adaptive design trial should include a consideration of possible sources and consequences of trial conduct issues and plans to avoid these issues. Plans should describe the processes intended to control access to information and to document access throughout the trial. This is discussed in more detail in section VII.

IV. ADAPTIVE DESIGNS BASED ON NON-COMPARATIVE DATA

This section addresses adaptive clinical trial designs in which adaptations are based entirely on analyses of non-comparative data, that is, without incorporating information about treatment assignment. Such analyses are sometimes called blinded or masked analyses. In general, adequately prespecified adaptations based on non-comparative data have no effect or a limited effect on the Type I error probability. This makes them an attractive choice in many settings, particularly when uncertainty about event probabilities or endpoint variability is high.

Accumulating outcome data can provide a useful basis for trial adaptations. The analysis of outcome data without using treatment assignment is sometimes called pooled analysis. The most widely used category of adaptive design based on pooled outcome data involves sample size adaptations (sometimes called blinded sample size re-estimation). Sample size calculations in clinical trials depend on several factors: the desired significance level, the desired power, the assumed or targeted difference in outcome due to treatment assignment, and additional nuisance parameters—values that are not of primary interest but may affect the statistical comparisons. In trials with binary outcomes such as a response or an undesirable event, the probability of response or event in the control group is commonly considered a nuisance parameter. In trials with continuous outcomes such as symptom scores, the variance of the scores is a nuisance parameter. By using accumulating information about nuisance parameters, sample sizes can be adjusted according to prespecified algorithms to ensure the desired power is maintained. In some cases, these techniques involve statistical modeling to estimate the value of the nuisance parameter, because the parameter itself depends on knowledge of treatment assignment (Gould and Shih 1992). These adaptations generally do not inflate the Type I error probability. However, there is the potential for limited Type I error probability inflation in trials incorporating hypothesis tests of non-inferiority or equivalence (Friede and Kieser 2003). Sponsors should evaluate the extent of inflation in these scenarios.

Another example of adapting based on pooled outcome data is the planned interim reevaluation of the prognostic strength of a biomarker or other baseline characteristic in a prognostic enrichment strategy.¹³ For example, a trial may be targeting greater enrollment among patients with a certain biomarker to increase the number of endpoint events, but interim pooled outcome data may suggest the biomarker does not have the anticipated effect on the pooled event rate, perhaps leading to a change in recruitment strategies.

13: See additional discussion in the FDA guidance for industry Enrichment Strategies for Clinical Trials to Support Approval of Human Drugs and Biological Products (March 2019).

V. ADAPTIVE DESIGNS BASED ON COMPARATIVE DATA

This section discusses different types of clinical trial designs in which there are prespecified rules for stopping the trial or modifying the design based on interim analyses of comparative data. Such analyses are sometimes called unblinded or unmasked analyses. There are a few important concepts that are generally applicable to the sections that follow. First, in contrast to adaptations based on non-comparative data, adaptations based on comparative data often directly increase the Type I error probability and induce bias in treatment effect estimates. Therefore, statistical methods should take into account the adaptive trial design. Second, when adaptations are based on comparative interim analyses, additional steps are critical to ensure appropriate trial conduct. This is discussed in more detail in section VII. Finally, stopping or adaptation rules can be specified on a variety of different scales, such as the estimate of treatment effect, fixed sample p-value, conditional probability of trial success, Bayesian posterior probability that the drug is effective, or Bayesian predictive probability of trial success. The choice of scale is relatively unimportant as long as the operating characteristics¹⁴ of the designs are adequately evaluated.

14: Trial operating characteristics are the properties of the trial with a given design. For example, properties of interest might include Type I error probability; power; expected, minimum, and maximum sample size; bias of treatment effect estimates; and coverage of confidence intervals (i.e., the probability the confidence interval would include the true treatment effect if the clinical trial were repeated many times).

A. Group Sequential Designs

Group sequential trials allow for one or more prospectively planned interim analyses of comparative data with prespecified criteria for stopping the trial. The inclusion of sequential analyses can provide ethical and efficiency advantages by reducing the expected sample size and duration of clinical trials and by accelerating the approval of safe and effective new treatments. For example, a group sequential design with a single interim analysis and a commonly used stopping boundary for efficacy can reduce the expected sample size of the trial by roughly 15 percent relative to a comparable fixed sample trial.¹⁵

15: A group sequential design with an interim analysis that occurs when outcome information is available on half of the maximum number of patients and that utilizes an O’Brien-Fleming stopping boundary for efficacy, reduces the expected sample size of the trial by roughly 15 percent if the alternative hypothesis (at which there is 90 percent power) is true, as compared to a design with a single analysis planned when all patients have been enrolled and had their outcomes ascertained.

Group sequential designs may include rules for stopping the trial when there is sufficient evidence of efficacy to support regulatory decision-making or when there is evidence that the trial is unlikely to demonstrate efficacy, which is often called stopping for futility. Performing each of the multiple statistical hypothesis tests for efficacy in a group sequential trial at the conventional .025 one-sided significance level would inflate the Type I error probability and, therefore, increase the chance of erroneous conclusions. A variety of methods exist to determine appropriate stopping boundaries for the interim and final analyses such that the Type I error probability is appropriately controlled. For example, the O’Brien-Fleming approach tends to require very persuasive early results to stop the trial for efficacy (O’Brien and Fleming 1979). Alternative approaches such as that proposed by Pocock require less persuasive early results and have higher probabilities of early stopping (Pocock 1977). These and other approaches rely on prospective planning of both the number of interim analyses and the specific sample size or number of event targets at which those analyses will occur.

The Lan-DeMets alpha-spending16 approach accommodates varying levels of evidence for early stopping by specifying a function for how the Type I error probability is spent throughout the trial, while also allowing for flexibility in determining the number and timing of interim analyses (Lan and DeMets 1983). The flexibility in timing helps accommodate scheduling of monitoring meetings at specific calendar times rather than at specific interim sample sizes or number of event targets. The flexibility in the number of analyses can help accommodate faster- or slower-than-expected enrollment rates. If, however, interim analysis times are chosen based on accumulating comparative results, the Type I error probability can be inflated. For example, adjusting the next interim analysis to occur sooner than originally planned because the current interim analysis result is close to the stopping boundary would not be appropriate. Because of this potential issue with the Lan-DeMets alpha-spending approach, sponsors should put in place additional safeguards such as a targeted number of interim analyses and an approximate schedule for their occurrence, as well as a decision framework for changing the number or timing of analyses after the trial has begun. The decision framework should be based on information that is statistically independent of the estimated treatment effect (e.g., enrollment rate or scheduling logistics). For example, the decision framework could specify semi-annual interim analyses, with additional analyses planned if enrollment is considerably slower than a prespecified target.

16: The Type I error probability of a clinical trial is often denoted by the Greek letter α (alpha).

There are a number of additional considerations for ensuring the appropriate design, conduct, and analysis of a group sequential trial. First, for group sequential methods to be valid, it is important to adhere to the prospective analytic plan and terminate the trial for efficacy only if the stopping criteria are met. Second, guidelines for stopping the trial early for futility should be implemented appropriately. Trial designs often employ nonbinding futility rules, in that the futility stopping criteria are guidelines that may or may not be followed, depending on the totality of the available interim results. The addition of such nonbinding futility guidelines to a fixed sample trial, or to a trial with appropriate group sequential stopping rules for efficacy, does not increase the Type I error probability and is often appropriate. Alternatively, a group sequential design may include binding futility rules, in that the trial should always stop if the futility criteria are met. Binding futility rules can provide some advantages in efficacy analyses (e.g., a relaxed threshold for a determination of efficacy), but the Type I error probability is controlled only if the stopping rules are followed. Therefore, if a trial continues despite meeting prespecified binding futility rules, the Agency will likely consider that trial to have failed to provide evidence of efficacy, regardless of the outcome at the final analysis. Note also that some DMCs might prefer the flexibility of nonbinding futility guidelines.

Third, a trial terminated early for efficacy will have a smaller sample size for the evaluation of safety and potentially important secondary efficacy endpoints. Therefore, early stopping for efficacy is typically reserved for circumstances where there are compelling ethical reasons (e.g., the primary endpoint is survival or irreversible morbidity) or where the stopping rules require highly persuasive results in terms of both the magnitude of the estimated treatment effect and the strength of evidence of an effect. In some cases, there may be a limit on how early group sequential interim analyses should occur or whether they should occur at all because of a minimum sample size expected for a reliable evaluation of safety. This is often true, for example, in preventive vaccine trials.

Finally, conventional fixed sample estimates of the treatment effect such as the sample mean tend to be biased toward greater effects than the true value when a group sequential design is used. Similarly, confidence intervals do not have the desired nominal coverage probabilities. Therefore, a variety of methods exist to compute estimates and confidence intervals that appropriately adjust for the group sequential stopping rules (Jennison and Turnbull 1999). To ensure the scientific and statistical credibility of trial results and facilitate important benefit-risk considerations, an approach for calculating estimates and confidence intervals that appropriately accounts for the group sequential design should be prospectively planned and used for reporting results.

B. Adaptations to the Sample Size

One adaptive approach is to prospectively plan modifications to the sample size based on interim estimates of nuisance parameters from analyses that utilize treatment assignment information. For example, there are techniques that estimate the variance of a continuous outcome incorporating estimates of the variances on the individual treatment arms, or that estimate the probability of a binary outcome on the control arm based on only data from that arm. These approaches generally have no effect, or a limited effect, on the Type I error probability. However, unlike adaptations based on non-comparative pooled interim estimates of nuisance parameters (section IV.), these adaptations involve treatment assignment information and, therefore, require additional steps to maintain trial integrity (section VII.).

Another adaptive approach is to prospectively plan modifications to the sample size based on comparative interim results (i.e., interim estimates of the treatment effect). This is often called unblinded sample size adaptation or unblinded sample size re-estimation. Sample size determination depends on many factors, such as the event rate in the control arm or the variability of the primary outcome, the Type I error probability, the hypothesized treatment effect size, and the desired power to detect this effect size. In section IV., we described potential adaptations based on non-comparative interim results to address uncertainty at the design stage in the variability of the outcome or the event rate on the control arm. In contrast, designs with sample size adaptations based on comparative interim results might be used when there is considerable uncertainty about the true treatment effect size. Similar to a group sequential trial, a design with sample size adaptations based on comparative interim results can provide adequate power under a range of plausible effect sizes, and therefore, can help ensure that a trial maintains adequate power if the true magnitude of treatment effect is less than what was hypothesized, but still clinically meaningful. Furthermore, the addition of prespecified rules for modifying the sample size can provide efficiency advantages with respect to certain operating characteristics in some settings.

Indiscriminately modifying the sample size of a trial without proper adjustment can inflate the Type I error probability. Consider a design with one interim analysis at which the interim estimate of treatment effect is used to modify the final sample size. If one carries out a hypothesis test at the end of the trial at the conventional .025 significance level, the Type I error probability can be more than doubled (Proschan and Hunsberger 1995).¹⁷ Therefore, one of a variety of available methods should be used to appropriately control the Type I error probability with this type of adaptive design. For example, hypothesis testing approaches have been developed based on combining test statistics or p-values from the different stages of the trial in a preplanned manner or through preservation of the conditional Type I error probability (e.g., Bauer and Kohne 1994; Fisher 1998; Cui et al. 1999; Denne 2001; Müller and Schäfer 2001; Chow and Chang 2011). These approaches also accommodate adaptations to aspects of the sampling plan other than the maximum sample size, such as the number and spacing of future interim analyses.

17: This means that even use of the Bonferroni method to adjust for the two analyses conducted would not be adequate.

The additional considerations regarding adherence to the adaptation plan, the evaluation of safety, and the estimation of treatment effects that were discussed in section V.A. on group sequential designs also apply to designs with sample size adaptations based on comparative data. Of note, prospective planning should include prespecification of not only the statistical hypothesis testing method that will be used, but also the rule governing the sample size modification. Finally, there are additional challenges in maintaining trial integrity in the presence of sample size adaptations. For example, sample size modification rules are often based on maintaining the conditional probability of a statistically significant treatment effect at the end of the trial (often called the conditional power) at or near some desired level. In this scenario, knowledge of the adaptation rule and the adaptively chosen sample size allows a relatively straightforward back-calculation of the interim estimate of treatment effect. Therefore, additional steps should be taken to limit personnel with this detailed knowledge so that trial integrity can be maintained. See section VII. for additional discussion.

The principles discussed in this section also apply to trials with time-to-event endpoints where the adaptive design allows prospectively planned modifications to the total number of events based on comparative interim results. However, there are some special additional considerations in such settings that are discussed further in section VI.C.

C. Adaptations to the Patient Population (e.g., Adaptive Enrichment)

In many settings, it may be expected that the treatment effect will be greater in a certain subset of the trial population. This subpopulation could be defined, for example, by a demographic characteristic or by a genetic or pathophysiologic marker that is thought to be related to the drug’s mechanism of action. In such a setting, consideration could be given to a design that allows adaptive modifications to the patient population based on comparative interim results. For example, a trial might enroll subjects from the overall trial population up through an interim analysis, at which time a decision will be made based on prespecified criteria whether to continue enrollment in the overall population or to restrict future enrollment to the targeted subpopulation. Data accumulated both before and after the interim analysis may be combined to draw inference on the treatment effect in the targeted group. This type of design, often called an adaptive enrichment¹⁸ design, can provide advantages over non-adaptive designs. In particular, such an adaptive design can provide greater power¹⁹ at the same sample size as a non-adaptive fixed sample design in the overall population. Furthermore, unlike a trial restricting enrollment to the targeted subpopulation, the adaptive design allows an evaluation of the experimental treatment in the non-targeted (complementary) subpopulation.

18: The term adaptive enrichment is used, for example, in the FDA guidance for industry Enrichment Strategies for Clinical Trials to Support Approval of Human Drugs and Biological Products (March 2019).

19: Power in this context could be defined, for example, as the probability of successfully identifying a true treatment effect in either the targeted subpopulation or the overall population.

A design that allows adaptive modifications to the patient population often involves both (1) modification of design features, such as the enrolled population and the population evaluated in the primary analysis, based on comparative interim results; and (2) hypothesis tests in multiple populations, such as a targeted subpopulation and the overall population. Therefore, statistical hypothesis testing methods should account for both sources of multiplicity. For example, one approach is to combine test statistics or p-values from the different stages of the trial in a preplanned manner, while also using an appropriate multiple testing procedure (Wassmer and Brannath 2016). Such an approach could potentially also accommodate adaptations to the sample size or to the proportion of patients enrolled from a particular subpopulation (e.g., increasing the proportion in a subset rather than completely restricting enrollment to that subset).

There are a number of important considerations beyond those previously discussed for group sequential designs and designs with adaptive modifications to the sample size. First, in the case of an adaptive enrichment design, the proposed adaptive modifications to the patient population should be motivated by results from previous (e.g., early-phase) trials and/or strong biologic plausibility that the benefit-risk profile will be most favorable in a particular subpopulation. Second, if the baseline characteristic that is thought to modify the treatment effect is not binary in nature, any threshold or thresholds used to define subpopulations should be appropriately justified. Third, the identification of the targeted subpopulation may depend on the use of an in vitro diagnostic device. In this scenario, the diagnostic device should have adequate performance characteristics.²⁰ Finally, the extent to which the trial should be designed to characterize the treatment effect in the complementary subpopulation may depend on a number of factors, such as the pathophysiologic or empirical rationale for enrichment, the toxicities of the drug, the distribution of the baseline marker defining the subpopulations, the justification for a threshold defining subpopulations, and the potential for off-label use in the complementary subpopulation if approval is limited to the targeted subpopulation.

20: See the FDA guidance for industry and FDA staff In Vitro Companion Diagnostic Devices (August 2014) and the FDA draft guidance for industry and FDA staff Principles for Codevelopment of an In Vitro Companion Diagnostic Device with a Therapeutic Product (July 2016). When final, this guidance will represent the FDA’s current thinking on this topic. For the most recent version of a guidance, check the FDA guidance web page.

D. Adaptations to Treatment Arm Selection

Another adaptive approach is to prospectively plan modifications to the treatment arms included in the clinical trial based on comparative interim results. Modifications could include adding or terminating arms. This kind of design has often been used in early-phase exploratory dose-ranging trials. An adaptive dose-ranging trial might begin with several doses and incorporate interim analyses based on comparative data to select doses for continued evaluation, with the goal of providing improved characterization of the dose-response relationship relative to a non-adaptive design and allowing selection of an optimal dose or doses for evaluation in future confirmatory trials. For example, the continual reassessment method (CRM) is an approach to adaptively escalate the doses evaluated in early-phase trials based on observed toxicities in order to reliably and efficiently estimate the maximum tolerated dose for a new drug (Le Tourneau et al. 2009). Adaptive treatment arm selection is also possible in trials intended to provide substantial evidence of effectiveness. For example, in a setting where it is plausible that either or both of two doses might have a favorable benefit-risk profile, an adaptive design with sequential analyses allowing early termination of one of the dose arms can meet its scientific objective in a more efficient manner than alternative non-adaptive designs. Such an adaptive design could in principle allow interim modifications to additional aspects of the design, such as the number of additional patients that will be enrolled (the sample size) and the randomization ratio for treatment arms carried forward.

For trials intended to provide substantial evidence of effectiveness, statistical hypothesis testing methods should account for the adaptive selection of a best dose or doses from among the multiple doses evaluated in the trial, as well as any additional adaptive modifications, such as the potential to stop the trial early or to modify future sample sizes. In the simple case of a design with more than one dose that includes interim analyses to potentially stop enrollment for a particular dose for efficacy or futility, typical group sequential testing methods can be used, along with some multiple testing approach to control the Type I error probability across the multiple doses evaluated. If the design allows for additional adaptations such as modifications to the sample size, methods such as those described for sample size and population adaptations should be used. As with other adaptive designs, prospective planning is important and should include prespecification of not only the testing method, but also the adaptation rule for selecting treatment arms and for any other potential interim modifications. In general, seamless designs that incorporate both dose selection and confirmation of efficacy of a selected dose (based on data from the entire trial) can be considered if the principles outlined in section III. are followed.

A special case of adaptive treatment arm selection occurs in the context of an adaptive platform trial designed to compare more than one experimental treatment against an appropriate control for a disease (e.g., Woodcock and LaVange 2017). Two features of these trials often incorporated for efficiency gains are use of a common control arm and use of prospectively planned adaptations to select promising treatments at interim analyses for continued study. Because these trials may involve investigational agents from more than one sponsor, may be conducted for an unstated length of time, and often involve complex adaptations, they should generally involve extensive discussion with FDA.

E. Adaptations to Patient Allocation

This section considers two types of adaptations to patient allocation: adaptations based on comparative baseline characteristic data and adaptations based on comparative outcome data. The first type is covariate-adaptive treatment assignment, a technique in which a patient’s treatment assignment depends in part or entirely on his or her baseline characteristics and the baseline characteristics and treatment assignments of previously enrolled patients. Such an approach is used to promote balance between treatment groups on baseline covariates. One well-known example of covariate-adaptive randomization is minimization (Pocock and Simon 1975), which involves assigning each consecutive patient to treatment in such a way that differences between treatment groups on potentially prognostic covariates are minimized. Covariate-adaptive treatment assignment techniques do not directly increase the Type I error probability when analyzed with the appropriate methodologies (generally randomization or permutation tests). These techniques can increase the predictability of treatment assignment relative to simple randomization, but this predictability can be mitigated with an additional random component to prevent perfectly deterministic treatment assignment.

The second type is response-adaptive randomization, an adaptive feature in which the chance of a newly-enrolled subject being assigned to a treatment arm varies over the course of the trial based on accumulating outcome data for subjects previously enrolled. There are a variety of response-adaptive randomization techniques, some of which go by names such as play the winner designs. Statistical, ethical, and pragmatic rationales are all sometimes given for using response-adaptive randomization. In statistical terms, response-adaptive techniques can in some circumstances minimize the variance of the test statistics, leading to shorter trials, smaller sample sizes, and/or greater statistical power. The ethical argument for response-adaptive randomization is that this design feature can lead to more trial subjects being assigned to the more promising of the treatment arms. Finally, a pragmatic argument is that clinical trials with this design feature can be appealing to potential participants, thereby increasing speed and ease of accrual. Note that the arguments for response-adaptive randomization are controversial, and some researchers feel that inconclusive interim results should not be used to alter randomization in an ongoing trial and/or that statistical efficiency is not substantially improved in two-arm trials to justify adjusting randomization ratios (Hey and Kimmelman 2015, and accompanying commentaries).

Response-adaptive randomization alone does not generally increase the Type I error probability of a trial when used with appropriate statistical analysis techniques. It is important to ensure that the analysis methods appropriately take the design of the trial into account. Finally, as with many other adaptive techniques based on outcome data, response-adaptive randomization works best in trials with relatively short-term ascertainment of outcomes.

F. Adaptations to Endpoint Selection

This is a design that allows adaptive modification to the choice of primary endpoint based on comparative interim results. Such a design might be motivated by uncertainty about the treatment effect sizes on multiple patient outcomes that would be considered acceptable primary endpoints by FDA. As with other adaptive designs, the adaptation rule should be prespecified, and statistical hypothesis testing methods should account for the adaptive endpoint selection. Because endpoint selection involves important clinical considerations, early discussion with the FDA review division is recommended when such designs are being considered.

G. Adaptations to Multiple Design Features

It is possible for a clinical trial to be more complex by combining two or more of the adaptive design features discussed in this guidance. The same general principles apply to these complex designs as to simpler adaptive designs. It may be particularly difficult to estimate Type I error probability and other operating characteristics for designs that incorporate multiple adaptive features. Clinical trial simulations (section VI.A.) will often be critical to evaluate the trial design.

VI. SPECIAL CONSIDERATIONS AND TOPICS

A. Simulations in Adaptive Design Planning

Clinical trial simulations often play a critical role in planning and designing clinical trials in general and are particularly important for adaptive trials. Simulations can be used, for example, to select the number and timing of interim analyses, or to determine the appropriate critical value of a test statistic for declaring efficacy or futility. Simulations can also be useful for comparing the performance of alternative designs. A major use of simulations in adaptive trial design is to estimate trial operating characteristics and to demonstrate that these operating characteristics meet desired levels.

Traditional non-adaptive clinical trials have generally relied on statistical theory to ensure that Type I error probability is controlled at a desired level and to obtain estimates of the power of the trial. In the simplest case, when testing a single endpoint in a fixed-sample size clinical trial design, it can typically be shown that the final test statistic has a certain asymptotic probability distribution,²¹ and inference and operating characteristics can then be based on the properties of this distribution. For many adaptive designs, such as traditional group sequential designs, it is similarly possible to derive asymptotic probability distributions mathematically and base inference and planning on those distributions.

21: The asymptotic distribution of a test statistic is the approximate probability distribution of that statistic when the sample size gets large.

For some adaptive designs, however, it either is not possible to derive relevant distributions of test statistics, or the distributions themselves are not computationally tractable. This tends to be the case for more complex adaptive designs, such as designs that adapt several elements or designs that use predictive probability models to determine analysis time points. In these cases, trial operating characteristics can often be estimated by means of clinical trial simulations. For example, for Type I error probability and power, the basic logic of this approach is to simulate many instances of the trial based on various assumptions and evaluate the proportion of simulations that would have met the predetermined bar for supporting a conclusion of effectiveness under each set of assumptions.

For simulations intended to estimate Type I error probability, hypothetical clinical trials would be simulated under a series of assumptions compatible with the null hypothesis. For each set of such assumptions, the proportion of simulated trials that led to a false positive conclusion would be taken as an estimate of Type I error probability under those assumptions. In almost all cases, there are an infinite number of scenarios potentially compatible with the null hypothesis. Identifying which scenarios should be considered when estimating Type I error probability can be challenging and may rely on a combination of medical and mathematical considerations.

These scenarios may include varying assumptions about nuisance parameters. These nuisance parameters can include statistical parameters, such as the variance of a symptom scale or the probability of response in the control group, and also operational parameters, such as the speed of subject accrual to a trial. For example, consider a trial comparing 2-year mortality rates between an experimental therapy and placebo in an oncology indication with very low (for example, median 6-month) survival. The null hypothesis is equal mortality rates in the two arms. Possible scenarios consistent with this null hypothesis would include equal mortality rates of 5 percent, of 50 percent, of 99 percent, of 99.01 percent, and so on. While it is impossible to simulate every scenario compatible with the null hypothesis, it may be possible to determine a limited set of scenarios that adequately represent the plausible range of potential false positives. In this example, medical experts might feel comfortable ruling out any scenario with a 2-year placebo mortality rate below 75 percent, for instance, based on literature and clinical experience with the disease. Mathematical considerations can also play a role in determining which scenarios need to be simulated to estimate Type I error probability. It could be possible to argue that certain scenarios necessarily have lower Type I error probability than other scenarios based on monotonicity.

In many cases, it will not be possible to estimate Type I error probability for every set of null assumptions even after taking clinical and mathematical considerations into account. It is common to perform simulations on a grid of plausible values and argue based on the totality of the evidence from the simulations that maximal Type I error probability likely does not exceed a desired level across the range covered by the grid. In the example above, simulations might be performed at placebo and experimental treatment mortality rates equal to 75, 80, 85, 90, 95, and 99 percent. If, in each of these scenarios, estimated Type I error probability was below .025, that could be considered sufficient evidence that Type I error probability was adequately controlled for all scenarios with placebo mortality between 75 and 99 percent. However, with any approach, the evaluation at the end of the trial should consider whether the statistical inference is appropriate and the conclusions are justified in light of the accumulated information about the nuisance parameters. In the example, if the observed placebo mortality rate was unexpectedly 50 percent, additional simulations would be required.

Another complicating factor is the presence of multiple endpoints. If a sponsor would like to test multiple clinical endpoints and control the familywise Type I error probability across all of these endpoints, then simulations of all endpoints for each subject under null hypothesis scenarios should be performed, which could in turn require knowledge of the correlational structure of the multiple endpoints. This can be too complex an issue to address in clinical trial simulation. In some cases, however, it can be argued that assuming independence among multiple endpoints will provide an upper bound on the Type I error probability. This is true, for instance, when using the Bonferroni or Holm approach to control for multiple testing.²²

22: Additional discussion on the Bonferroni, Holm, and other multiple testing approaches can be found in the FDA draft guidance for industry Multiple Endpoints in Clinical Trials (January 2017). When final, this guidance will represent the FDA’s current thinking on this topic.

It is important to consider the precision of simulated operating characteristics, which depends on the number of simulated trials (iterations). The number of iterations should be sufficient to facilitate an understanding and review of the proposed clinical trial design. Using 100,000 iterations per scenario, for instance, ensures a 95% confidence interval for estimated Type I error probability with a width of approximately ± 0.1%, which would be sufficient in most cases. This will allow very small differences in estimated Type I error probability to be identified, which may be important in some cases. In general, it is also preferable to use different random seeds for different simulation scenarios; this helps avoid consistently atypical results across scenarios. In some cases, fewer iterations might suffice to evaluate Type I error probability. For example, it might be sufficient to use 10,000 iterations if a particularly fine grid of scenarios is explored and every scenario has an estimated Type I error probability below the desired level. Also, a smaller number of simulations can generally be used if the upper bound of the 95% confidence interval for the Type I error probability estimate is below the desired level.

Clinical trial simulations can also be used to estimate power and other relevant operating characteristics, such as expected sample size, expected duration, and bias in treatment effect estimates, for complex adaptive designs. Similar considerations apply to these estimates as to Type I error probability estimates. The level of precision expected for Type I error probability estimates, however, is generally not needed for other operating characteristics, so it is usually appropriate to investigate a sparser set of scenarios using smaller numbers of iterations for power and other operating characteristics.

B. Bayesian Adaptive Designs

The term Bayesian adaptive design has been used to refer to a wide variety of clinical trial designs that use Bayesian statistical reasoning and/or calculations in various ways (Berry, et al. 2010). Some examples of Bayesian adaptive design features are:

Use of predictive statistical modeling, possibly incorporating information external to a trial, to govern the timing and decision rules for interim analyses
Use of assumed dose-response relationships to govern dose escalation and selection
Explicit borrowing of information from external sources, e.g., previous trials, natural history studies, and registries, via informative prior distributions to improve the efficiency of a trial
Use of posterior probability distributions to form trial success criteria

In general, the same principles apply to Bayesian adaptive designs as to adaptive designs without Bayesian features. Trial designs that use Bayesian adaptive features may rely on frequentist or Bayesian inferential procedures to support conclusions of drug effectiveness. Frequentist inference is characterized by hypothesis tests performed with known power and Type I error probabilities and is often used along with Bayesian computational techniques that rely on non-informative prior distributions. Bayesian inference is characterized by drawing conclusions based directly on posterior probabilities that a drug is effective and has important differences from frequentist inference (Berger and Wolpert 1988). For trials that use Bayesian inference with informative prior distributions, such as trials that explicitly borrow external information, Bayesian statistical properties are more informative than Type I error probability. FDA’s draft guidance for industry Interacting with the FDA on Complex Innovative Clinical Trial Designs for Drugs and Biological Products (September 2019) provides recommendations on what information should be submitted to FDA to facilitate the review of trial design proposals that use Bayesian inference.

One common feature of many Bayesian adaptive designs is the use of simulations (section VI.A.) to estimate trial operating characteristics. Because many Bayesian methods themselves rely on extensive computations (Markov chain Monte Carlo (MCMC) methods and other techniques), trial simulations can be particularly resource-intensive for Bayesian adaptive designs.

C. Adaptations in Time-to-Event Settings

There are certain additional considerations specific to adaptive trials in which the primary endpoint is the time to occurrence of a certain event, such as time to death or time to tumor response. In these trials, power is dependent on the number of events rather than the number of subjects. It is therefore common to target a fixed number of events rather than a fixed number of subjects. Sample size adjustment in these trials has the purpose of modifying the number of events and, therefore, may take the form of modifying the number of subjects, the length of the follow-up period for each subject, or both. In addition, interim analyses in time-to-event settings may utilize information on surrogate or intermediate outcomes, and use of such approaches should be appropriately accounted for in the analysis (see next section for further discussion).

D. Adaptations Based on a Potential Surrogate or Intermediate Endpoint

Most adaptive designs rely on ongoing monitoring of the primary endpoint or endpoints. However, in cases where a potential surrogate or intermediate endpoint²³ exists that is correlated with the primary endpoint, and the primary endpoint itself is difficult or slow to ascertain, an adaptive design can be based on the potential surrogate or intermediate endpoint. For example, consider a trial of a treatment for a cancer where the primary endpoint is overall survival, median survival time is well over 2 years, and tumor response (e.g., complete or partial response) may be anticipated to predict clinical benefit. In this case, it may be sensible to base sample size reassessment or other adaptive features on tumor response rather than mortality. The final evaluation of efficacy would still be based on the primary endpoint (overall survival in this example). Similarly, an adaptive design could be based on a 2-month measurement of patient symptoms when the primary endpoint is the assessment of the same symptom outcome at 6 months. Some approaches involve assumptions about the relationship between the potential surrogate or intermediate endpoint and the primary endpoint, and any evaluation of Type I error probability or other trial operating characteristics should consider the possible effects of misspecification of this relationship. Other approaches do not rely on assumptions about the relationship between the potential surrogate or intermediate endpoint and the primary endpoint (Jenkins et al. 2011; Irle et al. 2012; Magirr et al. 2016).

23: For the purposes of this guidance, a potential surrogate endpoint refers to an endpoint that may be a candidate surrogate endpoint, a reasonably likely surrogate endpoint, or a validated surrogate endpoint, and an intermediate endpoint refers to an intermediate clinical endpoint. See The Biomarkers, EndpointS, and other Tools (BEST) Resource glossary for definitions of these additional terms.

In adaptive design trials with time-to-event or longitudinal outcomes, using surrogate or intermediate outcome information at the interim analysis can increase the chance of an erroneous conclusion of effectiveness unless appropriate statistical analysis techniques are used. For example, it has been noted (Bauer and Posch 2004) that in trials with time-to-event endpoints, using surrogate information at the time of an interim analysis from subjects for whom events have not been observed to help predict future event times can lead to Type I error probability inflation. Additional safeguards such as limitation of access to comparative interim results and prespecification of an adaptation rule that relies on only the primary endpoint can help increase confidence that such unplanned approaches were not carried out. See section VII. for additional discussion.

E. Secondary Endpoints

Most clinical trials have one or more secondary endpoints specified in addition to the primary endpoint,²⁴ and adaptive designs can have consequences for the analysis of these secondary endpoints. Consider group sequential designs: It is widely understood that multiple analyses of the primary endpoint can inflate the Type I error probability and lead to biased estimation of treatment effects on that endpoint. Less well appreciated, however, is that Type I error probability inflation and biased estimation can also apply to any endpoint correlated with the primary endpoint (Hung et al. 2007). Most secondary endpoints in clinical trials are correlated with the primary endpoint, often very highly correlated. For some designs such as group sequential approaches, methods exist to adjust secondary endpoint analyses for the adaptation (Glimm et al. 2010). Without such adjustment, appropriate caution should be applied in interpreting secondary endpoint results.

24: See the FDA draft guidance for industry Multiple Endpoints in Clinical Trials (January 2017) for a discussion of general considerations in the evaluation of multiple endpoints in clinical trials. When final, this guidance will represent the FDA’s current thinking on this topic.

F. Safety Considerations

Although adaptive design clinical trial planning often focuses on outcomes intended to demonstrate effectiveness, safety objectives also play a critical role. First, there are cases where adaptations are planned on safety rather than efficacy endpoints. One example is early-phase dose-ranging trials in oncology that attempt to identify a maximum tolerated dose using the CRM or other adaptive techniques. Another example is the Rotavirus Efficacy and Safety Trial (REST) that formed a primary basis for the 2006 approval of a rotavirus vaccine, RotaTeq (Heyse et al. 2008). REST was a group sequential trial designed to evaluate the risk of intussusception, a serious gastrointestinal condition, in up to 100,000 infants, of whom a subset was used for an efficacy evaluation.

Second, the acquisition of sufficient safety information to support product approval is usually a major concern in trials that adapt on efficacy endpoints. Trials with early stopping for strong evidence of effectiveness still need to collect sufficient safety data to allow for a reliable benefit-risk evaluation of the investigational drug and to inform labeling. For this reason, the size of a safety database should be taken into account when planning the number, timing, and stopping boundaries of interim analyses. In particular, the timing of interim analyses may be restricted by the expectation for a minimum number of patients studied and a minimum length of exposure to ensure a reliable safety evaluation.

Finally, it is important to consider whether certain adaptations can potentially put trial subjects at unnecessary risk. This can be a concern in particular in early-phase dose-escalation trials.

Adaptation rules that allow for successive cohorts of subjects to receive quickly escalating doses could lead to subjects receiving unsafe high doses that would have been avoided by a design with more gradual dose-escalation. This is particularly true when there is a possibility for serious adverse events with a delayed onset of action of the investigational drug. For this reason, the speed of escalation should be considered in choosing a specific adaptation rule in an adaptive dose-escalation trial.

G. Adaptive Design in Early-Phase Exploratory Trials

Exploratory trials in drug development are intended to obtain information on a wide range of aspects of drug use that guide later decisions on how best to study a drug (e.g., choices of dose, regimen, population, concomitant treatments, or endpoints). There can be a series of separate early trials in which different aspects of the drug’s effect are sequentially examined or a more complex trial attempting to evaluate multiple different aspects simultaneously. The flexibilities offered by adaptive designs may be particularly useful in this exploratory period of development by allowing initial evaluation of a broad range of choices. Using adaptive designs in early development trials to learn about various aspects of dosing, exposure, pharmacodynamics, variability in patient response, or response modifiers offers sponsors opportunities that can improve the designs and possibly the chances of success of later-phase trials.

Although exploratory trials do not generally have the same regulatory expectations as trials intended to provide substantial evidence of effectiveness in terms of statistical rigor and operating characteristics, it is still important to be aware of the potential for erroneous conclusions in exploratory trials. For example, flaws in an exploratory multiple-dose comparison trial could lead to suboptimal dose selection for a subsequent confirmatory trial, with a resultant failure to show effectiveness or a finding of unnecessarily excessive toxicity. Thus, following good principles of adaptive trial design for exploratory trials can decrease the risk of adversely affecting the development program.

H. Unplanned Design Changes Based on Comparative Interim Results

When trial data are examined in a comparative interim analysis, data analyses that were not prospectively planned as the basis for adaptations may unexpectedly appear to indicate that some specific design change (e.g., restricting analyses to some population subset, dropping a treatment arm, adjusting sample size, modifying the primary endpoint, or changing analysis methods) is ethically important or might increase the potential for a statistically significant final trial result. For example, unexpected lack of treatment adherence in one arm of a multiple-arm trial might motivate dropping that treatment arm. Such revisions based on non-prospectively planned analyses can create difficulty in controlling the Type I error probability and in interpreting the trial results. Sponsors are strongly discouraged from implementing such changes without first meeting with FDA to discuss the changes being considered, provided patient safety is not compromised.

I. Design Changes Based on Information From a Source External to the Trial

Unpredictable events that occur outside of an ongoing trial during the course of drug development programs may provide important new information relevant to the ongoing trial and may motivate revisions to the trial design. For example, there may be unexpected safety information arising from a different study (perhaps in a different patient population), new information regarding the disease pathophysiology or patient characterization that identifies disease subtypes, new information on pharmacokinetics or pharmacodynamic responses to the drug, or other information that might have led to a different trial design had the information been known when the trial was designed. When this occurs, there may be reason to revise the trial design in some manner rather than, for example, terminating the existing trial and starting a new trial with a modified design. In cases of serious safety concerns, and particularly in large trials, revising the trial design may be critical to allowing the trial to continue. Well-motivated design changes based on only information external to the trial do not affect the validity of statistical inference and will often be considered acceptable to the Agency. Practically, it is very challenging to ensure that a decision to modify a trial was based entirely on external information except in cases where the sponsor is completely blinded to comparative interim results. This is one reason why limitation of access to comparative interim results is so important. See section VII. for additional discussion.

VII. MAINTAINING TRIAL INTEGRITY

In general, it is strongly recommended that access to comparative interim results be limited to individuals with relevant expertise who are independent of the personnel involved in conducting or managing the trial and have a need to know. Ensuring that patients, investigators and their staff, and sponsor personnel do not have access to comparative interim results serves two important purposes. First, it provides the greatest confidence that potential unplanned design modifications are not motivated in any way by accumulating data. For example, knowledge of comparative interim results by trial management personnel may make it difficult for regulators to determine whether a protocol amendment seemingly well-motivated by information external to the trial was influenced, in any way, by access to accumulating comparative data. If it is thought that design changes may have been influenced by comparative interim results, appropriate statistical methods to control the chance of erroneous conclusions and to produce reliable estimates may not be known, may be challenging to implement, or may greatly reduce the efficiency of the trial.

Second, limitation of access to comparative interim results provides the greatest assurance of quality trial conduct. Knowledge of accumulating data by trial investigators can adversely affect patient accrual, adherence, retention, or endpoint assessment, compromising the ability of the trial to reliably achieve its objective in a timely manner (Fleming et al. 2008). Issues with trial conduct are difficult to predict and generally impossible to adjust for in statistical analyses. Therefore, a clinical trial with an adaptive design should include rigorous planning, careful implementation, and comprehensive documentation of approaches taken to maintain confidentiality of comparative interim results and to preserve trial integrity.

There are multiple potential models for implementing a plan for the sponsor to limit access to comparative data in an adaptive design trial. A dedicated independent adaptation body could be established, exclusive of a DMC, if one exists. Alternatively, the adaptive decision-making role could be assigned to the DMC, although its primary responsibility should remain to ensure patient safety and trial integrity.²⁵ This latter model might best be reserved for group sequential designs and other straightforward adaptive designs with simple adaptation algorithms. There are arguments favoring both approaches. For example, use of separate bodies might facilitate the inclusion of more relevant expertise on each committee and allow the DMC to most effectively focus on its primary responsibilities. On the other hand, use of a single body such as a DMC for both purposes avoids the logistical challenges of determining information sharing with and interactions between multiple monitoring groups.

25: See the FDA guidance for clinical trial sponsors Establishment and Operation of Clinical Trial Data Monitoring Committees (March 2006) for a detailed discussion of the roles, responsibilities, and operating procedures of DMCs in clinical trials.

Regardless of the approach chosen, the committee tasked with making adaptation recommendations should have members with the proper expertise, including a statistician or statisticians who are knowledgeable about the adaptation methodology, the data monitoring plan, and the decision rules. Furthermore, the responsibility of this committee should be to make adaptation recommendations or decisions based on appropriately implementing a carefully designed and prespecified adaptation plan, not to identify potential design aspects to adapt after reviewing comparative interim results. Therefore, it is important for the DMC and/or adaptation committee to be involved at the design stage in extensive discussions with the sponsor about hypothetical scenarios and whether actions dictated by the adaptation plan would be considered reasonable by all involved parties.

Safeguards should be in place to ensure that the persons responsible for preparing and reporting interim analysis results to the DMC or the adaptation committee are physically and logistically separated from the personnel tasked with managing and conducting the trial, whether those personnel reside within the sponsor organization, another organization such as a contract research organization (CRO), or both. This practice will help ensure that persons involved in the day-to-day management and conduct of the trial do not have access to treatment assignments or comparative results, even inadvertently. Similarly, recommendations from the DMC or adaptation committee back to the sponsor should generally exclude any details of the interim analysis results for the reasons cited above.

Although it is generally recommended that no sponsor representatives have access to comparative interim results, there are situations where limited access for specific sponsor personnel can be justified. For example, some adaptive trials may involve decisions, such as dose selection, that are typically the responsibility of the sponsor in non-adaptive settings and have important long-term implications for the drug development program. Limited access by sponsor personnel might be justifiable in such circumstances; for example, if a small number of sponsor representatives are involved, the individuals allowed access are not otherwise involved in trial conduct or management, and appropriate procedures are put in place to ensure that comparative interim results remain unknown to other key parties, such as patients, investigators, and the trial steering committee. However, risks to trial integrity are most easily minimized by completely restricting sponsor access to comparative interim results, and this is likely to be achievable in most circumstances through extensive planning and discussion between the sponsor and the DMC or adaptation committee at the design stage.

Appropriate limitation of access entails carefully planned procedures to maintain and verify confidentiality, as well as documentation of monitoring and adherence to the operating procedures. Approaches typically include the use of confidentiality agreements for persons with access to interim data; the use of logistical or physical firewalls that prevent access by trial personnel to any data that include information that might allow one to infer treatment assignment; and development and use of a data access plan that identifies who has access to confidential data, when that access occurs, and what types of data and results are involved. Important documentation is discussed in more detail in section VIII.

There is also potential in adaptive trials for knowledge of the adaptation decision to convey information about the interim results. Knowledge of a sample size modification algorithm and the adaptively chosen sample size, for example, can allow back-calculation of the interim estimate of the treatment effect. Therefore, steps should be taken where possible to minimize the information that can be inferred by observers. Prespecification of the adaptation rule remains critical, although the protocol could perhaps outline only the general approach, with details on the specific algorithm reserved for documents such as the DMC charter or adaptive design charter that are made available to fewer individuals. Careful consideration and planning with respect to the extent of information that is disseminated following an interim analysis is also important. In general, investigators and trial participants should be shielded as much as possible from knowledge of adaptive changes. For example, if the sample size is increased after an interim analysis, trial sites could be informed that the targeted enrollment number has not been reached rather than being notified of the specific targeted final sample size. The use of a discretized rather than a continuous adaptation decision threshold is another possible approach to limit the knowledge that can be inferred to help minimize risks to trial integrity.

VIII. REGULATORY CONSIDERATIONS

A. Interactions With FDA

The purpose and nature of interactions between a trial sponsor and FDA vary depending on the stage of development. The increased complexity of some adaptive trials and uncertainties regarding their operating characteristics may warrant earlier and more extensive interactions than usual. Early in the development of a drug, FDA’s review of a trial protocol typically focuses on the safety of trial participants rather than the validity of inference about pharmacologic activity or efficacy. However, as resources allow, FDA might review exploratory protocols to consider the relevance of the information being gathered to guide the design of later trials. Sponsors who have questions about adaptive design elements in an early-phase exploratory trial should seek FDA feedback by requesting a meeting (or written responses only) addressing those questions. For example, discussion of the plans for an adaptive trial can be the basis for requesting a Type C meeting. FDA’s ability to address such requests early in development may be limited and will depend on competing workload priorities and on the specifics of the development program.

At later phases of development, FDA will have a more extensive role in evaluating the design and analysis plan to ensure that the trial will provide sufficiently reliable results to inform a regulatory decision. Regulatory mechanisms for obtaining formal, substantive feedback from FDA on later stage clinical trials are well-established and include, for example, EOP2 meetings. Depending on the preexisting knowledge regarding the drug and its intended use, and the nature of the adaptive features, an EOP2 meeting may be the appropriate setting for a sponsor to obtain feedback, or earlier interactions with FDA may be advisable (e.g., at a Type C or EOP2A meeting). Earlier interactions can help allow time for iterative discussions without slowing product development.

FDA’s review of complex adaptive designs often involves challenging evaluations of design operating characteristics, usually requiring extensive computer simulations, as well as increased discussion across disciplines and FDA offices about the evaluations. This may make it difficult for FDA to adequately review such designs under short timelines. Given the timelines (45-day responses) and commitments involved with special protocol assessments (SPAs), we recommend the submission of SPAs for trials with complex adaptive designs only if there has been extensive previous discussion between FDA and the sponsor regarding the proposed trial and design.

FDA’s review of proposed late-phase adaptive clinical trials will include considerations about whether the design and analysis plan satisfy the key principles outlined in this guidance. In particular, the sponsor should prespecify the details of the adaptive design and explain how the chance of erroneous conclusions will be adequately controlled, estimation of treatment effects will be sufficiently reliable, and trial integrity will be appropriately maintained. Furthermore, it is good practice for a sponsor to have explored a variety of adaptive and non-adaptive design options in planning and to discuss its considerations in choosing the proposed adaptive design with the Agency.

Although FDA should be advised during the course of a trial of any proposed unplanned changes to the trial design (usually through protocol amendments), the Agency will generally not be involved in the prospectively planned adaptive decision-making. This is the responsibility of the sponsor, typically through the use of a committee (such as a DMC) designated to implement the adaptive design. Meeting minutes from open sessions of a monitoring committee may be requested by the Agency during an ongoing trial, but meeting minutes of closed sessions or any other communication or information about comparative interim results should be kept confidential until the conclusion of the trial, except in unusual circumstances where patients’ safety is at risk.

B. Documentation Prior to Conducting an Adaptive Trial

To allow for a thorough FDA evaluation, the documented plan for a clinical trial with an adaptive design will necessarily be more complex than for a trial with a non-adaptive design. In addition to the typical components of a non-adaptive clinical trial protocol and statistical analysis plan, such as those discussed in the ICH guidance E9 Statistical Principles for Clinical Trials, documentation submitted to the Agency prior to initiation of an adaptive design trial should include the following:

A rationale for the selected design. As discussed in other sections, it is good practice to evaluate the important operating characteristics of the proposed design as compared to alternative adaptive and non-adaptive designs, and it can be useful to submit such information to FDA. However, the ultimate choice of design is the sponsor’s responsibility.
A detailed description of the adaptation plan, including the anticipated number and timing of interim analyses, the specific aspects of the design that may be modified, and the rule that will be used to make adaptation decisions.
Information on the roles of the bodies responsible for implementing the adaptive design, such as the DMC and/or the dedicated adaptation committee, if applicable.
Prespecification of the statistical methods that will be used to produce interim results, guide adaptation decisions, carry out hypothesis tests, estimate treatment effects, and estimate uncertainty in the treatment effect estimates at the end of the trial. Software to carry out interim and final analyses should be prespecified. If novel or custom software will be used, sufficient information should be submitted to FDA before the trial to ensure there is no ambiguity in the statistical procedures that will be performed. This information might include computer code when applicable.
Evaluation and discussion of the design operating characteristics, which should typically include Type I error probability; power; expected, minimum, and maximum sample size; bias of treatment effect estimates; and coverage of confidence intervals. Such evaluations might be achieved through analytical calculations and/or computer simulations. If operating characteristics are evaluated analytically, appropriate details (e.g., literature references or proofs) for the methodology should be submitted.
In cases where simulations are the primary or sole technique for evaluating trial operating characteristics as defined above, a detailed simulation report should be submitted, including:

An overall description of the trial design.
Example trials, in which a small number of hypothetical trials are described with different conclusions, such as a positive trial with the original sample size, a trial stopped for futility after the first interim look, a positive trial after increasing the sample size, etc.
A description of the set of parameter configurations used for the simulation scenarios, including a justification of the adequacy of the choices.
The number of simulated trials (iterations) evaluated for each scenario and a rationale for the adequacy of this number.
Simulation results detailing the estimated operating characteristics under the various scenarios.
Simulation code. Because FDA reviewers will need to verify simulation studies used to evaluate trial operating characteristics, it is important to document the software package used for simulations and, if custom software was used, to provide the code used for the simulations. When code is provided, it should be readable and adequately commented. The code should include the random seeds used to generate the simulation results. It is also helpful to provide code written in widely-used statistical programming languages. Even in cases where another language has been used to generate simulation results (typically for reasons of computational efficiency), it can be helpful to provide a runnable version of the code in a widely-used statistical programming language to facilitate the simulation review. In some cases, it will be important to include additional detailed information, such as formulas and instructions for use of simulation code.
A summary providing overall conclusions.

A comprehensive written data access plan defining how trial integrity will be maintained in the presence of the planned adaptations. This documentation should include information regarding: (1) the personnel who will perform the interim analyses; (2) the personnel who will have access to interim results; (3) how that access will be controlled; (4) how adaptive decisions will be made; and (5) what type of information will be disseminated following adaptive decisions, and to whom it will be disseminated. The data access plan should describe what information, under what circumstances, is permitted to be passed on to the sponsor or investigators. In addition, it is recommended that sponsors establish procedures to evaluate compliance with the data access plan and to document all interim meetings of the committee tasked with making adaptation decisions (i.e., the DMC or adaptation committee). For example, interim meetings should be documented with written meeting minutes describing what was reviewed, discussed, and decided.

This written documentation could be included in the clinical trial protocol and/or in separate documents such as a statistical analysis plan, a DMC charter, or an adaptation committee charter. Although different types of information might be included in different documents, all important information described above should be submitted to FDA during the design stage so that the review division has sufficient time to provide feedback prior to initiation of the trial.

C. Evaluating and Reporting a Completed Trial

A marketing application to FDA that relies on a trial with an adaptive design should include sufficient information and documentation to allow FDA to thoroughly review the results. In particular, in addition to the typical content of an NDA or a BLA,²⁶ the application should include the following:

26: See, for example, the FDA draft guidance for industry Providing Regulatory Submissions in Electronic Format — Certain Human Pharmaceutical Product Applications and Related Submissions Using the eCTD Specifications (July 2019). When final, this guidance will represent the FDA’s current thinking on this topic.

All prospective plans, any relevant committee charters (e.g., the DMC or adaptation committee charter), and any supporting documentation, as described above (e.g., literature references, programming code, and a simulation report).
Information on compliance with the planned adaptation rule and compliance with the procedures outlined in the data access plan to maintain trial integrity.
Records of deliberations and participants for any interim discussions by any committees involved in the adaptive process (e.g., meeting minutes from closed and open DMC or adaptation committee meetings, meeting minutes from steering or executive committee meetings).
Results of the interim analysis or analyses used for the adaptation decisions.
Appropriate reporting of the adaptive design and trial results in section 14 of the proposed package insert. For example, the trial summary should describe the adaptive design utilized. In addition, treatment effect estimates should adequately take the design into account, or if naive estimates such as unadjusted sample means are used, the extent of bias should be evaluated, and estimates should be presented with appropriate cautions regarding their interpretation.

More limited information (e.g., reports without the database copies and less detailed information on other aspects) may be sufficient for trial summaries provided to FDA during the course of development to support ongoing discussions within an IND.

IX. REFERENCES

Bauer, P and K Kohne, 1994, Evaluation of Experiments with Adaptive Interim Analyses. Biometrics, 50(4):1029–1041.

Bauer, P and M Posch, 2004, Modification of the sample size and the schedule of interim analyses in survival trials based on data inspections, by H. Schäfer and H.-H. Müller. Stat Med, 23(8):1333–1334.

Berger, JO, RL Wolpert, 1988, MJ Bayarri, MH DeGroot, BM Hill, DA Lane, and L LeCam, The likelihood principle, Institute of Mathematical Statistics, Volume 6:iii–v, vii–xii, and 1–199.

Berry, S, BP Carlin, JJ Lee, and P Muller, 2010, Bayesian Adaptive Methods for Clinical Trials, CRC Press.

Bolland, K, MR Sooriyarachchi, and J Whitehead, 1998, Sample Size Review in a Head Injury Trial with Ordered Categorical Responses, Stat Med, 17(24):2835–2847.

Chen, YJ, R Gesser, and A Luxembourg, 2015, A Seamless Phase IIB/III Adaptive Outcome Trial: Design Rationale and Implementation Challenges, Clin Trials, 12(1):84–90.

Chow, SC and M Chang, 2011, Adaptive Design Methods in Clinical Trials, CRC Press.

Cui, L, HM Hung, and SJ Wang, 1999, Modification of Sample Size in Group Sequential Clinical Trials, Biometrics, 55(3):853–857.

PREVAIL II Writing Group; Multi-National PREVAIL II Study Team, Davey Jr, RT, L Dodd, MA Proschan, J Neaton, JN Nordwall, JS Koopmeiners, J Beigel, J Tierney, HC Lane, AS Fauci, MB Massaquoi, F Sahr, and D Malvy, 2016, A Randomized, Controlled Trial of ZMapp for Ebola Virus Infection, N Engl J Med, 375(15):1448–1456.

Denne, JS, 2001, Sample Size Recalculation Using Conditional Power, Stat Med, 20(17‐18):2645–2660.

Dodd, LE, MA Proschan, J Neuhaus, JS Koopmeiners, J Neaton, JD Beigel, K Barrett, HC Lane, and RT Davey, 2016, Design of a Randomized Controlled Trial for Ebola Virus Disease Medical Countermeasures: PREVAIL II, the Ebola MCM Study, J Infect Dis, 213(12):1906–1913.

FDA-NIH Biomarker Working Group, 2016. BEST (Biomarkers, EndpointS, and other Tools) resource.

Fisher, LD, 1998, Self-designing Clinical Trials, Stat Med, 17(14):1551–1562.

Fleming, TR, K Sharples, J McCall, A Moore, A Rodgers, and R Stewart, 2008, Maintaining Confidentiality of Interim Data to Enhance Trial Integrity and Credibility, Clin Trials, 5(2):157–167.

Friede, T, and M Kieser, 2003, Blinded sample size reassessment in non‐inferiority and equivalence trials, Stat Med, 22(6):995-1007.

Glimm, E, W Maurer, and F Bretz, 2010, Hierarchical Testing of Multiple Endpoints in Group‐sequential Trials, Stat Med, 29(2):219–228.

Gould, AL and WJ Shih, 1992, Sample Size Re-estimation Without Unblinding for Normally Distributed Outcomes with Unknown Variance, Communications in Statistics – Theory and Methods, 21(10): 2833–2853.

Hey, SP and J Kimmelman, 2015, Are Outcome-adaptive Allocation Trials Ethical? Clin Trials, 12(2):102-106.

Heyse, JF, BJ Kuter, MJ Dallas, P Heaton, and REST Study Team, 2008, Evaluating the Safety of a Rotavirus Vaccine: The REST of the story, Clin Trials, 5(2):131–139.

Hung, HMJ, S-J Wang, and R O’Neill, 2007, Statistical Considerations for Testing Multiple Endpoints in Group Sequential or Adaptive Clinical Trials, J Biopharm Stat, 17(6):1201–1210.

Irle, S, and H Schäfer, 2012, Interim design modifications in time-to-event studies, Journal of the American Statistical Association, 107(497):341-348.

Jenkins, M, A Stone, and C Jennison, 2011, An adaptive seamless phase II/III design for oncology trials with subpopulation selection using correlated survival endpoints, Pharm stat, 10(4):347-356.

Jennison, C and BW Turnbull, 1999, Group Sequential Methods with Applications to Clinical Trials. CRC Press.

Lan, KG and DL DeMets, 1983, Discrete Sequential Boundaries for Clinical Trials, Biometrika, 70(3):659–663.

Le Tourneau, C, JJ Lee, and LL Siu, 2009, Dose Escalation Methods in Phase I Cancer Clinical Trials, Journal of the National Cancer Institute, 101(10):708–720.

Magirr, D, T Jaki, F Koenig, and M Posch, 2016, Sample size reassessment and hypothesis testing in adaptive survival trials, PloS One, 11(2):e0146465.

McMurray, JJ, M Packer, AS Desai, J Gong, MP Lefkowitz, AR Rizkala, JL Rouleau, VC Shi, SD Solomon, K Swedberg, MR Zile, and PARADIGM-HF Investigators and Committees., 2014, Angiotensin–Neprilysin Inhibition Versus Enalapril in Heart Failure, 2014, N Engl J Med, 371(11):993–1004.

Müller, HH and H Schäfer, 2001, Adaptive Group Sequential Designs for Clinical Trials: Combining the Advantages of Adaptive and of Classical Group Sequential Approaches, Biometrics, 57(3):886–891.

O’Brien, PC and TR Fleming. A Multiple Testing Procedure for Clinical Trials, 1979, Biometrics, 35(3):549–556.

Pocock, SJ, 1977, Group Sequential Methods in the Design and Analysis of Clinical Trials, Biometrika, 64(2):191–199.

Pocock, SJ and R Simon, 1975, Sequential Treatment Assignment with Balancing for Prognostic Factors in the Controlled Clinical Trial, Biometrics, 31(1):103–115.

Proschan, MA and SA Hunsberger, 1995, Designed Extension of Studies based on Conditional Power, Biometrics, 51(4):1315–1324.

Sydes, MR, MK Parmar, MD Mason, NW Clarke, C Amos, J Anderson, J de Bono, DP Dearnaley, J Dwyer, C Green, Jovic, AW Ritchie, JM Russell, K Sanders, G Thalmann, ND James, 2012, Flexible Trial Design in Practice-stopping Arms for Lack-of-benefit and Adding Research Arms Mid-trial in STAMPEDE: A Multi-arm Multi-stage Randomized Controlled Trial, Trials, 13(1):168.

Wassmer, G and W Brannath, 2016, Group Sequential and Confirmatory Adaptive Designs in Clinical Trials, Springer series in pharmaceutical statistics, New York: Springer.

Woodcock, J and LM LaVange, 2017, Master Protocols to Study Multiple Therapies, Multiple Diseases, or Both, N Engl J Med, Jul 6; 377(1):62–70.

EMA

NMPA

药物临床试验的生物统计学指导原则

一、概述

新药经临床前研究后，其有效性和安全性由人体临床试验进行最终验证。临床试验是根据研究目的，通过足够数量的目标受试者（样本）来研究药物对疾病进程、预后以及安全性等方面的影响。

临床试验除了遵循《药物临床试验质量管理规范》（GCP）以外，还必须事先应用统计学原理对试验相关的因素作出合理、有效的安排，最大限度地控制混杂与偏倚，减少试验误差，提高试验质量，并对试验结果进行科学的分析和合理的解释，在保证试验结果科学、可信的同时，尽可能做到高效、快速、经济。因此，统计学是临床试验设计、实施和分析的有力工具，在药物的临床研发过程中发挥不可或缺的重要作用。

本指导原则以临床试验的基本要求和统计学原理为核心，阐述统计学在临床试验中的作用和地位，以及在试验设计阶段、试验实施阶段和结果分析阶段的统计学考虑，旨在为药品注册申请人和临床试验的研究者针对临床研发中如何进行设计、实施、分析和评价提供技术指导，以保证药物临床试验的科学、严谨和规范。

本指导原则适用于以注册为目的的药物（化学药物、生物制品、中药民族药和天然药物）的确证性临床试验，对探索性临床试验以及上市后临床试验也同样具有指导意义。

二、临床试验的总体考虑

（一）临床研发规划

药物临床试验的主要目标是评价和确定受试药物的风险/获益比，同时也要确定可能从该药获益的特定适应症人群及适宜的用法与用量。为此，需要设计一系列的临床试验，而每一个临床试验都有其特定的目的，其设计、执行和拟采用的分析方法等细节均应在试验方案中予以明确。所以每个研究药物都应首先考虑其临床研发的总体规划。

创新药物的临床研发一般由Ⅰ期临床试验开始，进入Ⅱ期概念验证试验（Proof-Of-Concept，POC）和剂量探索（Dose Finding）试验，然后是Ⅲ期确证试验，每期试验由于研究目的的不同，可能包含着多个试验项目。临床研发规划就是这些试验研究的总体规划。

在新药申请时，应当清晰地描述该药临床研发规划的主要内容，以及每个临床试验在其中的地位和作用。在解释和评价受试药物的总体证据时，通常需要把几个试验的数据进行综合分析。因此，同一临床研发规划中，不同临床试验的多个方面应该尽量采用相同的标准，如医学编码词典、主要指标的定义和测量时间点、对于方案违背的处理方式等等。在药物的临床研发规划中应预先阐明是否需要对涉及共同医学问题的多个试验进行荟萃分析（Meta-Analysis），并明确它们的设计共同点及关键统计问题。

（二）探索性试验和确证性试验

临床试验的早期，需要进行一系列的探索性试验，这些试验也应有清晰和明确的目标。探索性试验有时需要更为灵活可变的方法进行设计并对数据进行分析，以便根据逐渐积累的结果对后期的确证性试验设计提供相应的依据。虽然探索性试验对有效性的确证有参考价值，但不能作为证明有效性的关键性证据。临床试验的后期，需要经过确证性试验为评价药物的有效性和安全性提供有力证据。确证性试验是一种事先提出假设并对其进行统计检验的试验，以说明所开发的药物对临床是有益的，一般为随机对照的临床试验。因此，对涉及药物有效性和安全性的每一个关键性的问题都需要通过确证性试验予以充分的回答。

在确证性试验中，最关键的假设应根据试验主要目的产生。主要假设应于试验开始前在试验方案中预先设定并于试验结束后严格按照预先设定的分析计划完成假设检验。除此之外，在试验方案中还应阐明试验设计方法、统计分析方法及相关理由。确证性试验对于试验方案和标准操作程序（SOP）的严格遵从是非常重要的。如果在试验过程中对方案有不可避免的修订，应给予说明并记载。对方案修订可能对结果产生的影响应予以评估。

确证性试验还应对试验药物的疗效进行准确的估计。对于药物疗效的说明除了需要证明关键假设的统计学意义之外，还需要评估试验药物疗效具有临床意义。

（三）观察指标

观察指标是指能反映临床试验中药物有效性和安全性的观察项目。统计学中常将观察指标称为变量。观察指标分为定量指标和定性指标。观察指标必须在研究方案中有明确的定义和可靠的依据，不允许随意修改。

对于观察指标，在研究的设计阶段，首先需要根据研究目的，严格定义与区分主要指标和次要指标，其次是根据主要指标的性质（定量或定性）和特征（一个或多个、单一指标或复合指标、临床获益或替代指标、客观/主观指标或全局评价指标等），调整研究的统计设计策略，以达到研究的预期目的。

1. 主要指标和次要指标

主要指标又称主要终点，是与试验主要研究目的有本质联系的，能确切反映药物有效性或安全性的观察指标。主要指标应根据试验目的选择易于量化、客观性强、重复性高，并在相关研究领域已有公认标准的指标。

一般情况下，主要指标仅为一个，用于评价药物的疗效或安全性。若一个主要指标不足以说明药物效应时，可采用两个或多个主要指标。方案中应详细描述所关注的主要指标的设计参数及其假设、总Ⅰ类错误率和Ⅱ类错误率的控制策略。主要指标将用于临床试验的样本量估计，多个主要指标的情况下，将制定对总Ⅰ类错误概率的控制策略并保证研究有足够的把握度。

主要指标，包括其详细定义、测量方法（若存在多种测量方法时，应该选择临床相关性强、重要性高、客观并切实可行的测量方法）、统计分析模型等，都必须在试验设计阶段充分考虑，并在试验方案中明确规定。方案中主要指标在试验进行过程中不得修改，若须做修改则应在充分论证的基础上谨慎行事，并在揭盲前完成，不允许揭盲后对主要指标进行任何修改。

次要指标是与次要研究目的相关的效应指标，或与试验主要目的相关的支持性指标。在试验方案中，也需明确次要指标的定义，并对这些指标在解释试验结果时的作用以及相对重要性加以说明。一个临床试验，可以设计多个次要指标，但不宜过多，足以达到试验目的即可。

2. 复合指标

当难以确定单一的主要指标时，可按预先确定的计算方法，将多个指标组合构成一个复合指标。临床上采用的量表（如神经、精神类、生活质量量表等）就是一种复合指标。将多个指标组综合成单一复合指标的方法需在试验方案中详细说明。主要指标为复合指标时，可以对复合指标中有临床意义的单个指标进行单独的分析。

当采用量表进行疗效评价（如精神类药物、中药、民族药），应该采用国际或领域内公认的量表。采用国外量表作为主要疗效指标时，由于可能存在语言、文化、生活习俗、宗教信仰等多方面的差异，需提供跨文化调适、翻译对等性的研究结果；采用自制量表时，需提供效度、信度和反应度（对疾病严重程度及其变化的区分程度）的研究结果。没有对效度、信度和反应度进行过研究，或者效度、信度和反应度都很低的量表不建议作为临床试验的主要疗效指标。

3.全局评价指标

全局评价指标是将客观指标和研究者对受试者疗效的总印象有机结合的综合指标，它通常是等级指标，其判断等级的依据和理由应在试验方案中明确。全局评价指标可以评价某个治疗的总体有效性或安全性，带有一定的主观成份，因此，其中的客观指标常被作为重要的指标进行单独分析。

以全局评价指标为主要指标时，应该在方案中考虑：该全局评价指标与主要研究目的临床相关性、信度和效度、等级评价标准和单项缺失时的估计方法。不建议将“综合疗效和安全性”的全局评价指标作为临床试验的主要指标，因为这样会掩盖药物之间在疗效和安全性方面的重要差异，从而导致决策失误。

4. 替代指标

替代指标是指在直接评价临床获益不可行时，用于间接反映临床获益的观察指标。例如降压药物的临床获益，常被认为是降低或延迟“终点事件”（心脑血管事件）的发生，但若要评价“终点事件”发生率，需要长时间的观察。在实际中，降压药的临床试验，采用替代指标“血压降低值/血压达标”来评价药物的疗效，因为临床研究和流行病学业已证实：将“血压”控制在正常范围内，可以降低“终点事件”的发生。

一个指标能否成为临床获益的替代指标，需要考察：1）指标与临床获益的关联性和生物学合理性；2）在流行病学研究中该指标对临床结局的预测价值；3）临床试验的证据显示药物对该指标的影响程度与药物对临床结局的影响程度一致。

选择替代指标为主要指标，可以缩短临床试验期限，但也存在一定的风险，尤其是“新”替代指标。药物在替代指标上的优良表现并不一定代表药物对受试者具有长期的临床获益，药物在替代指标上的不良表现也不一定表示没有临床获益。例如，在抗肿瘤药物早期临床试验中，“无进展生存时间”等指标被作为“总生存时间”的替代指标被广泛使用，但其与总生存时间的关联性在不同的肿瘤临床试验中程度不一，因此仍需强调Ⅲ期临床研究中，采用临床终点的重要性。

5. 定性指标

在某些临床试验中，有时需要将定量指标根据一定的标准转换为等级指标、或将等级指标转化为定性指标，如：用药后血压降低到“140/90mmHg”以下、糖化血红蛋白降低到7.0%以下的受试者比例（达标率）。定量或等级指标转换定性指标的标准，应该具有临床意义、为相关领域公认、并在试验方案中明确规定。由于将定量指标转换为定性指标会损失部分信息导致检验效能的降低，在样本量计算时需加以考虑。如方案定义主要指标为定量指标转化的定性指标时，则研究结论应主要依据该定性指标，而不是其所源于的定量指标。

（四）偏倚的控制

偏倚又称偏性，是临床试验在设计、执行、测量、分析过程中产生的、可干扰疗效和安全性评价的系统误差。在临床试验中，偏倚包括各种类型的对研究方案的违背与偏离。由于偏倚会影响疗效、安全性评价结果，甚至影响临床试验结论的正确性，因此在临床试验的全过程中均须控制偏倚的发生。随机化和盲法是控制偏倚的重要措施。

1. 随机化

随机化是临床试验的基本原则，也是疗效和安全性评价的统计学方法的基础。

临床试验中随机化原则是指临床试验中每位受试者均有同等的机会被分配到试验组或对照组中的实施过程或措施，随机化过程不受研究者和/或受试者主观意愿的影响。随机化的目的是使各种影响因素（包括已知和未知的因素）在处理组间的分布趋于相似。随机化与盲法相结合，可有效避免处理分组的可预测性，控制对受试者分组的选择偏倚。临床试验的随机化的方法，一般采用区组随机化法和/或分层随机化法。

如果受试者的入组时间较长，区组随机化是临床试验所必须的，这样有助于减少季节、疾病流行等客观因素对疗效评价的影响，也可减少因方案修订（如入选标准的修订）所造成的组间受试者的差异。区组的大小要适当，太大易造成组间不均衡，太小则易造成同一区组内受试者分组的可猜测性。研究者及其相关人员，应该对区组长度保持盲态，这在开放的临床试验中尤为重要。也可设定2个或多个区组长度，或采用中央随机化系统以尽可能减少分组的可预测性。

如果药物的效应会受到一些预后因素（如受试者的病理诊断、年龄、性别、疾病的严重程度、生物标记物等）的影响时，可采用分层随机化，以保持层内的组间均衡性。

当需要考虑多个分层因素，如肿瘤类临床试验，需考虑年龄、病理类型、基线水平等因素，采用分层随机化，可能导致试验无法进行，此时可采用“动态随机”使被控制的预后因素组间有良好的均衡性。在动态随机化中，已入组的受试者特征将影响下一个受试者的分组，系统将根据各层面上的组间均衡性决定受试者的随机化组别。

尽管“动态随机”可以实现多分层因素下的随机化，但不建议设计过多的分层因素，因为过多的分层因素可能造成其他因素在处理组间的不均衡，建议分层因素一般不宜超过3个。临床试验中通常采用区组随机化的方法，如采用动态随机化，被控制的因素应包括在主要指标分析模型中，用以控制混杂因素对主要指标评价的影响。特别指出的是在Ⅲ期临床试验中，应避免使用基于主要指标观察结果的动态随机化。

随机化的方法和过程包括随机分配表的产生方法、随机分配遮蔽的措施、随机分配执行的人员分工等，应在试验方案中阐明，但使人容易猜测分组的随机化的细节（如区组长度等）不应包含在试验方案中。在临床试验中，随机分配表应该是一份独立的文件，以记录受试者的处理（或处理顺序）安排。随机分配表应具有重现性，即可以根据种子数、分层因素、区组长度重新产生相同的随机分配表。试验用药物将根据随机分配表进行编码，在临床操作中，要求研究者严格按照入组受试者的随机分配结果及药物编码分配药物，任何偏离，都应该如实记录，以待数据分析前进行评估。值得注意的是动态随机化中的随机表仅仅起到遮蔽作用，真正的随机分配表是由动态随机化系统根据已入组的受试者信息采用最小随机化原理产生的，因此随机化系统中的随机分配表应作为独立文件在申报资料中提交。

2. 盲法

临床试验的偏倚可能来自于临床试验的各个阶段、各方面人员。由于对随机化分组信息的知晓，研究者可能选择性入组受试者，受试者可能受到主观因素的影响，可能产生疗效与安全性的评价偏倚或选择性确定分析人群等。盲法是控制临床试验中因“知晓随机化分组信息”而产生的偏倚的重要措施之一，目的是达到临床试验中的各方人员对随机化处理分组的不可预测性。

根据设盲程度的不同，盲法分为双盲、单盲和非盲（开放）。在双盲临床试验中，受试者、研究者（对受试者进行筛选的人员、终点评价人员以及对方案依从性评价人员）、与临床有关的申办方人员对处理分组均应处于盲态；单盲临床试验中，仅受试者或研究者一方对处理分组处于盲态；开放性临床试验中，所有人员都可能知道处理分组信息。临床试验的设盲程度，应综合考虑药物的应用领域、评价指标和可行性，应尽可能采用双盲试验。当双盲难度大、可行性较差，可考虑单盲临床试验，甚至开放性研究。一般情况下，神经、精神类药物的临床试验采用量表评价效应、用于缓解症状（过敏性鼻炎、疼痛等）的药物或以“受试者自我评价”等主观指标为主要指标的临床试验、以安慰剂为对照的临床试验，均应采用“双盲”；在一些以临床终点（如死亡）为主要评价指标的临床试验中（抗肿瘤药物），也可以接受开放性研究。

双盲的临床试验，要求试验药和对照药（包括安慰剂）在外观（剂型、形状、颜色、气味）上的一致性；如果试验药与对照药在用药方式有差异，还需要做到试验组与对照组在药物使用上的一致性。若要达到双盲的目的，可采用双模拟技术。在使用双模拟技术的临床试验中，受试者的用药次数与用药量将会增加，可能导致用药依从性的降低。

若双盲实施起来有相当的困难或根本不可行时（例如，手术治疗与药物治疗的对比研究；不同药物在剂型、外观或用法上存在很大的差异；因中药组方不同导致气味上的差异等），可以采用单盲或开放性临床试验，其理由必须在方案中详细说明，而且尤为重要的是这种信息的知晓不得影响受试者分配入组的随机性，方案中还须有控制偏倚的具体措施，例如采用客观的主要指标，或采用中央随机化系统管理受试者的入组，或参与疗效与安全性评价的研究者在试验过程中尽量处于盲态等。

无论是双盲、单盲临床试验，盲态的执行（随机化分配表的产生、保存以及释放）应该有标准操作程序进行规范，且在方案中明确规定破盲人员的范围。即使是开放性临床试验，研究相关人员也应尽可能保持盲态。方案中应该规定随机分配表的释放条件与流程。随机分配表释放的基本条件为：已完成数据库的锁定和分析人群及统计分析计划的确定工作。

三、试验设计的基本考虑

（一）试验设计的基本类型

1. 平行组设计

平行组设计是最常用的临床试验设计类型，可为试验药设置一个或多个对照组，试验药也可设多个剂量组。对照组可分为阳性或阴性对照。阳性对照一般采用按所选适应症的当前公认的有效药物，阴性对照一般采用安慰剂，但必须符合伦理学要求。试验药设一个或多个剂量组完全取决于试验的目的。

2. 交叉设计

交叉设计是按事先设计好的试验次序，在各个时期对受试者逐一实施各种处理，以比较各处理间的差异。交叉设计是将自身比较和组间比较设计思路综合应用的一种设计方法，它可以较好地控制个体间的差异，以减少受试者人数。

最简单的交叉设计是2种药物2个阶段的形式，又称2×2交叉设计，对每个受试者安排两个试验阶段，分别接受A、B两种试验用药物，而第一阶段接受何种试验用药物是随机确定的，第二阶段必须接受与第一阶段不同的另一种试验用药物。因此，每个受试者接受的药物可能是先A后B（AB顺序），也可能是先B后A（BA顺序），故这种试验又简记为AB/BA交叉试验。两阶段交叉试验中，每个受试者需经历如下几个试验过程，即准备阶段、第一试验阶段、洗脱期和第二试验阶段。

每个试验阶段的用药对后一阶段的延滞作用称为延滞效应。前个试验阶段后需安排足够长的洗脱期或有效的洗脱手段，以消除其延滞效应。采用交叉设计时应考虑延滞效应对试验数据分析评价的影响。

2×2交叉设计难以区分延滞效应与时期-药物的交互作用。如需进一步分析和评价延滞效应，则可考虑采用2个处理多个阶段的交叉设计（例如：2×4的ABBA/BAAB交叉设计）。

多种药物多个阶段的交叉设计也是经常用到的，例如：3×3交叉设计，即3种处理（A、B、C）、3个阶段、6种顺序（ABC/BCA/CAB/ACB/CBA/BAC）的交叉设计。

由于每个受试者接受了所有处理组的治疗，提供了多个处理的效应，因此交叉试验中应尽量避免受试者的失访。

3. 析因设计

析因设计是通过试验用药物剂量的不同组合，对两个或多个试验用药物同时进行评价，不仅可检验每个试验用药物各剂量间的差异，而且可以检验各试验用药物间是否存在交互作用，或探索两种药物不同剂量的适当组合，常用于复方研究。析因设计时需考虑两种药物高剂量组合可能带来的毒副反应。

如果试验的样本量是基于检验主效应的目的而计算的，关于交互作用的假设检验，其检验效能往往是不足的。

（二）多中心试验

多中心试验系指由一个单位的主要研究者总负责，多个单位的研究者参与，按同一个试验方案同时进行的临床试验。多中心试验可以在较短的时间内入选所需的病例数，且入选的病例范围广，临床试验的结果更具代表性。但影响因素亦随之更趋复杂。

多中心试验必须遵循同一个试验方案在统一的组织领导下完成整个试验。各中心试验组和对照组病例数的比例应与总样本的比例大致相同。多中心试验要求试验前对人员统一培训，试验过程要有良好的质控措施。当主要指标易受主观影响时，需进行统一培训并进行一致性评估。当主要指标在各中心的实验室的检验结果有较大差异或参考值范围不同时，应采取相应的措施进行校正或标化以保证其可比性，如采用中心实验室检验等。如预期多中心间检验结果有较大差异，应在临床试验方案中预先规定可能采用的差异性的检验及校正方法。

在多中心临床试验中，可按中心分层随机；当中心数较多且每个中心的病例数较少时，可不按中心分层。

国际多中心试验可视为一种特殊形式的多中心试验，在不同国家或地区所观察的试验结果可能作为相应国家或地区药品注册申请的重要依据。在这种特殊的需求下，国家或地区间的临床实践差异有可能对临床结果的解读产生较大的影响。在临床试验设计时应提前对这种差异进行预估，并在临床试验方案中对将采用的分析不同国家地区结果差异性/一致性的统计方法做预先规定。常用的一致性的评价方法有（但不限于）以国家或地区为预设亚组的亚组分析，或采用适当的统计分析模型等。当单独以某特定国家或地区试验数据作为主要注册申请依据时，应说明样本量能够合理的支持相对应的安全性及有效性的评价。

（三）比较的类型

临床试验中比较的类型，按统计学中的假设检验可分为优效性检验、等效性检验和非劣效性检验。在临床试验方案中，需要明确试验的目的和比较的类型。

优效性检验的目的是显示试验药的治疗效果优于对照药，包括：试验药是否优于安慰剂；试验药是否优于阳性对照药；或剂量间效应的比较。等效性检验的目的是确证两种或多种治疗的效果差别大小在临床上并无重要意义，即试验药与阳性对照药在疗效上相当。而非劣效性检验目的是确证试验药的疗效如果在临床上低于阳性对照药，其差异也是在临床可接受范围内。

在显示后两种目的试验设计中，阳性对照药的选择要慎重。所选阳性对照药需是已广泛应用的、对相应适应症的疗效和用量已被证实，使用它可以有把握地期望在目前试验中表现出相似的效果；阳性对照药原有的用法与用量不得任意改动。阳性药物选择时应考虑以下两个方面：

1. 阳性对照有效性的既有证据

阳性对照效应来源于文献报道的有良好试验设计的试验结果，这些历史试验已明确显示本次非劣效试验中采用的阳性对照或与其类似的药物优于安慰剂，且随时间迁移，阳性对照的疗效基本维持稳定。根据这些试验结果可以可靠地估计出阳性对照的效应大小。阳性对照的效应量是非劣效试验的关键设计参数（用以确定非劣效界值），既不能用历史研究中最好的疗效作为其效应量的估计，也不能仅用荟萃分析的点估计作为效应量的估计，效应量估计时要充分考虑历史研究间的变异。

2. 阳性对照药物效应的稳定性

阳性对照效应的估计来源于历史研究，虽然考虑了历史研究间的变异，但仍有历史局限性，受到很多因素诸如当时的受试人群、合并用药、疗效指标的定义与判定、阳性对照的剂量、耐药性以及统计分析方法等的影响。因此，采用非劣效试验设计时要尽可能地确保本次临床试验在以上提及的诸多因素方面与历史研究一致。另外非劣效/等效性设计，良好的偏倚控制和质量控制是此类设计的关键。因此，在试验设计和实施阶段都应该提高试验质量要求，只有高质量的临床试验才能保证非劣效/等效临床试验的检定灵敏度。

进行等效性检验或非劣效性检验时，需预先确定一个等效界值（上限和下限）或非劣效界值（上限或下限），这个界值应不超过临床上能接受的最大差别范围，并且应当小于阳性对照药与安慰剂的优效性试验所观察到的差异。非劣效界值确定一般采用两步法，M1是阳性对照扣去了安慰剂效应的绝对疗效的保守估计，一般借助荟萃分析法并考虑历史试验间的变异后确定；M2是非劣效界值，其确定要结合临床具体情况，在考虑保留阳性对照疗效的适当比例f后，由统计专家和临床医学专家共同确定。在等效界值的确定中，可以用类似的方法确定下限和上限。从技术层面讲，等效性检验双侧置信区间等同于两个同时进行的单侧假设检验，而非劣效检验是单侧检验。非劣效/等效检验统计推断一般采用置信区间法。值得注意的是两组之间差别无统计学意义并不能得出两组等效或非劣的结论。

（四）样本量

临床试验中所需的样本量应具有足够大的统计学检验把握度，以确保对所提出的问题给予一个可靠的回答，同时也应综合考虑监管部门对样本量的最低要求。样本的大小通常以试验的主要疗效指标来确定，如果需要同时考虑主要疗效指标外的其他指标时（如安全性指标或重要的次要指标），应明确说明其合理性。一般来说，在样本量的确定中应该说明以下相关因素，包括设计的类型、主要疗效指标的明确定义（如在降压药的临床试验中应明确说明主要指标是从基线到终点的血压改变值，或试验终点的血压达标率）、临床上认为有意义的差值、检验统计量、检验假设中的原假设和备择假设、Ⅰ类和Ⅱ类错误率以及处理脱落和方案违背的比例等。在以事件发生时间为主要疗效指标的生存分析中，可以根据统计学检验把握度直接得到试验所需事件数。在此情况下需要根据事件发生率，入组速度以及随访时间推算试验所需样本量。

样本量的具体计算方法以及计算过程中所需用到的主要指标的统计参数（如均值、方差、事件发生率、疗效差值等）的估计值应在临床试验方案中列出，同时需要明确这些估计值的来源依据。在确证性临床试验中，一般只有一个主要疗效指标，参数的确定主要依据已发表的资料或探索性试验的结果来估算，其中所预期疗效差值还应大于或等于在医学实践中被认为是具有临床意义的差异。需要强调的是，计划中的试验应与前期试验或文献中的试验具有一致的试验设计和目标人群。如果不完全一致，需对相应统计量的估值进行调整。Ⅰ类错误概率一般设定为双侧 0.05。在非劣效检验等单侧检验中，I类错误概率一般设定为0.025。此外，如果试验设计中存在多重性的问题时，应考虑对I类错误概率进行必要的控制，以保证试验的总体I类错误概率不超过预设值。Ⅱ类错误概率一般情况下设定为不大于0.2，在探索性试验中可适当放宽。

通过估计得到的试验所需样本量一般仅针对试验中指定的主要指标的主要分析（相对其他分析如敏感性分析或亚组分析而言）。在一个以“全分析集（Full Analysis Set，简称FAS）”为主要分析的试验中，应考虑统计参数估计值所依据的前期试验或资料是否使用了相同的分析集或者具有相似的脱落率及方案违背率。考虑到脱落患者或违背方案者对疗效的稀释效应，全分析集的疗效往往小于符合方案集。此外，在全分析集中也常会观测到比符合方案集更大的变异。

另外，等效或非劣效试验中通常事先假设试验组与对照组疗效相同而进行样本量估算，当试验组的真实疗效差于阳性对照组时则试验的检验把握度将低于设定目标。

（五）适应性设计

适应性设计（Adaptive Design）是指事先在方案中计划的在临床试验进行过程中利用累积到的数据，在不影响试验的完整性和合理性的前提下，对试验的一个或多个方面进行修改的一种设计。

好的适应性设计可以加快药物研发的速度，或更有效地利用研发资源。但适应性设计要特别考虑：（1）试验的修改是否会引起Ⅰ类错误增大；（2）试验的修改是否导致试验结果难于解释。因此，无论对试验进行何种修改, 其修改计划和分析策略必须在试验数据揭盲之前在试验方案中进行明确严谨的表述。在适应性设计计划的期中分析中，保持申办者和研究者的盲态非常重要，通常需要一个独立的数据监查委员会（Independent Data Monitoring Committee，IDMC）来通知申办者是否按照事先拟定的方案修改进一步进行试验。

适应性设计有多种可能，包括：（1）试验组和对照组入组分配方式的改变，如由固定区组分配变更为动态随机入组分配；（2）入组人数的改变，如样本量的重新计算；（3）试验终止条件的改变，如根据期中分析结果提示有效或无效性而提前终止试验；（4）或其他设计方法（如临床终点，统计方法）的改变。目前应用的适应性设计中，成组序贯试验和盲态下样本量的重新计算被认为是在理论和实践中比较广泛被接受的。而其他的诸多设计对于深入认识试验结果的影响因素或提高研究效率（如富集设计）是有帮助的，但对于非盲态下改变临床终点或受试人群等适应性设计，由于可能引入偏倚而影响对结论的判断，故不宜应用于确证性试验中，可在早期探索性试验中使用。

1. 成组序贯设计

成组序贯设计常用于有期中分析的临床试验中。适用于下列三种情况：（1）怀疑试验药物有较高的不良反应发生率，采用成组序贯设计可以较早终止试验；（2）试验药疗效较差，采用成组序贯设计可以因无效较早终止试验；（3）试验药与对照药的疗效相差较大，但病例稀少，或临床观察时间过长。可见，成组序贯设计一般用于创新药物的临床试验，而不用于仿制药的临床试验。

成组序贯设计是把整个试验分成若干个连贯的分析段，每个分析段病例数可以相等也可以不等，但试验组与对照组的病例数比例与总样本中的比例相同。每完成一个分析段，即对主要指标（包括有效性和/或安全性）进行分析，一旦可以做出结论即停止试验，否则继续进行。如果到最后一个分析段仍不拒绝无效假设，则作为差异无统计学意义而结束试验。

成组序贯设计的优点是当试验药与对照药间确实存在差异时，或试验药与对照药不可能达到统计学意义时，可较早地得到结论，从而缩短试验周期。

成组序贯设计的盲底要求一次产生，分批揭盲。由于多次重复进行假设检验会使I类错误增加，故需对每次检验的名义水准进行调整，以控制总的I类错误率不超过预先设定的水准（比如α=0.05）。试验设计中需明确α消耗函数的方法。

用成组序贯设计，由于需要进行多次期中分析，需特别注意盲态的保持，以免引入新的偏倚。同时，在试验开始前应预先明确统计分析方法，规定提前终止试验的标准。期中分析的数据需由独立的第三方进行统计分析，并由审核，以便做出是否继续下一阶段临床试验的决策建议。

2. 盲态下的样本量的重新计算

当原设计中样本量是在不确切信息的假设条件下估计的，对时间比较长的临床试验，可以在试验进行中对这些假设进行验证，以便对样本量进行重新估计。为了避免揭盲对试验的Ⅰ类错误及试验的科学完整性的影响，这种估计应该是在不揭盲的状态下进行的，主要是对连续变量的变异度或事件发生率进行估计。此估计可用于计算新的样本量，新的样本量若和原样本量相似或比原样本量小，应保持试验样本量不变。若新的样本量比原样本量大并且是切实可行，应通过修订方案写明新的样本量。此类样本量的调整也可由IDMC来完成，并事先应在试验方案中对样本量的重新估计进行计划，样本量再估计应不超过两次。

3. 富集设计

适应性的富集设计是指当期中分析提示某一亚组人群的疗效优于另一亚组人群的疗效时而调整入组标准，对尚未入组的病例规定只入组疗效好的某一亚组人群的设计。富集设计能够减少研究人群的异质性，从而提高研究的效率。该设计通常根据研究对象与疾病或者预后相关的某些特征把目标人群分为亚组，例如，研究心血管疾病时，可以考虑按目标人群病人是否有糖尿病、高血压等分为高危人群和非高危人群；在肿瘤领域中，通常具有某些生物标记的人群对治疗的反应比没有生物标记的人群要好，这时可以考虑把目标人群分为生物标记阳性和阴性两个亚组。最常用的病人分组因素包括（但不限于）人口学、病理生理学、组织学、遗传学的等等特征；研究方案中一般必须预先明确指出期中分析是根据病人的哪些特征做的亚组分析。根据病人特征进行分组的方法必须经过验证。

期中分析时根据研究方案中预设的病人特征，估计疗效并决定是否需要调整入组标准。由于期中对方案的调整对后续试验在随机、双盲等方面都有一定的影响，方案中必须明确规定避免引入偏倚和调整I类错误概率的方法。最后的结果分析是根据期中分析（方案调整）之前搜集的所有研究对象的数据和之后某一亚组人群的数据加权，而不仅仅是感兴趣的亚组人群的数据；而分析结果的解释也必须明确地说明各亚组人群的构成。值得指出的是，由于富集设计的复杂性，可能对试验的基本原则（如，随机化、双盲、I类错误概率等）有严重影响，在没有充分可靠方法处理和避免这些影响时，和在病人特征对疗效的影响预先不明确的情况下，须慎用富集设计。

四、试验进行中的基本考虑

（一）试验数据和受试者入组的监查

临床试验过程中，研究者应严格按照试验方案认真进行临床试验，其研究过程的质量对研究数据及结果的可靠性有着重要的影响，因此，认真进行试验过程的数据监查能及早地发现问题，并使问题的发生和再现达到最小。

按照GCP要求，临床试验的申办者应在临床试验过程中委派监查员，对整个临床试验的质量进行监查。为监控试验的质量，对试验管理的监查应包括研究是否按计划进行，是否遵从方案，收集的数据质量如何，是否达到了预期收集的样本数量目标，设计的假设是否合适，以及病人在试验中的安全等权益是否有保障等。

在病人入组时间较长的试验中，必须对病人入组的积累情况进行监查。如入组率远低于试验方案中预定的水平，则需查明原因，并采取相应措施缓解入组选择和质量的其他方面问题，确保试验的把握度。在多中心试验中，这些考虑适用于每一个中心。

这类监查既不需要比较处理效应的信息，也不要对试验分组揭盲，所以对Ⅰ类错误没有影响，是试验申办者应尽的职责，它可由试验申办者或由试验申办者委托的合同研究组织（CRO）来完成。这种监查一般从研究地点的选定开始，到完成最后一位病人数据的收集和清理而结束。

（二）试验方案的修改

确定的试验方案经伦理委员会批准后，在试验进行过程中一般不得更改。对试验方案的任何修改都应在修订方案中写明，且修订方案一般需重新得到伦理委员会的批准。

在试验进行过程中，如发现按原入选/排除标准难以选到合格的病例时，需分析原因并采取相应措施，如监查中发现常有违反标准入选病例现象或入选病例的限制过度情况，则在不破盲的条件下可以考虑修改原入选/排除标准，但需注意入选/排除标准的修改可能导致目标受试人群的改变。修改后需调整相应的统计分析计划，如对方案修改前后进行分层分析及其结果一致性的考虑等应进行详细表述。

（三）期中分析

期中分析是指正式完成临床试验前，按事先制订的分析计划，比较处理组间的有效性和/或安全性所作的分析。其分析目的是为后续试验是否能继续执行提供决策依据。基于期中分析结果中止试验无外乎两种情况，其一是可以预见即使试验继续执行至试验结束也不可能得出试验药物有效的结论，或者是发现试验药物的安全性存在隐患；另一种是得出试验药物有效的结论。如果根据期中分析得出试验药物有效而提前中止试验，需要保证有足够的药物暴露时间和安全性数据，一般应继续随访以收集更多的安全性数据，以避免安全性评价不充分。

期中分析的时点（包括日历时点或信息时点）、具体实施方式和所采用的α消耗函数等应当事先制订计划并在试验方案中阐明。期中分析的结果可能会对后续试验产生影响，因此，一个临床试验的期中分析次数应严格控制。如果一个期中分析是为了决定是否终止试验而设计的，则常采用成组序贯设计。

期中分析包含了已揭盲的数据及结果，因此进行期中分析的人员应该是不直接参加临床试验的人员，比如可由IDMC执行，即使是开放的试验也应如此。期中分析结果对试验相关人员是保密的，试验相关人员仅仅会被告知是否继续试验或需要对试验方案进行修改。

对于确证性临床试验，原则上不得进行计划外期中分析。因为设计不良或计划外的期中分析可能引入偏倚，所得结论缺乏可靠性。如由于特别情况进行了计划外的期中分析，则在研究报告中应解释其必要性、以及破盲的程度和必要性，并提供可能导致偏倚的严重程度以及对结果解释的影响。

（四）独立数据监查委员会

独立数据监查委员会（IDMC），有时也称为数据和安全监查委员会（Data And Safety Monitoring Board，简称DSMB），或数据监查委员会（Data Monitoring Committee，简称DMC），是由具备相关专业知识和经验的一组专业人员组成的独立委员会，通过定期评估一项或多项正在进行的临床试验的累积数据，评价试验药物的安全性和有效性。保证受试者安全和权益并确保试验的完整可靠性是IDMC的基本职责。

IDMC通常用于以延长生命或减少重大健康结局风险为目的的大规模多中心临床试验，而大多数临床试验不要求或无需使用IDMC。可以考虑聘用IDMC的情况包括（但不局限于）下列一种或多种：（1）对安全性或有效性的累积数据进行期中分析，以决定是否提前终止试验；（2）存在特殊安全问题的试验，如治疗方式有明显侵害性；（3）试验药物可能存在严重毒性；（4）纳入潜在的弱势人群进行研究，如儿童、孕妇、高龄者或其他特殊人群（疾病终末期病人或智障的病人）；（5）受试者有死亡风险或其他严重结局风险的研究；（6）大规模、长期、多中心临床研究。

IDMC具有以下三个特点：（1）多学科性：IDMC成员应该包括有相应临床知识及掌握期中分析原则的临床专家、统计学家或医学伦理学家等；（2）独立性：IDMC的成员需没有任何利益冲突；其独立性可以防止试验的组织者、申办者的既得利益可能对数据评估带来的影响；（3）保密性：由于期中分析数据是非盲态的，因此需要由与试验无利益冲突的人员来担任统计分析的工作，并且注意保密性。一般需要选定独立统计师负责期中数据分析并完成期中报告。期中数据和报告在传递和提交过程中应采取一定的保密措施并妥善保存，避免被申办者或其他人员不慎或不当接触，直到试验结束申办者和研究者才能接触到期中报告。

IDMC的组织和实施过程需要在试验设计阶段或IDMC启动会之前制定详细的IDMC工作章程和程序，并经IDMC成员审阅、签字、存档，在整个IDMC运行过程中作为工作指南严格遵守。所有IDMC的讨论需有会议纪要，以便在试验结束后有案可查。同时，在确保保密性的基础上，IDMC成员、IDMC支持小组和申办者之间应进行及时有效地沟通和交流。

五、试验的数据管理

数据管理的目的是确保数据的可靠、完整和准确。临床试验中的数据管理相关方包括申办者、研究者、监查员、数据管理员和CRO等，各相关方应各司其职、各尽其责。数据管理全过程的实施，从数据采集到数据库的最终建立，都必须符合我国GCP的规定和监管部门的相应技术规范要求。

临床试验方案确定后，应根据病例报告表和统计分析计划书的要求制订数据管理计划，内容涵盖数据管理各过程，包括数据接收、录入、清理、编码、一致性核查、数据锁定和转换。数据的收集和传送，从研究者到申办者可通过多种媒体，包括纸质的病例报告表、电子数据采集系统以及用于临床试验数据管理的计算机系统等。无论采用何种方式收集数据，资料的形式和内容必须与研究方案完全一致,且在临床试验前确定，包括确定对计划的依从性或确认违背试验方案的前后关系的信息（如有关服药的时间，缺失值需与“0 值”和空缺相区别）。数据管理各过程的执行中均应遵守全面和有效的标准操作程序。

无论是采用纸质化或电子化的数据管理，其各阶段均应在一个完整、可靠的临床试验数据质量管理体系（QMS）下运行，对可能影响数据质量结果的各种因素和环节进行全面控制和管理，使临床研究数据始终保持在可控和可靠的水平。临床试验的数据管理系统（CDMS）必须满足三个基本要求：经过基于风险考虑的系统验证，具备可靠性；具备数据可溯源性的性能；具备完善的权限管理功能。另外，在数据管理运行过程中应该建立和实施质量保证、质量控制和质量评估等措施。临床试验中用于数据管理和统计分析的计算机及其软件系统均应经过验证且有验证记录可查。

为达到试验数据共享和信息互通目的，临床试验过程中数据的采集、分析、交换、提交等环节，可考虑采用统一的标准化格式，如CDISC临床数据交换标准体系（Clinical Data Interchange Standards Consortium）。

临床试验完成后，应对试验的数据管理工作和过程进行总结并形成数据管理总结报告。数据管理计划和总结报告应作为药物注册上市的申请材料之一提交给监管部门。

六、统计分析和报告

（一）统计分析计划

统计分析计划（Statistical Analysis Plan，简称SAP）是比试验方案中描述的分析要点更加技术性和有更多实际操作细节的一份独立文件，包括对主要和次要评价指标及其他数据进行统计分析的详细过程。统计分析计划的内容包括设计的类型、比较的类型、随机化与盲法、主要指标和次要指标的定义与测量、检验假设、数据集的定义、疗效及安全性统计分析的详细细节。确证性试验要求提供详细分析原则及预期分析方法。探索性试验通常描述概括性的分析原则和方法。

统计分析计划由试验统计学专业人员起草，并与主要研究者商定，旨在全面而详细地陈述临床试验数据的分析方法和表达方式，以及预期的统计分析结果的解释。

统计分析计划初稿应形成于试验方案和病例报告表确定之后，在临床试验进行过程中以及数据盲态审核时，可以进行修改、补充和完善，不同时点的统计分析计划应标注版本及日期，正式文件在数据锁定和揭盲之前完成并予以签署。如果试验过程中试验方案有修订，则统计分析计划也应作相应的调整。如果涉及期中分析，则相应的统计分析计划应在期中分析前确定。

（二）统计分析集

用于统计分析的数据集事先需要明确定义，并在盲态审核时确认每位受试者所属的分析集。一般情况下，临床试验的分析数据集包括全分析集（FAS）、符合方案集（Per Protocol Set，简称PPS）和安全集（Safety Set，简称SS）。根据不同的研究目的，需要在统计分析计划中明确描述这三个数据集的定义，同时明确对违背方案、脱落/缺失数据的处理方法。在定义分析数据集时，需遵循以下两个原则：（1）使偏倚减到最小；（2）控制I类错误率的增加。

意向性治疗的原则（Intention To Treat Principle，简称ITT），是指主要分析应包括所有随机化的受试者，这种保持初始的随机化的做法对于防止偏倚是有益的，并且为统计学检验提供了可靠的基础，这一基于所有随机化受试者的分析集通常被称为ITT分析集。

理论上遵循ITT原则需要对所有随机化受试者的研究结局进行完整的随访，但实际中这种理想很难实现，因而也常采用全分析集（FAS）来描述尽可能的完整且尽可能的接近于包括所有随机化的受试者的分析集。

只有非常有限的情况才可以剔除已经随机化的受试者，通常包括：违反重要入组标准；受试者未接受试验用药物的治疗；随机化后无任何观测数据。值得注意的是，这种剔除需要对其合理性进行充分的论证和说明。

符合方案集（PPS），亦称为“可评价病例”样本。它是全分析集的一个子集，这些受试者对方案更具依从性。纳入符合方案集的受试者一般具有以下特征：（1）完成事先设定的试验药物的最小暴露量：方案中应规定受试者服用药物的依从性达到多少为治疗的最小量；（2）试验中主要指标的数据均可以获得；（3）未对试验方案有重大的违背。

受试者的排除标准需要在方案中明确，对于每一位从全分析集或符合方案集中排除的受试者，都应该在盲态审核时阐明理由，并在揭盲之前以文件形式写明。

安全集（SS），应在方案中对其明确定义，通常应包括所有随机化后至少接受一次治疗且有安全性评价的受试者。

对于确证性试验，宜同时采用全分析集和符合方案集进行统计分析。当两种数据集的分析结论一致时，可以增强试验结果的可信性。当不一致时，应对其差异进行讨论和解释。如果符合方案集被排除的受试者比例太大，则将影响整个试验的有效性。

ITT/全分析集和符合方案集在优效性试验和等效性或非劣效性试验中所起的作用不同。一般来说，在优效性试验中，应采用ITT/全分析集作为主要分析集，因为它包含了依从性差的受试者而可能低估了疗效，基于ITT/全分析集的分析结果是保守的。符合方案集显示试验药物按规定方案使用的效果，但与上市后的疗效比较，可能高估疗效。在等效性或非劣效性试验中，用ITT/全分析集所分析的结果并不一定保守，在统计分析时，可以用符合方案集和ITT/全分析集作为分析人群，两个分析集所得出的结论通常应一致，否则应分析并合理解释导致不一致的原因。

（三）缺失值及离群值

缺失值是临床试验中的一个潜在的偏倚来源，因此，病例报告表中原则上不应有缺失值，尤其是重要指标（如主要的疗效和安全性指标）必须填写清楚。对病例报告表中的基本数据，如性别、出生日期、入组日期和各种观察日期等不得缺失。试验中观察的阴性结果、测得的结果为零和未能测出者，均应有相应的符号表示，不能空缺，以便与缺失值相区分。

在临床试验中，数据缺失是难以避免的问题。在试验的计划、执行过程中应有必要的措施尽量避免缺失值的发生，在分析和报告中要正确处理缺失数据，否则会造成潜在的偏倚。缺失值的存在有可能导致试验结果无法解释。在分析中直接排除有数据缺失的受试者可能会（1）破坏随机性；（2）破坏研究样本对于目标人群的代表性。除此之外，对缺失值的直接排除还可能降低研究的把握度或减小变量的变异性引起Ⅰ类错误率的膨胀。

如果在一些受试者中发生主要终点的缺失，在试验方案或统计计划书中应预先指定如何处理缺失值。

缺失机制可分为完全随机缺失（Missing Completely At Random，简称MCAR）、随机缺失（Missing At Random，简称MAR）和非随机缺失（Missing Not At Random，简称MNAR）。由于缺失机制无法通过已有数据进行判断，并且不同的处理方法可能会产生截然不同的结果，应当认识到任何缺失数据处理方法本身可能是潜在的偏倚来源。对完全随机缺失、随机缺失数据的处理目前有末次观测值结转（LOCF）、基线观测值结转（BOCF）、均值填补、回归填补、重复测量的混合效应模型（MMRM）、多重填补等多种不同的方法。

对于缺失值的处理方法，特别是主要疗效指标的缺失值，应事先在方案中根据以往的经验或既有相似试验的处理方法进行规定。然而如上所述，任何缺失数据处理方法本身都可能带来潜在的偏倚。所以缺失数据的处理方法应遵循保守的原则。即使同一种方法在不同情况下既有可能对试验药保守也有可能对试验药有利。然而，有时在对主要疗效指标的缺失值的处理方法进行预设时（如在盲态下）无法完全确定所用方法的保守性。必要时，也可以采用不同的处理缺失值的方法进行敏感性分析。

离群值问题的处理，应当从医学和统计学专业两方面去判断，尤其应当从医学专业知识判断。离群值的处理应在盲态检查时进行，如果试验方案未预先指定处理方法，则应在实际资料分析时，进行包括和不包括离群值的两种结果比较，评估其对结果的影响。

（四）数据变换

分析之前对关键变量是否要进行变换，最好根据以前的研究中类似资料的性质，在试验设计时即做出决定。拟采用的变换（如对数、平方根等）及其依据需在试验方案中说明，数据变换是为了确保资料满足统计分析方法所基于的假设，变换方法的选择原则应是公认常用的。一些特定变量的常用变换方法已在某些特定的临床领域得到成功地应用。

（五）统计分析方法

统计分析应建立在真实、可靠、准确、完整的数据基础上，采用的统计方法应根据研究目的、试验方案和观察指标来选择，一般可概括为以下几个方面：

1. 描述性统计分析

一般多用于人口学资料、基线资料和安全性资料，包括对主要指标和次要指标的统计描述。

2. 参数估计、置信区间和假设检验

参数估计、置信区间和假设检验是对主要指标及次要指标进行评价和估计的必不可少的手段。假设检验应说明所采用的是单侧还是双侧检验，如果采用单侧检验，应说明理由。单侧检验的I类错误概率往往选择为双侧检验的一半，以保证单双侧检验的逻辑性。主要指标效应分析要说明采用的是固定效应模型还是随机效应模型。统计分析方法的选择要注意考虑指标的性质及数据分布的特性。无论采用参数方法或非参数方法，处理效应的估计应尽量给出效应大小、置信区间和假设检验结果。除主要指标和次要指标外，其他指标的分析以及安全性数据的分析也应简要说明所采用的方法。在确证性试验中，只有方案或统计分析计划中事先规定的统计分析才可以作为确证性证据的依据，而其他的分析只能视作探索性的。

3. 基线与协变量分析

评价药物有效性的主要指标除受药物作用之外，常常还有其他因素的影响，如受试者的基线情况、不同治疗中心受试者之间差异等因素，这些因素在统计分析中可作为协变量处理。在试验前应认真考虑可能对主要指标有重要影响的协变量以及采用的可以提高估计精度的方法（如采用协方差分析方法），补偿处理组间由于协变量不均衡所产生的影响。对于确证性分析，应事先在方案中规定在统计模型中校正的协变量，以及校正的依据。当采用分层随机时，分层因素应作为协变量进行校正。对于事先没有规定校正的协变量，通常不应进行校正。也可以采用敏感性分析方法，将校正后的结果作为参考，而不应该取代事先规定的分析模型。

4. 中心效应

多中心临床试验中，不同中心在受试者基线特征、临床实践等方面可能存在差异，导致不同中心间的效应不尽相同，这种中心之间的效应差异称为中心效应。常见三种情况：（1）无中心效应，即各中心试验组效应同质，对照组效应亦同质，此时各中心间效应是一致的；（2）有中心效应，但中心与处理组间不存在交互作用，即各中心试验组与对照组效应之差是同质的；（3）有中心效应，且中心与处理组间存在交互作用，此时，各中心试验组与对照组效应之差是异质的。中心与处理组间的交互作用，又分为定量的交互作用（各中心试验组与对照组效应之差方向一致）和定性的交互作用（至少一个中心的处理组与对照组的效应之差与其他中心方向不一致）。

分析主效应时，对于情况（1），模型中应不包括中心效应；对于情况（2），模型中可包括中心项，但不包含中心与处理的交互项效应以提高检验效能；对于情况（3），若存在定量交互作用，则需要采用合适的统计学方法来估计处理效应，以保证结果的稳健性，结果解释时须非常谨慎，应努力从试验的管理、受试者的基线特征、临床实践等方面寻找原因；当存在定性的交互作用时，需找到合理的解释并重新进行的临床试验。

当中心数较多，或每个中心样本数均较少，一般无需考虑中心效应对主要变量及次要变量的影响，因为此时中心效应不会影响临床效果。

采用何种策略分析中心效应需事先在试验方案或统计分析计划中阐明。

5. 亚组分析

临床试验中的亚组分析是对整体中根据某种因素分层的部分数据进行分析。

试验药物的疗效或安全性在不同的亚组中可能不同，而且这种差异往往具有特殊的临床意义。除非在方案设计时考虑到了计划的亚组分析，并且在样本量计算和多重性比较等方面事先给予了考虑，这样的亚组分析结果才能够被接受。由于亚组分析通常是小样本，且未按亚组随机化，故对于非确证性亚组分析的解释应当慎重，通常只能作为探索性研究的参考。

6. 多重性问题

多重性问题是指在临床试验中，由于存在多个主要指标、多个比较组、多个时间点的比较、期中分析、亚组分析、多个分析集等情况，进行多次假设检验而导致Ⅰ类错误概率增加的现象。如果试验将重要的次要指标结果也纳入关键性证据的情况下，即主要指标和重要次要指标共存时的假设检验亦需要考虑多重性问题。对于主要指标是复合指标的试验，如果宣称的疗效是基于复合指标中某个或某些成分时，需事先定义这些成分并纳入多重性考虑的确证性分析策略。

将假阳性率控制在事先设定的水平以内是非常重要的原则，在确证性临床试验结果的评价中具有重要的意义。在试验方案或统计分析计划中应预先说明对多重性问题的考虑、控制Ⅰ类错误概率的原因及方法。处理多重性问题的方法有多种，如单步法、闭合检验程序、固定顺序的检验、序贯结构的策略等，在选择方法时可考虑将能够估计出疗效的可信区间作为选择的一个标准。

在对Ⅰ类错误概率进行控制的同时可能会导致Ⅱ类错误概率的增加，在估计样本量时应有所考虑。

（六）安全性与耐受性分析

安全性主要关注于药物对受试者的风险，在临床试验中，通常通过实验室检查结果（包括生化学和血液学指标）、生命体征、临床不良事件（疾病、体征、症状）及其他特殊的安全性检验（如心电图、眼科检查）等手段来评价。耐受性指受试者对于明显的不良反应的耐受程度。

大多数试验中，对安全性与耐受性的分析，常采用描述性统计分析方法，必要时辅以置信区间进行说明。也可应用图表来描述治疗组间和个体间不良事件的发生模式（时间、空间、人群、性别分布）。不良事件的发生率通常以出现不良事件的病例数与暴露病例数之比来表示。此外，暴露强度（如人-年）也有可能作为分母。在各个阶段的临床研究过程中，应考虑对安全性评价指标定义的一致性，应考虑采用统一的不良事件编码词典（如MedDRA、WHOART和WHO-DD等）。

安全性和耐受性分析的数据集通常包括至少接受过一次治疗且有安全性评价的受试者。安全性的统计分析方法可以采用不同方式，可在方案及统计分析计划中结合临床判断，对不同的安全性指标按其重要性及与治疗的相关性划分为不同的类别：重要性较低且与治疗方法相关性较弱的安全性指标，可采用描述性分析方法；对于重要性适中且与治疗方法有一定相关性的安全性指标，建议加入置信区间分析；而对于重要性较高且与治疗方法相关性较强的安全性指标，可提供相应的统计检验p值以供参考。

（七）统计分析报告

统计分析报告是临床试验统计师根据事先拟定的统计分析计划书，应用统计分析软件编写分析程序输出的统计分析表格和统计分析图形加以整理的重要文档，也是提供给临床主要研究者作为撰写临床试验总结报告的重要素材，并和统计分析计划一起作为药物注册上市的申请材料之一提交给监管部门用于对临床试验结果的评价。

名词解释

名词	解释
安全集（Safety Set，SS）	安全性与耐受性评价时，用于汇总的受试者集称为安全集。安全集应考虑包括所有随机化后至少接受一次治疗的且有安全性评价的受试者受试者。
安全性和耐受性（Safety & Tolerability）	医疗产品的安全性是指受试者的医学风险，通常在临床试验中由实验室检查（包括临床生化和血液学）、生命体征、临床不良事件（疾病、体征和症状），以及其他特殊的安全性检查（如心电图、眼科检查）等来判定。医疗产品的耐受性是指受试者能耐受明显不良反应的程度。
处理效应（Treatment Effect）	是指归因于临床试验中处理的效果。在大多数临床试验中感兴趣的处理效应是两个或多个处理间的比较（或对比）。
等效性试验（Equivalence Trial）	是指主要目的为确认两种或多种治疗效果的差别大小在临床上并无重要意义的试验。通常以真正的治疗效果差异落在临床上可接受的等效性界值上下限之间来表明等效性。
独立数据监查委员会（Independent Data Monitoring Committee，IDMC）：	也称数据和安全监查委员会、监查委员会、数据监查委员会。独立数据监查委员会由申办者建立可用于定期评价临床试验进度、安全性数据以及关键疗效指标，并可向申办者建议是否继续、修改或停止试验。
多中心试验（Multicentre Trial）	多中心试验系指由多个单位的研究者合作，按同一个试验方案同时进行的临床试验。
非劣效性试验（Non-Inferiority Trial，NI）	是指主要目的为显示试验药物的效应在临床上不劣于对照药的试验。
符合方案集（Per Protocol Set，PPS）	又称有效病例、疗效样本、可评价病例样本。是由充分依从于试验方案的受试者所产生的数据集，以确保这些数据可能会展现出治疗的效果。依从性包括以下一些考虑：如所接受的治疗、指标测量的可获得性以及对试验方案没有大的违背等。
交互作用（Interaction）	是指处理间的对比（如研究产品与对照之间的差异）依赖于另一因素（如中心）的情况。定量的交互作用是指对比差异的大小在因素的不同水平时不同；定性交互作用是指对比差异的方向至少在因素的一个水平上不同。
荟萃分析（Meta-Analysis）	是指对同一个问题的两个或多个试验的量化证据进行的规范评价。这常是将不同试验的总结性的统计量进行统计合并，但此名词有时也用于对原始数据的合并。
盲态审核（Blind Review）	是指在试验结束（最后一位受试者最后一次观察）到揭盲之前对数据进行的核对和评估，以便最终确定统计分析计划。
偏倚（Bias）	是指与设计、实施、分析和评价临床试验有关的任何因素导致的处理效应估计值与其真值的系统偏离。临床试验实施的偏离所引入的偏倚称为“操作”偏倚。上述其他来源的偏倚称为“统计学”偏倚。
期中分析（Interim Analysis）	是指正式完成临床试验前，按事先制订的分析计划，比较处理组间的有效性或安全性所作的任何分析。
全分析集（Full Analysis Set，FAS）	是指尽可能接近符合意向性治疗原则的理想的受试者集。该数据集是从所有随机化的受试者中以最少的和合理的方法剔除受试者后得到。
全局评价指标（Global Assessment Variable）	为单一变量，是将客观指标和研究者对病人的病情及其改变总的印象综合起来所设定的指标，通常是一个有序分类等级指标。
随机分配表的释放（Randomization Code Release）	是指临床试验中对最后一例受试者的随访结束，且所计划的数据采集工作全部完成后，为进一步完成计划的统计分析工作而将一直保持盲态的受试者的随机分组信息对相关研究人员进行公开的解盲过程。
试验统计学专业人员（Trial Statistician）	指接受过专门培训且有经验，可以执行本指导原则并负责临床试验统计方面的统计学专业人员。
双模拟（Double-Dummy）	是指在临床试验中当两种处理（如治疗）不能做到完全相同时，使试验处理（或治疗）仍能保持盲态的一种技术。先准备处理A（活性药和不能区分的安慰剂）和处理B（活性药和不能区分的安慰剂），然后受试者接受两套处理：活性药处理A和安慰剂处理B，或者安慰剂处理A和活性药处理B。
替代指标（Surrogate Variable）	是指在直接测定临床效果不可能或不实际时，用于间接反映临床效果的指标。
统计分析计划（Statistical Analysis Plan，SAP）	是比试验方案中描述的分析要点更加技术性和有更多实际操作细节的一份独立文件，包括对主要和次要指标及其他数据进行统计分析的详细过程。
脱落（Dropout）	是指受试者由于任何原因不能继续按试验方案进行到所要求的最后一次随访。
意向性治疗原则（Intention-To-Treat Principle）	是指基于有治疗意向的受试者（即计划好的治疗）而不是实际给予治疗的受试者进行评价的处理策略。是可以对结果做出评定的最好原则。其结果是计划分配到每一个治疗组的受试者即应作为该组的成员被随访、评价和分析，而无论他们是否依从于所计划的治疗过程。
优效性试验（Superiority Trial）	是指主要目的为显示试验药物的效应优于对照药（阳性药或安慰剂）的试验。
置信区间（Confidence Interval，CI）	是指按一定的概率或可信度(1-α)用一个区间来估计总体参数所在的范围，该范围通常称为参数的置信区间。
中央随机化系统（Centralized Randomization System）	是指在多中心临床试验中为克服人为或其他未知因素对研究结果的偏倚影响，由一个独立的组织或机构基于电话语音或网络方式实施药物随机分配的自动化计算机管理系统。常见有基于电话的交互式语音应答系统（IVRS，Interactive Voice Response System）和基于网络的交互式网络应答系统（IWRS，Interactive Web Response System）。

参考文献

[1]. SFDA：药物临床试验质量管理规范（GCP）2003

[2]. CDE：临床试验数据管理工作技术指南（征求意见稿）2016

[3]. CCTS：非劣效临床试验的统计学考虑。中国卫生统计，2012，29（2）：270-274

[4]. CCTS：临床试验中多重性问题的统计学考虑。中国卫生统计，2012，29（3）：1-6

[5]. ICH E9：Statistical Principles for Clinical Trials 1998

[6]. ICH E8：General Considerations for Clinical Trials 1997

[7]. FDA：Adaptive Design Clinical Trials for Drugs and Biologics(Draft Guidance) 2010

NMPA

药物临床试验数据递交指导原则（试行）

一、背景与目的

药物临床试验数据是申办方向监管机构递交的重要资料之一，对于监管机构和申办方来说都是宝贵的资源。规范地收集、整理、分析和呈现临床试验数据对于提高药物临床研发的效率和质量、缩短审评时间具有重要的作用，并且有利于药品全生命周期管理，促进研发或监管的信息互通或共享。

申办方递交的临床试验数据若不遵循一定的规范，熟悉和理解数据结构及内容将占用大量的审评资源。某些情况下，申办方或监管机构可能需要针对多来源的临床试验数据进行汇总分析，如果数据没有规范化，整合利用也几乎难以实现。

临床试验数据相关的申报资料通常包括数据库及其相应的数据说明文件、数据审阅说明、程序代码和注释病例报告表（annotated Case Report Form，aCRF）。本指导原则主要对临床试验数据递交的内容及格式提出具体要求，旨在指导申办方规范递交临床试验数据及相关资料，同时有助于数据管理、统计分析等相关从业人员更好地开展临床试验中的相关工作。

本指导原则主要适用于以支持药品注册上市为目的的关键性临床试验，也可供以非注册为目的的临床试验参考使用。本指导原则基于国际监管机构数据递交要求以及国内现状制定，申办方应基于本指导原则要求准备相关资料。鼓励申办方参照临床数据交换标准协会（Clinical Data Interchange Standards Consortium，CDISC）标准递交临床试验数据及相关的申报资料。随着临床试验数据标准的发展以及对其认识与实践的提高，本指导原则会酌情修订完善。

二、临床试验数据相关资料及其说明

（一）原始数据库

原始数据库通常包含从病例报告表和外部文件中直接收集的原始数据，还可能包含极少量的衍生数据，如序号。原始数据库中的缺失数据不应进行填补。为满足数据递交的要求，直接收集的数据可能需要进行必要的标准化或编码，例如调整数据库中数据集名称/标签/结构、数据集中变量名称/标签，或在适用的情况下对变量值进行标准化编码，如监管活动医学词典（Medical Dictionary for Regulatory Activities，MedDRA）等。如果申办方参照CDISC标准递交数据，则可将原始数据标准模型（Study Data Tabulation Model，SDTM）数据库视为原始数据库。

原始数据库通常包含多个原始数据集，原始数据集应按主题进行组织并命名，数据集通常以两个英文字母组成的代码命名，如人口学（dm）、不良事件（ae）、实验室检查（lb）等数据集。临床试验中常见的原始数据集命名详见附录1。

所有递交的原始数据集必须包含研究标识符（STUDYID）变量；反映各受试者观测结果的数据集（如附录1中的dm、ae、lb等数据集）中还必须包含受试者唯一标识符（USUBJID）变量；另外，受试者标识符（SUBJID）变量必须包含在dm数据集中。常用到的标识符举例说明如下：

研究标识符：变量名为STUDYID，字符型，研究的唯一标识符，即研究编号。

受试者唯一标识符：变量名为USUBJID，字符型，每一受试者在同一产品的整个试验申请（包含多个临床研究）过程中应当赋予相同的唯一标识符。在所有数据集（包括原始数据集与分析数据集）中，同一个受试者应当有完全相同的唯一标识符。当受试者参加了多个研究，各个研究之间的USUBJID应当保持一致。遵循这一规则对于合并同一受试者在不同研究中的数据尤其重要（如随机对照试验或扩展性研究）。

受试者标识符：变量名为SUBJID，字符型，SUBJID是参加试验的受试者的标识符。

访视名称（VISIT，字符型）和访视编号（VISITNUM，数值型）等时间变量应包含在适用的数据集中。计划访视的VISITNUM应根据时间顺序从小到大赋值，并与VISIT一一对应。

（二）分析数据库

分析数据库是为统计分析衍生新建的数据库，用于产生和支持临床总结报告等文件中的统计分析结果。分析数据库中一般包含原始数据及基于原始数据按照一定规则衍生的数据，如对缺失数据填补后的数据等。如果申办方参照CDISC标准递交数据，则可将分析数据标准模型（Analysis Data Model，ADaM）数据库视为分析数据库。

分析数据库通常包含多个分析数据集。构建分析数据集时，可能会将收集和衍生的数据（来自各原始数据集或其它分析数据集）合并到一个数据集中，构建时应遵循以下原则：①用于支持统计分析的分析数据集，其内容与来源必须清晰。②分析数据集必须具备可追溯性，数据衍生的具体规则应在相应的数据说明文件中加以详细说明。③分析数据集结构和内容应满足只需要很少的编程即可进行统计分析。

分析数据库应包含分析时所需的所有变量，包括衍生变量，且所有衍生变量均应能通过原始数据库及其它支持性数据文件生成。分析数据集通常以“adxxxxxx”命名，分析数据集的命名应尽量与原始数据集保持对应，如：adcm、adae、adlb等。

受试者水平分析数据集（命名为adsl）是必不可少的一个分析数据集。在该数据集中，每一受试者应仅有一条记录，内容应包括但不限于人口学、重要的基线特征/分层因素、治疗组、预后因素、重要日期、分析人群划分等信息。

对于有些终点（如某些量表评分），从原始数据集到可用于最终统计分析的分析数据集需要经过一系列衍生过程，为方便最终分析数据集创建而衍生的中间变量/数据集必要时也应一同包含在分析数据库中。

（三）数据说明文件

递交的原始数据库和分析数据库必须有相应的数据说明文件。数据说明文件是一份用来描述递交数据的文件，至少应包含递交数据库中各数据集名称、标签、基本结构描述及每一数据集中各变量的名称、标签、类型、来源或衍生过程。

数据说明文件是监管机构审评时准确理解递交数据内容最重要的文件之一。申办方应确保每个变量的编码列表和来源都有清晰的定义，并且易于查找。如果使用外部词典，需要在数据说明文件中指明所用的词典及版本。需要通过数据说明文件建立起数据间良好的可追溯性（如：原始数据集与CRF、分析数据集与原始数据集之间），以便于监管机构的审阅。申办方需要在数据说明文件中提供相关细节，尤其是和衍生变量相关的详细说明，必要时可使用关键程序代码辅助说明。

数据说明文件一般为可扩展标记语言（Extensible Mark-up Language，XML）或便携文档格式（Portable Document Format，PDF）文件。如递交XML格式数据说明文件，对应的可扩展样式表语言(Extensible Stylesheet Language，XSL）文件也应一并递交。

（四）数据审阅说明

为了帮助审评人员更好地理解与使用递交的数据，鼓励申办方递交数据审阅说明。数据审阅说明是对数据说明文件的进一步补充，其内容包括但不限于研究数据使用说明、临床总结报告与数据之间的关系、研究文档（如试验方案、统计分析计划、临床总结报告等）中部分关键信息、所递交程序代码的使用说明、数据集所用编码（如utf-8、euc-cn等）及其它特殊情形说明等。数据审阅说明并不旨在取代数据库的数据说明文件，而是通过文档描述的方式来帮助审评人员更准确、高效的理解与使用所递交的数据库、相关术语、程序代码及数据说明文件信息等。数据审阅说明应采用PDF文件。

（五）注释病例报告表

注释病例报告表是在空白CRF的基础上，对采集的受试者数据（电子化的或者纸质的）信息单元（即字段信息）与递交原始数据集中对应的变量或变量值之间映射关系的具体描述。aCRF文件应采用PDF文件。

实践中，CRF中可能会收集一些递交数据库中没有的数据内容，这类数据应在aCRF上明确标注为“不递交”（“NOT SUBMITTED”），并在数据审阅说明中阐明不递交这些数据的理由。

（六）程序代码

申办方需要递交的程序代码包括但不限于：分析数据集中衍生变量的衍生过程、疗效指标分析结果的生成过程等。申报资料中递交的程序代码应当易懂、可读性强，建议提供充分的注释、避免外部(宏)程序调用。程序代码一般采用TXT文件。

三、临床试验数据相关资料的格式

（一）便携文档格式

便携文档格式（PDF）是一种开放文档格式，其独立于应用软件、硬件和操作系统。申报递交资料中遵循国际人用药品注册技术要求协调会（International Council for Harmonization of Technical Requirements for Pharmaceuticals for Human Use，ICH）电子通用技术文档（Electronic Common Technical Document，eCTD）格式要求的其它文档可采用PDF文件。建议使用PDF 1.4以上的版本进行文档的递交。所有PDF文件都应以.pdf作为文件扩展名。

（二）可扩展标记语言格式

可扩展标记语言（XML）是由国际万维网协会（World Wide Web Consortium，W3C）定义的一种数据交换语言。它可以被任何文本编辑器打开、编辑和创建，用来传输和存储数据。XML格式文件能够便捷地在不同系统之间进行信息交互。所有XML格式文件必需以.xml作为文件扩展名。

（三）纯文本格式

纯文本格式文档（TXT）具有格式简单、体积小、存储简单方便等诸多特点，也是计算机及许多移动终端支持的通用文件格式。所有TXT文件都应以.txt作为文件扩展名。

（四）研究数据传输格式

申报资料中的数据集通常采用SAS数据传输格式(SAS Transport Format，简称XPT)。一个XPT文件对应一个数据集，数据集名称需要与XPT文件名保持一致，其文件后缀名统一为.xpt。例如不良事件数据集ae.xpt，既往与合并用药数据集cm.xpt等。建议采用XPT第5版本（简称XPT V5）或以上版本作为数据递交格式。申办方应说明所用编码（如utf-8、euc-cn等），以避免所递交的数据集出现乱码的情形。

（五）数据集拆分

当数据库中单个数据集因存储大小不满足申报资料相关要求而需要拆分时，可仅递交拆分后的数据集。在数据审阅说明中，应详细说明数据集的拆分规则及合并的详细步骤，以确保审评人员能够生成与申办方拆分前相同的数据集。

（六）数据集名称、变量名称及变量长度

对数据集名称和变量名称要求如下：

数据集名称只能包含小写英文字母和数字，并且必须以小写字母开头。且数据集名称的最大长度为8个字节。

变量名称只能包含大写英文字母、下划线和数字，并且必须以字母开头。且变量名称的最大长度为8个字节。

每个字符型变量的长度，应该设置为在此研究所有数据集里该变量的最大实际变量值长度，有效控制文件的大小。

（七）数据集标签及变量标签

为了便于审阅，数据集标签和变量标签应使用中文，建议长度不超过40字节，必要时可以包含英文字符、下划线或数字，但不能以数字开头，另外，也不能包含下列情形：

不成对的半角或全角单引号、双引号
不成对的半角或全角括号
特殊字符（如 ‘>’、‘<’）

四、其它相关事项

（一）试验数据的可追溯性

审评中的一个重要环节是对数据来源的准确理解，即数据的可追溯性。可追溯性为审评人员理解统计分析结果（临床总结报告中的报表）、分析数据及与原始数据之间的关系提供了技术许可。

数据的可追溯性确保审评人员能够准确地：

理解分析数据集的构建
确定用于衍生变量的观测记录以及相应算法
理解相关统计结果的计算方法
建立从原始数据到相应报表之间的关联

申办方在递交数据库时应确保监管部门能够利用原始数据库衍生出与申办方一致的分析数据库，利用分析数据库能够直接重现出与申办方一致的统计分析结果。可追溯性还可以通过提供数据从收集阶段到递交阶段的详细流程图来辅助解释。

（二）电子通用技术文档下的数据文件

在采用eCTD申报时，所有文档、试验数据和相关支持性文件需要按照指定的文件夹结构进行整理。所有递交的文件都应该在正确的文件夹内，并使用适当的研究标签文件（Study Tagging File，STF）进行标识。STF和文件夹结构见附录2和附录3。

（三）外文数据库

临床试验数据相关的申报资料应以中文为主，申报资料不同文件之间的中文表述应保持一致，例如分析数据集中的不良事件名称与临床总结报告报表中的不良事件名称应互相对应。为了提高审阅效率，临床试验数据相关的申报资料由外文翻译为中文的最低要求如下：

递交数据库中至少以下内容应为中文：数据集标签和变量标签；在临床总结报告等文件中出现的不良事件名称、合并用药名称、病史名称。

数据说明文件中至少以下内容应为中文：数据库中各数据集的描述/标签和说明；数据集中各变量的描述/标签和衍生过程；涉及疗效指标的取值或编码列表。

注释病例报告表中至少以下内容应为中文：为了收集数据所设计的问题描述；涉及疗效指标问题的取值或编码。

数据审阅说明应为中文。

（四）与监管机构的沟通

申办方根据具体临床试验数据特点及复杂程度，若需要，可按照药物研发与技术审评沟通交流的相关管理办法，与审评机构就临床试验数据库及相关资料的递交进行沟通，以方便审评人员快速、准确地理解申办方递交的临床试验数据。

附录：常用原始数据集

数据集	命名	递交要求
人口学	dm	必须递交
病史	mh	如适用
不良事件	ae	如适用
既往与合并用药	cm	如适用
暴露	ex	如适用
受试者分布	ds	如适用
问卷与量表	qs	如适用
方案偏离	dv	如适用
实验室检查	lb	如适用
心电图	eg	如适用
生命体征	vs	如适用
临床事件	ce	如适用
体格检查	pe	如适用

附录：研究标签文件

标题元素的name属性值	说明
data-tabulation-dataset-legacy	原始数据库（非CDISC标准）
data-tabulation-dataset-sdtm	原始数据库（CDISC标准）
data-tabulation-data-definition	原始数据库数据说明文件、数据审阅说明
analysis-dataset-legacy	分析数据库（非CDISC标准）
analysis-dataset-adam	分析数据库（CDISC标准）
analysis-data-definition	分析数据库数据说明文件、数据审阅说明
annotated-crf	注释CRF
analysis-program	编程程序代码

附录：文件夹结构

附录：词汇表

术语	说明
编码列表（Code List）	是指变量可能的取值，包括在试验数据中涉及数据相应的标准编码、行业通用编码或申办方自定义的编码。
病例报告表（Case Report Form, CRF）	指按照试验方案要求设计，向申办者报告的记录受试者相关信息的纸质或者电子文件。
电子通用技术文档（Electronic Common Technical Document, eCTD）	用于药品注册申报和审评的电子注册文件。通过可扩展标记语言将符合CTD规范的药品申报资料以电子化形式进行组织、传输和呈现。
数据说明文件（Data Definition File）	用来描述递交数据的文件，至少应包含递交数据库中各数据集名称、标签、基本结构描述及每一数据集中各变量的名称、标签、类型及来源或衍生过程。
数据审阅说明（Data Reviewer’s Guide）	是对数据说明文件的进一步补充，通过文档描述的方式来帮助审评人员更准确、高效的理解与使用所递交的数据库、相关术语、程序代码及数据说明文件信息等。
注释病例报告表（aCRF）	是在空白病例报告表的基础上，对采集的受试者数据（电子化的或者纸质的）信息单元（即字段信息）与递交原始数据集中对应的变量或变量值之间映射关系的具体描述。

附录：中英文词汇对照

中文	英文
便携文档格式	PDF (Portable Document Format)
病例报告表	CRF (Case Report Form)
电子通用技术文档	eCTD (electronic Common Technical Document)
分析数据标准模型	ADaM (Analysis Data Model)
国际人用药品注册技术要求协调会	ICH (International Council for Harmonization of Technical Requirements for Pharmaceuticals for Human Use)
国际万维网协会	W3C (World Wide Web Consortium)
监管活动医学词典	MedDRA (Medical Dictionary for Regulatory Activities)
可扩展标记语言	XML (Extensible Mark-up Language)
可扩展样式表语言	XSL (Extensible Stylesheet Language)
临床数据交换标准协会	CDISC (Clinical Data Interchange Standards Consortium)
临床总结报告	CSR (Clinical Study Report)
受试者水平分析数据集	ADSL (Subject Level Analysis Dataset)
新药申请	NDA (New Drug Application)
研究标签文件	STF (Study Tagging File)
原始数据标准模型	SDTM (Study Data Tabulation Model)
注释病例报告表	aCRF (annotated Case Report Form)

参考文献

[1]. CFDA. 临床试验数据管理工作技术指南. 2016年7月.

[2]. FDA. Study Data Technical Conformance Guide. Mar 2020.

[3]. PMDA. Revision of Technical Conformance Guide on Electronic Study Data Submissions. Jan 2019.

[4]. CDISC. Study Data Tabulation Model Implementation Guide. Nov 2018.

[5]. CDISC. Analysis Data Model Implementation Guide. Oct 2019.

NMPA

药物临床试验非劣效设计指导原则

一、概述

当确证某个药物疗效时，优效试验（如证明试验药与安慰剂或阳性药相比较的优效性）一般是理想选择。当优效试验不适用，比如使用安慰剂对照不符合伦理要求时，可考虑采用非劣效试验。非劣效试验是为了确证试验药的临床疗效，即使低于阳性对照药，但其差异也是在临床可接受范围之内。

本指导原则旨在阐述非劣效试验的应用条件、设计要点、非劣效界值设定、统计推断以及其他监管考虑等方面内容，以指导临床试验各相关方能够正确地认识、实施和评价非劣效试验。本指导原则主要适用于支持药品注册上市的确证性临床试验，也可供探索性临床试验参考使用。

二、应用条件

非劣效试验以阳性药作为对照，目的是确证虽然试验药的疗效低于阳性对照药的疗效，但差异在可接受的范围之内。非劣效试验中阳性对照药相对于安慰剂的疗效无法在本试验中直接观察，因此需要假定阳性对照药有确切的疗效。非劣效试验应确保具有足够的检定敏感性，即具有区分阳性对照药为有效、低效或无效的能力。关于检定敏感性的详细阐述可参考 ICH E10《临床试验中对照组的选择和相关问题》。

要确保非劣效试验具有一定的敏感性，应着重考虑以下三个方面：

（一）阳性对照药疗效的既往证据

通常阳性对照药相对于安慰剂的疗效差异来源于已知的、具有良好设计和实施的临床试验结果。根据这些既往试验，在充分考虑不同试验结果变异程度的基础上，可以估计出较为可靠的阳性对照药相对于安慰剂的疗效差异，该疗效差异是非劣效试验中用于确定非劣效界值的关键参数。

对于某些症状性治疗或一些适应症，如精神类适应症等，在既往试验中难以获得阳性对照药相对于安慰剂的稳健疗效差异，若使用该阳性对照药进行非劣效试验，则很难确证试验药的疗效。因此，对于这些疾病领域，谨慎使用非劣效试验，或者在伦理许可的前提下采用包含安慰剂的三臂非劣效试验。

（二）恒定假设

阳性对照药相对于安慰剂的疗效差异估计多源于既往临床试验，因此在非劣效试验中应尽可能确保阳性对照药的疗效与既往临床试验保持一致，即满足恒定假设。恒定假设会受到很多因素的影响，诸如既往试验中的受试人群、是否有合并用药、疗效指标的定义与判定、阳性对照药的剂量、耐药性以及统计分析方法等。如果随着年代迁移，所治疗疾病的定义、诊断标准及其治疗方法等已经发生变化，则会影响恒定假设的成立，进而导致非劣效试验的检定敏感性不足，难以解释试验结果。因此，当恒定假设难以验证时，谨慎使用非劣效试验。

（三）良好的研究质量

临床试验质量是非劣效试验具有足够的检定敏感性的基础。各种试验质量缺陷，包括偏离方案中规定的入组标准、依从性差、合用影响疗效评价的药物、测量偏倚、分组错误、受试者脱落率高等，都有可能导致试验药与阳性对照药的疗效差异估计出现偏倚。这些试验质量缺陷在优效试验中通常不利于优效结论成立，但在非劣效试验中却可能有利于非劣效结论成立。因此，在非劣效试验的设计和实施阶段保证研究质量尤为重要。

三、设计要点

临床试验设计时，要考虑试验目的、研究人群、对照选择、评价指标、统计假设、样本量、数据分析和解读方法等要点。对于其他指导原则（如 ICH相关指导原则和我国发布的《药物临床试验的生物统计学指导原则》）涉及到的临床试验设计通用内容，在试验设计时应遵循，本指导原则不再赘述。本指导原则着重阐述非劣效试验特有的设计要点，包括统计假设（其中非劣效界值在第四章中阐述）、阳性对照药的选择和分析人群。

（一）统计假设

试验方案中应明确非劣效统计假设。对于不同度量和指标类型，非劣效试验统计假设的表述会有所不同，见表 1。原假设（H₀）对应为劣效，备择假设（H₁）对应为非劣效M为非劣效界值，绝对度量指标包括均值差和率差等，相对度量指标包括率比、风险比、比值比等，高优指标是其值越大表明疗效越好的指标，低优指标是其值越小表明疗效越好的指标。

表1 非劣效试验的原假设（H₀）和备择假设（H₁）

指标类型	高优指标	低优指标
绝对度量	H₀：T − C ≤ −M（M>0） H₁：T − C > −M（M>0）	H₀：T − C ≥ M（M>0） H₁：T − C < M（M>0）
相对度量	H₀：T/C ≤ 1/M（M>1） H₁：T/C > 1/M（M>1）	H₀：T/C ≥ 1/M（M>1） H₁：T/C < 1/M（M>1）
T代表试验组效应， C代表阳性对照组效应， M代表非劣效界值。

指标类型

高优指标

低优指标

绝对度量

H₀：T − C ≤ −M（M>0）

H₁：T − C > −M（M>0）

H₀：T − C ≥ M（M>0）

H₁：T − C < M（M>0）

相对度量

H₀：T/C ≤ 1/M（M>1）

H₁：T/C > 1/M（M>1）

H₀：T/C ≥ 1/M（M>1）

H₁：T/C < 1/M（M>1）

T代表试验组效应， C代表阳性对照组效应， M代表非劣效界值。

（二）阳性对照药

非劣效试验所选择的阳性对照药必须具有其疗效优于安慰剂的明确和充分的证据，包括可靠的疗效差异估计。阳性对照药应选择当前标准疗法或者最佳疗法的药物。如果所选的阳性对照药的疗效证据不充分，那么将其用于评价其他新药疗效会存在巨大风险。

（三）分析人群

优效试验基于意向性治疗原则进行统计分析通常被认为是保守的，但应用于非劣效试验则不一定保守。一些试验质量问题，如依从性差、脱落率高、主要终点错误分类等，可能会掩盖试验组和对照组之间的治疗差异，从而导致实际上比对照药劣效的试验药错误的获得非劣效于对照药的结论。另一方面，受试者是否遵守试验方案可能与接受何种药

另一方面，受试者是否遵守试验方案可能与接受何种药物和治疗的结果有关，因此按符合方案集进行分析也可能引入偏倚。比如要评价能够耐受并继续接受治疗的受试者的疗效，符合方案集未必反映了不同治疗方案下相似的受试者。任何按符合方案集进行的分析都应针对临床所关注的人群的疗效，确认是由于治疗而不是潜在的混杂因素（例如观察时间或患者特征的差异等）引起的效应。

建议在非劣效试验设计阶段就应该重视研究质量，并且在实施和分析阶段持续的监测以减少发生上述质量问题。如果非劣效试验是开放试验，由于很难证明试验入组、终点评估以及其他研究操作未引入偏倚，所以关注研究质量就更为重要。

四、非劣效界值确定与统计推断

非劣效界值是指试验药与阳性对照药相比在临床上可接受的最大疗效损失。因此，非劣效界值不应大于阳性对照药相对于安慰剂的临床获益，以确保试验药的疗效至少能够优于安慰剂。非劣效界值的确定通常应根据统计分析和临床判断综合考虑，并在试验方案中说明非劣效界值确定的依据。

非劣效界值的确定及其统计推断主要包括固定界值法和综合法，一般情况下固定界值法可以更直观地描述试验药物的疗效。

（一）固定界值法

阳性对照药与安慰剂的疗效差异用M₁表示，其估计通常依赖于既往阳性对照药与安慰剂的优效试验的疗效差异的meta分析，通过分析得到疗效差异的单侧97.5%（或双侧95%）置信区间。M₁的确定方法详见图1和图2。如果对既往证据的变异性和恒定假设存在顾虑可采用 “折扣 ”策略确定M₁即将M₁通过一定幅度的 “折扣”（如减半）转换为更加保守的M₁。

非劣效界值M₂（对应于前文表1中的M）是试验药与阳性对照药相比在临床上可接受的最大损失，可通过M₁的某一比例来定义。设f（0< f<1）为至少保留M₁的比例，则最大可损失比例为1-f。M₂的确定公式详见附录2，M₁和M₂的相对关系参见图1和图2。确定f则依赖于临床判断。当阳性对照药与安慰剂的疗效差异很大时，或当终点指标为不可逆的发病率或死亡率时，对f的选择应该慎重考虑。

图1 绝对度量指标的非劣效界值确定过程图示

图2 相对度量指标的非劣效界值确定过程图示

若检验水准α设为单侧0.025或双侧0.05，对于高优疗效评价指标，若为绝对度量值，而试验药相对于阳性对照药的疗效差异的单侧97.5%（或双侧95%）置信区间的下限大于负的非劣效界值（若为相对度量值，下限大于非劣效界值的倒数），则可推断试验的非劣效结论成立；对于低优疗效评价指标，无论是绝对度量值还是相对度量值，如果试验药相对于阳性对照药的疗效差异的单侧97.5%（或双侧置信区间的上限小于非劣效界值，则可推断试验的非劣效结论成立。

（二）综合法

综合法不要求预先确定M₁，而是将既往阳性对照药与安慰剂的优效试验和当前试验药与阳性对照药的非劣效试验的数据进行合并或综合，构建一个检验统计量Z来表达试验药是否保留了阳性对照药疗效的一部分。检验统计量Z的计算公式详见附录2。如果用Z_1-α/2表示标准正态分布的100(1-α/2)%百分位数，对于高优疗效评价指标，若 Z大于Z_1-α/2，或对于低优疗效评价指标，若Z小于Z_1-α/2，则可推断试验药非劣效于阳性对照药。

只要恒定假设成立，使用综合法相对于使用固定界值法可以提高研究效率（减少样本量或样本量不变而获得更大的检验效能）；综合法虽然在开展非劣效试验之前不需要预先确定M₁，但需要在方案中基于临床判断预先确定f值。

五、其他考虑

（一）相对于疗效损失的潜在获益非劣

非劣效设计允许试验药疗效相对于阳性对照药有一定的损失，相应地也要考虑试验药在其他方面是否有潜在获益，以对其疗效损失进行必要补偿。例如，与阳性对照药相比，其他方面的潜在获益可能包括疗程更短、使用更方便、不良反应更少、依从性更好等。对潜在获益的评估应综合考虑非劣效试验目的和关注的临床问题。

（二）非劣效与优效检验的转换

在非劣效试验方案中可以预先定义非劣效与优效检验的转换，即先进行非劣效检验，如果非劣效结论成立，可进一步进行优效检验，如果优效结论成立，则研究结论为优效；如果优效结论不成立，则研究结论为非劣效。当非劣效结论不成立时，研究结论不支持非劣效，也不应再进行优效检验。

若计划在采用阳性对照药的优效检验不成立时进行非劣效检验，则须在试验方案中预先考虑优效与非劣效检验的转换，包括事先定义非劣效检验假设、非劣效界值，以及多重性校正的策略等。

（三）三臂非劣效设计

为了考察试验药是否非劣效于阳性对照药，还可以考虑包含试验组、阳性对照组和安慰剂组的三臂非劣效设计，前提条件是符合伦理。三臂非劣效设计在检验试验药非劣效于阳性对照药的同时，还可以考察阳性对照药是否优效于安慰剂，从而在临床试验内部建立确切的检定敏感性。因此，在伦理许可的情况下，三臂非劣效设计是确证试验药非劣效于阳性对照药的较理想的试验设计。

（四）与监管机构的沟通

当申请人计划采用非劣效试验时，鼓励与监管机构及时沟通。沟通的问题包括但不限于阳性对照药的选择、非劣效界值的确定、主要分析人群、非劣效与优效检验的转换、替代设计的考虑等问题。进行沟通前，申请人应该向监管机构预先提供包含统计分析考虑的试验方案等相关资料。例如，在沟通非劣效界值时，申请人应预先提供确定非劣效界值的详细过程，包括所用到的文献及meta分析结果等。

附录：中英文词汇对照

中文	英文
检定敏感性	assay sensitivity
非劣效界值	non-inferiority margin
恒定假设	constancy assumption
固定界值法	fixed margin method
综合法	synthesis method
人用药品注册技术要求国际协调会议	the International Conference on Harmonisation of Technical Requirements for Registration of Pharmaceuticals for Human Use, ICH
意向性治疗	intention-to-treat, ITT
符合方案集	per protocol set, PPS

附录：主要公式

（一）固定界值法

若M₁为绝对度量，则

$M_{2}=\left(1-f\right)M_{1}$

若M₁为相对度量，则

$M_{2}=e^{\left(1-f\right)ln\left(M_{1}\right)}$

（二）综合法

对于绝对度量的疗效评价，

$Z=\frac{\widehat{\left(T-C_{n}\right)}+(1-f)\widehat{\left(C_{h}-P\right)}}{\sqrt{SE_{\widehat{T-C_{n}}}^{2}+\left(1-f\right)^{2}SE_{\widehat{C_{h}-P}}^{2}}}$

对于相对度量的疗效评价，

$Z=\frac{ln\left(\widehat{T/C_{n}}\right)+\left(1-f\right)ln\left(\widehat{C_{h}/P}\right)}{\sqrt{SE_{ln\left(\widehat{T/C_{n}}\right)}^{2}+\left(1-f\right)^{2}SE_{\widehat{ln\left(C_{h}/P\right)}}^{2}}}$

公式中，C_h和P分别为既往优效试验中阳性对照药和安慰剂的效应；T和C_n分别是当前非劣效试验中试验药和阳性对照药的效应；f为根据预先确定的C_h相对于P的疗效差异的所保留的比例；SE为标准误，既往优效试验的SE需要根据阳性对照药相对于安慰剂的疗效差异的meta分析进行估计。此处相对度量以简单比值（如相对风险）示例。某些相对度量值（如通过等比例风险模型估计的风险比）在大多数情况下并不能表示为简单比值，但可同理推导。

附录：应用示例

（一）固定界值法

以一项用于评估新型抗凝血剂希美加群与阳性对照药华法林的非劣效试验为例。华法林是一种高效的口服活性抗凝剂，已被批准用于治疗具有血栓栓塞并发症风险的非瓣膜性心房颤动患者。1989年至1993年发表了六项华法林用于治疗非瓣膜性心房颤动患者的安慰剂对照试验，主要试验结果汇总于附表 1，为评估希美加群与华法林的非劣效试验确定非劣效界值提供基础。

附表1 华法林用于治疗非瓣膜性心房颤动的安慰剂对照试验

试验	概要	华法林	安慰剂	华法林与安慰剂的相对风险（95% CI）
AFASAK	开放，1.2年随访	9/413 = 2.18%	21/398 = 5.28%	0.41 (0.19, 0.89)
BAATAF	开放，2.2年随访	3/487 = 0.62%	13/435 = 2.99%	0.21 (0.06, 0.72)
EAFT	开放，2.3年随访	21/507 = 4.14%	54/405 = 13.3%	0.31 (0.19, 0.51)
CAFA	双盲，1.3年随访	7/237 = 2.95%	11/241 = 4.56%	0.65 (0.26, 1.64)
SPAFI	开放，1.3年随访	8/260 = 3.08%	20/244 = 8.20%	0.38 (0.17, 0.84)
SPINAF	双盲，1.7年随访	9/489 = 1.84%	24/483 = 4.97%	0.37 (0.17, 0.79)

将上述六项试验结果合并进行固定效应meta分析，华法林相对于安慰剂的相对风险点估计值为0.361，95%置信区间（CI）为（0.267，0.489）。由于该主要评价指标为低优指标，因此，M₁为95%CI上限的倒数，即1/0.489=2.04。

本项非劣效试验的主要目的是证明希美加群保留了华法林相当大一部分疗效，因此f至少为50%，则代表在对数风险尺度上最大可接受的非劣效水平为(1−50%)ln(M₁)，根据公式进行指数变换计算出M₂为1.43。

在希美加群与华法林的非劣效试验中，考虑到试验的主要评价指标为低优指标，希美加群相对于华法林的相对风险为1.39，95% CI为（0.91，2.12），其上限大于M₂。因此，根据该试验结果尚不能认为希美加群降低风险的作用非劣效于华法林。

（二）综合法

继续以上述试验为例。综合法比较了当前非劣效试验中希美加群相对于既往华法林与安慰剂的优效试验中安慰剂的疗效，这是一种不基于在当前试验中设置安慰剂组的间接比较。综合法将既往华法林与安慰剂的优效试验的数据与当前希美加群与华法林的非劣效试验的数据合并进行假设检验，证明在非劣效试验中保留了一定比例的华法林相对于安慰剂的疗效。

综合法有别于固定界值法的关键点在于不需要在开展当前非劣效试验之前预先确定华法林相对于安慰剂的疗效M₁）。虽然在当前非劣效试验中并不对华法林与安慰剂进行比较，但其前提假设是，当前非劣效试验中华法林与安慰剂之间的疗效差异（如果有的话）与既往华法林与安慰剂的优效试验所观察到的疗效差异相同。

在此基础上，综合法在统计上检验原假设，即希美加群与华法林相比，其劣效性低于华法林与安慰剂相比风险降低的一半（即预设 50%）。这是固定界值法不能直接解决的问题，因为在固定界值法中，安慰剂仅存在于既往试验中，而不存在于当前非劣效试验中。在对数（log）风险尺度上进行检验，其原假设H₀为：

ln(希美加群与华法林的相对风险) ≥ -0.5 ln(华法林与安慰剂的相对风险)

在非劣效试验中，希美加群与华法林的相对风险为1.39，95% CI为（0.91，2.12）。从便于解释的角度，以固定界值法中meta分析结果为参考，华法林与安慰剂的相对风险为0.361，95% CI为（0.267，0.489）。基于此，希美加群相对于华法林的相对风险点估计值在对数尺度上为0.329，即ln(1.39)，标准误为 0.216，而华法林相对于安慰剂的相对风险点估计值在相应的对数尺度上为-1.02，即ln(0.361)，标准误为0.154。

根据综合法的统计检验公式有：

$Z=\frac{0.329+0.5\left(-1.02\right)}{\sqrt{0.216^{2}+\left[0.5\left(0.154\right)\right]^{2}}}=-0.789$

其Z大于-1.96，据此推断该试验结果尚不能认为希美加群非劣于华法林。

NMPA

抗肿瘤药物临床试验统计学设计指导原则（试行）

一、概述

与其他治疗领域一样，抗肿瘤药物在进入临床试验前，应该有足够的基于临床前实验或既往人体试验的科学证据显示某（些）剂量的试验药物在目标人群的安全性。临床试验的主要目的是针对药物研发提出相关的临床问题，通过恰当的试验设计和统计分析科学地回答这些问题。随机对照试验（Randomized Controlled Trial, RCT）是评价药物有效性和安全性的金标准，如果无法开展随机对照试验，则有效性和安全性结论的证据力度将会有所下降。由于肿瘤通常是严重危及生命的疾病，临床用药很大程度上存在未被满足的需求，所以抗肿瘤药物的临床研发有其特殊性。比如，早期临床试验以患者为研究对象，而不是健康受试者；某些情形下利用单臂试验结果申请注册上市等。针对不同肿瘤适应症，申办者应有不同的临床研发策略考虑，探索性试验和确证性试验在不同的研发项目计划中要达到的目的与作用也会不同。临床试验设计是决定研发成功与否的重要因素之一。良好的试验设计不仅有助于达到试验目的，同时还能提高研发效率。创新的临床试验设计类型和方法层出不穷，通过不断实践，抗肿瘤药物研发和审评的经验都在逐步丰富。本指导原则旨在针对抗肿瘤药物临床试验设计中的关键统计学技术问题，提供科学建议，为申办者开展抗肿瘤药物的临床研发提供参考。本指导原则仅代表当前的观点和认识，随着研究和认识的深入将不断修订和完善。

二、疗效终点

抗肿瘤药物临床试验最常用的疗效终点有总生存期（Overall Survival, OS）、客观缓解率（Objective Response Rate, ORR）、无进展生存期（Progression Free Survival, PFS）等。

（一）总生存期（OS）

总生存期是指从随机化开始（或单臂试验中治疗开始）到任何原因导致死亡的时间。OS相对客观并且精确可测，是随机对照临床试验中衡量抗肿瘤药物临床获益的最可靠终点。OS通常应基于意向性治疗（Intention-To-Treat, ITT）的原则进行分析。ITT分析应包括所有根据预先制定的研究方案参与随机化的受试者或单臂试验中接受过任何剂量药物的受试者，不考虑不依从、方案偏离、退出以及随机化或单臂试验中治疗开始后发生的任何事件。由于失访的受试者往往具有较高的死亡风险，如果两组之间的删失时间或删失比例不平衡有可能会导致分析结果产生偏倚，因此需对组间删失模式的均衡性进行评估，还应保证分析时所有受试者使用的是随访截止日期收集到的最及时更新的生存数据。

在安全性特征可接受的情况下，如果 OS的改善具有统计学显著性和临床意义，可用来支持试验药物的常规新药上市申请。

对 OS的假设检验通常基于 log-rank检验，而 Cox回归模型通常用于估计治疗效果（风险比）。生存率常用 Kaplan-Meier方法计算，并用生存曲线呈现。无论事件何时发生，log-rank检验对所有事件均赋予相同的权重。如果采用分层 log-rank检验，分层因素一般需要从随机化分层因素中预先选定。如果有充分的依据认为风险函数呈非等比例性，也可以考虑采用其它加权方法。然而，对等比例风险假设的轻微偏离在实际中比较常见，且根据既往的临床经验预测随时间变化的风险比模式极为困难。因此，在采用加权方法之前，应充分考虑其利弊，并与监管机构沟通交流。比较不同试验的 OS是不可靠的，因不同试验在患者选择、标准治疗（ Standard of Care, SOC）以及最佳支持治疗（ Best Supportive Care, BSC）等方面均可能存在异质性，因此在单臂试验中应谨慎使用和解读 OS。

（二）客观缓解率（ORR）

对于许多肿瘤类型，可以直接利用肿瘤影像学进行疾病评估，受试者的治疗策略通常基于肿瘤测量结果和临床症状。客观缓解率是指按照公认的缓解评价标准（如实体瘤 RECIST 1.1版），肿瘤体积缩小达到预先规定值并能维持最低时限要求的患者比例，它是基于肿瘤测量的最普遍的终点。实体瘤的缓解可以是完全缓解（Complete Response, CR）或部分缓解（Partial Response, PR）,对于非实体瘤的评估则有一些其它评价标准。单独使用 ORR可能无法充分描述试验药物的抗肿瘤活性，故需要同时描述性分析缓解持续时间（即从初始肿瘤缓解到疾病进展或任何原因导致死亡的时间，以先发生者为准）和至缓解时间。对于通过稳定疾病病情使患者临床获益的药物，也可以分析疾病控制率（ Disease Control Rate,DCR），该指标不仅考虑疾病缓解病例，还包括疾病维持稳定状态持续一定时间的病例。肿瘤大小随时间相对于基线的变化通常被视为连续变量，可利用瀑布图进行描述，帮助评估抗肿瘤活性。对于拟进行注册的试验（单臂或随机对照），肿瘤评估通常基于盲态独立中心审查委员会（Blinded Independent Central Review, BICR）的肿瘤测量和缓解评估。如 ORR是主要疗效终点，初始缓解通常需要在后续的评估中确认。在临床实践中应考虑 BICR和研究者评价不一致情况，因为研究者的评价结果会影响受试者的后续治疗，而这可能会对 ORR分析带来偏倚。与 OS一样，ORR一般也应基于 ITT的原则进行分析。在 ITT分析中，对于第一次肿瘤评估之前退出试验的受试者，不论何种退出原因，都被认为是非缓解者。ITT分析可以使当前试验结果与历史对照结果的比较更可靠，因为后者通常基于确证性试验中的 ITT人群。原则上，缓解评估应基于与历史对照相同的缓解标准才具有可比性。如果由于历史原因不能使用相同的缓解标准时,需关注当前标准与历史标准的不同带来的影响。

（三）无进展生存期（PFS）

无进展生存期是指从随机化开始（或单臂试验中治疗开始）至肿瘤进展或任何原因导致死亡（以先发生者为准）的时间。与 PFS类似的终点还包括无病生存期（Disease Free Survival, DFS），是指从随机化开始（或单臂试验中治疗开始）至疾病复发或任何原因导致死亡的时间（以先发生者为准），多用于评价手术治疗或放疗后的辅助治疗。无事件生存期（Event Free Survival, EFS）是指从随机化开始（或单臂试验中治疗开始）到首次发生以下任何事件的时间：疾病进展而无法进行手术治疗、局部或远处复发、任何原因导致的死亡等，多用于评价手术治疗或放疗前的新辅助治疗。类似的终点还包括至疾病进展时间（Time To Progression, TTP）和至治疗失败时间（Time To Treatment Failure, TTF），这两种终点的分析通常考虑为敏感性分析，其结果不能作为确证性研究结论的主要证据，可以用于支持主要终点 PFS的结果。

肿瘤进展的确切定义对基于肿瘤测量的终点至关重要，应事先在方案中予以明确，与 ORR一样，进展的定义应遵循既定的缓解评估标准。PFS在单臂试验中难以解释，例如一些受试者即使没有积极治疗也可能维持很长时间的病情稳定，因此，以 PFS为主要终点的注册试验应设置对照组。在随机双盲对照试验中，可依据安全性特征和肿瘤临床评估实践来决定是否需要 BICR，但应保存肿瘤影像学资料以便稽查和核查。

区间删失，即疾病进展发生在肿瘤评估时间点的区间中，是PFS分析所面临的一个挑战性问题。在肿瘤评估时，根据相关标准判断为疾病进展实际上仅意味着在上一次评估和当前评估的某个时间点发生了进展。由此导致的结果是 PFS的判定受到评估时间设计的影响。如果试验组和对照组的评估时间间隔不同，则 PFS中位生存期的比较将会被引入偏倚。尽管基于区间删失的分析方法能在一定程度上考虑个体间采用不同评估时间设计对 PFS的影响，但是为提高估计的准确性，降低分析和结果解释的复杂性，应该采用相同评估时间的设计。

信息删失，即真实的疾病进展信息无法得到，是 PFS分析的另一个更具挑战性的问题。信息删失可能由多种原因导致，常见的有四种：①尽管没有疾病进展的证据，但受试者可能在试验期间使用了其它某种抗肿瘤治疗而违背了方案；②受试者可能基于研究者的进展判断而终止治疗，但评估结果被 BICR否定；③受试者可能在没有任何疾病进展的证据下因毒性而终止治疗，如果肿瘤评估因此停止，其真实结果将是未知的；④由于基础疾病的恶化，受试者的实际评估时间可能偏离计划时间。对 PFS的分析应遵循 ITT原则。如果在计划外评估期间监测到进展，则应根据记录的进展时间作为进展日期，而不是基于计划的评估时间。分析时应确保使用所有受试者（包括那些终止治疗而没有记录进展的受试者）最新的肿瘤评估信息。删失时间和原因分析可能有助于揭示两个治疗组之间的随访失衡。研究者和 BICR对疾病进展评估的差异性是 PFS分析中的重要问题。对 PFS分析时，应常规对此差异性进行分析，并评价其在组间是否平衡。生存数据分析的统计方法在很大程度上依赖于非信息删失假设的有效性，当怀疑其有效性时，建议进行相应的敏感性分析。例如，针对上述导致信息删失的前两种原因，把进展的定义改为与临床判断更接近的治疗失败的敏感性分析。

PFS通常被视为右删失时间-事件变量，并采用与 OS相同的方法进行分析。但要注意，在有些试验中，用中位 PFS估计值解释药物疗效可能是有问题的。例如，两个治疗组的风险比反映了较大的治疗效果，但其中位 PFS可能大致相同。受试者遵循的相同评估时间表也会导致相同的事件时间，在 Cox回归模型下估计治疗效果时，推荐使用精确（或近似精确）方法处理相同的事件时间。样本量计算时，应该注意由于区间删失而导致的信息丢失，因为将 PFS视为右删失时间-事件变量的传统做法可能会高估检验效能。相对于至疾病进展时间，当评估时间间隔较长时，PFS的这个问题更为明显。

（四）患者报告结局（PRO）

患者报告结局是直接来自患者的关于其症状、健康相关生活质量、治疗依从性以及治疗满意度的报告。虽然在抗肿瘤药物临床试验中收集 PRO数据越来越常见，但此类测量指标在评价方面尚存在诸多问题，如使用量表的信度、效度和反应度等。此外，PRO测量指标还容易受到缺失数据的影响，应该采用合适的方法处理缺失数据。因此该指标较少作为上市申请的主要证据。为了更好地理解试验结果的相关性，建议对 PRO与其他疗效终点指标的关系进行探索。

三、探索性试验

（一）剂量探索设计

I期抗肿瘤药物临床试验通常是试验药物首次进入人体（First in Human, FIH）的试验。I期临床试验剂量递增的原则是尽可能避免受试者不必要地暴露于低于或高于治疗剂量的治疗（即尽可能多地在治疗剂量范围内治疗受试者），同时保证安全性和快速入组。I期临床试验的剂量递增方法分为两大类：一是基于规则的设计，包括传统的 3+3设计及其衍生设计，不依赖于统计建模；二是基于模型的设计，如连续重新评估方法（Continuous Reassessment Method,CRM）。一些新兴的模型辅助方法如改良毒性概率区间（Modified Toxicity Probability Interval, mTPI）设计和贝叶斯最优区间（Bayesian Optimal Interval, BOIN）设计，虽然基于模型而建立，但这些方法预先指定剂量递增的规则，而且易于实施，具有选择目标毒性概率和队列大小的灵活性，还具有与基于模型的设计相当的性能。为了尽可能减少接受可能低于治疗剂量的受试者人数，I期剂量探索可从加速滴定设计开始，加速滴定部分通常在每个剂量水平招募 1-3名受试者，并以发生 2级或更高的非疾病相关毒性事件作为结束。加速滴定部分结束后，将采用正式的剂量递增方法进行剂量探索。在某些情况下，也可考虑采取患者内剂量递增（即受试者在后续治疗周期中的剂量水平高于其在第一个周期接受的剂量），但通常会导致第一个周期之后的安全性和耐受性数据难以解释。对于确定为候选 II期推荐剂量（Recommended Phase 2 Dose, RP2D），应有足够数量的受试者接受了该剂量治疗。

（二）单臂试验和首次人体队列扩展

在抗肿瘤药物研发中，有时会在剂量探索阶段结束后在一个或多个肿瘤适应症中开展单臂试验，以进一步探索药物的安全性并初步研究药物的有效性。这些肿瘤适应症队列可以由同一治疗线次的不同肿瘤类型，或同一肿瘤类型的不同治疗线次，或两者的组合形成。队列中的受试者可以接受试验药物作为单药治疗或联合治疗（如与标准治疗或另一种试验药物联合）。单臂试验的研究方案应当包含足够的信息，以说明其基于队列研究目的所确定的样本量估计的合理性。在非随机队列中，抗肿瘤活性的评估通常采用多阶段设计来确定，以限制暴露于无效药物的患者数量。方案还应提供关于是否暂停入组的详细信息以及受试者参加期中分析的最短随访时间。若需要比较不同给药方案（如两种候选 RP2D，或单药疗法和联合疗法）之间的安全性和抗肿瘤活性，则需开展更严格统计设计的随机队列。

若在 FIH研究中开展单臂试验设计，开始时可能缺乏关于试验药物代谢动力学的足够数据，或未进行足够的安全性评估，此时如果快速入组，特别是在有令人兴奋的初步信号时，可能使大量受试者暴露于疗效未知和毒性特征不清楚的药物。为了减轻这种风险并保护受试者，申办者必须建立一套完善的操作流程，以方便数据收集，实时快速地评估新数据，向研究者、机构审查委员会（Institutional Review Board, IRB）及时公布期中分析结果。申办者应根据期中分析结果和统计分析计划中预定的决策规则，尽早暂停或结束抗肿瘤活性不足或安全性水平不可接受的队列入组，或提早终止失败的研究项目。

对于拟进行注册的扩展队列研究，应明确区分用于建立药物活性假设的患者群体和用于确认该假设的患者群体。为了达到验证试验假设的目的，建议对用于确认假设的患者群体开展独立的临床试验，特别是当 FIH研究已对研究人群和样本量进行过多次变更时。如果试验未设置阳性对照组，则其数据必须非常有说服力，才能确证药物的有效性。因此，在设计单臂试验用于注册为目的时，需对已有数据证据和其样本量估算进行非常谨慎的评估。对于两种新型试验药物联合治疗的研究，除非对每种药物的贡献都有很好的理解，且能合理分离每种药物的单独贡献，否则不宜采用单臂试验。

四、确证性试验

（一）一般考虑

在设计确证性试验时，申办者应根据临床试验的目的明确要估计的治疗效应。申办者在方案中应阐明研究人群、终点指标、治疗方案，应考虑试验过程中可能发生的影响治疗效应估计的伴发事件，如死亡、转组等，群体层面的汇总统计量、统计模型以及相应的敏感性分析也均应事先定义。虽然减少研究人群的异质性可能会提高统计检验效能，但对目标人群的限制会使新药在实际应用中的效果难以评估。应基于证据选择最佳可用的治疗作为对照，因此，根据情况一般可以选择 BSC、SOC或研究者选择性治疗作为对照。盲法设计是确证性试验控制偏倚的重要手段之一。如果临床试验只能使用开放设计（如因不同药物间毒性特征差异明显而使用开放设计），必须采取所有可能的措施来控制潜在的偏倚，比如对申办者试验团队遮蔽关键数据。无论采用开放设计还是双盲或单盲设计，对于重要且潜在的可能影响药物疗效的基线协变量，建议在随机化时予以考虑，对基线协变量的校正分析应在方案以及统计分析计划中事先规定。当使用预测生物标志物进行分层时，必须预先规定生物标志物及其确定生物标志物状态（阳性或阴性）的阈值，且阈值的确定方法必须经过科学验证并得到公认。确证性试验的整体 I类错误率必须严格控制在一定水平。如果研究的主要目的中包括对多个人群（例如生物标志物阳性人群和所有患者人群）或多个终点（例如 OS、PFS和 ORR）进行假设检验时，或者计划实施因有效而提前终止试验的期中分析时，应选择合适的多重性控制策略，并在方案以及统计分析计划中事先进行详细规定。计划因有效而提前终止试验的同时需要考虑安全性评价数据的充分性。确证性试验设计对统计学考虑要求较高，申办者应根据试验设计复杂度就确证性临床试验方案以及统计分析计划中关键技术问题与审评机构开展沟通交流。

（二）试验设计

传统的研究设计用于抗肿瘤药物临床试验时，可参考如 ICH E9等相关的指导原则。随着抗肿瘤药物研发的快速发展，一些新颖的试验设计在确证性试验中得以合理应用，包括适应性无缝剂量选择的设计、两阶段适应性设计、富集设计和主方案设计等，大大提高了临床研发的效率。

1. 成组序贯设计

成组序贯设计通常用于按时间顺序进行的数据监测或对累积的数据进行统计推断。在设计成组序贯试验时，申办者应仔细考虑计划进行的期中分析次数和时间点，以及合适的 α消耗函数。对于因有效性而提前停止的试验，鼓励申办者继续随访试验直至数据成熟，以更好地了解试验药物的长期临床获益。当期中分析或最终分析的时间点是由事件驱动时，主要数据集的确定应基于达到目标事件数量时的截止日期。在揭盲分析之前应确保在盲态状态下完成数据的收集和清理。由于可能存在收集偏倚，揭盲之后收集的数据将受到严格审查，甚至从分析集中排除。

2. 两阶段适应性设计

传统药物研发遵循先进行 II期试验，再进行 III期试验的序贯方法。II期试验用于临床概念验证、剂量选择、人群选择甚至终点选择。在获得 II期数据后会决定是否开始 III期研究。III期试验需要时间来计划、启动和实施。适应性无缝 II/III期设计作为两阶段适应性设计中的一个特例，试图消除 II期和 III期试验之间的空白期。可以采用操作无缝设计，将 II期试验受试者排除在主要分析之外，也可以采用推断无缝设计，在主要分析中纳入 II期试验受试者。前者不需要对 I类错误的控制进行多重性调整，但对于后者，则可能需要根据适应性的性质和假设检验策略做出相应的调整。在决定采取无缝设计而不是序贯设计之前，应考虑两个重要因素。首先，从 II期试验无缝过渡到 III期试验时有足够的信息来支持合理决策。这通常取决于参与 II期数据分析的受试者人数以及 II期试验采用的终点指标是否对决策有帮助。第二，操作层面上可以顺利实施。无缝设计要求能够迅速地对数据进行清理和分析，快速增加 III期入组人数，并能够加快药物上市的进程。决定采用操作无缝设计或者推断无缝设计的关键考虑因素在于 II期试验中适应性决策的复杂性。一般来说，和操作无缝设计不同，II期和 III期试验结果之间的一致性对推断无缝设计来说更为重要。虽然适应性无缝 II/III期设计在加速药物研发方面具有很好的前景，但在采取此策略之前，需要全面权衡不同方法的优缺点。在开始试验之前，需要解决试验设计、操作和统计分析等方面的问题，并与监管部门进行沟通。

3. 富集设计

为了优化试验药物的获益-风险特征，确定适当的目标人群至关重要。合适的生物标志物可以通过各种不同的诊断方法（如转录物的表达谱分析、差异抗原表达、遗传诊断，包括下一代测序等）来识别和测量。由于多种可能性的存在，判断哪些生物标志物可以预测药物活性，以及如何在早期开发过程中确定生物标志物的阈值仍是一个挑战。为减少选择偏倚，应事先将研究受试者分成两组，并指定用于发现和确认生物标志物的训练集和验证集。每次调查新的生物标志物时，都需要重复这个产生和检验假设的过程。基于单臂试验发现的预测型生物标志物，不论其研究实施得如何严格，实际仍存在只是一种预后型生物标志物（可采用前瞻性流行病学研究以评估其预后效果）或者是仅能预测短期肿瘤反应的生物志记物（需要进行更长时间的随访）的可能。在随后的确证性试验设计中，必须考虑到上述不确定性。例如，当涉及到两个亚组人群之间的 α分配时，若采取向下（step-down）法，则需要确定检验的层级性，而前期数据对此无法提供充分支持，此时最好能选取更恰当的方法进行 α分配。此外，对于 I类错误率控制的考虑，在涉及人群选择和试验扩展的统计设计中会更加复杂。在正式开展试验前，应衡量各种设计方案的利弊，并妥善解决监管部门所关注的问题。

4. 主方案设计

在单一方案下同时检测多种试验药物和/或多个肿瘤适应症，且无需为每次试验制定新方案的试验设计，称为主方案设计。它包括篮式设计、伞式设计和平台设计。在有或无生物标志物富集的患者人群中同时研究一种试验药物在多个肿瘤适应症中的试验，被称为篮式试验。确证性篮式试验的主要研究人群通常包括具有独特分子标记的患者。考虑到无效的肿瘤队列可能会稀释整体治疗效果，因此肿瘤适应症的初步选择必须基于重要的科学和临床证据，以便为数据合并奠定坚实的基础，降低试验失败的风险。基于期中分析数据将疗效较差的肿瘤队列从最终的合并分析中去除可以进一步将风险降至最低，但可能会导致整体 I类错误控制方面的问题，需要进行适当的多重性调整。去掉无效队列后，剩余肿瘤队列的样本量也将进行重新调整，以维持最终合并分析的统计效能。合并分析前还要考虑队列间的异质性。在这种情况下，样本量重新调整策略必须事先制定并与监管部门达成一致。如果 I类错误能够得到适当控制，确证性篮式试验也可以考虑其它如贝叶斯等设计方法。无论采用哪种设计方法进行篮式试验，在合并分析中拒绝全局原假设并不意味着试验药物在所有参与合并分析的肿瘤适应症中同样有效，也不意味所有适应症均应获得批准。就基线特征对治疗效果的影响而言，与传统的 III期试验相似，监管部门基于确证性篮式试验做出是否批准药物上市或同意说明书范围的决定将取决于额外分析的结果（例如合并分析中的治疗效果是否主要由某特定肿瘤适应症子集所决定，试验药物的获益-风险特征在单个肿瘤队列中是否有利）。另外也可能需要通过上市后研究进一步证实临床获益。作为篮式试验的补充，伞式试验可以在同一肿瘤适应症中同时研究多种试验药物。伞式试验中试验药物可以持续的加入或移出。当有多个试验组（或药物队列）开放入组时，应该采用随机化设计。随机化比率可以根据试验中新出现的数据进行调整，以倾向于更有前景的治疗组，并提前终止无效治疗组。由于试验药物的研究是在同一个平台上进行，且通常在某些特定的研究中心开展，因而不同药物队列之间患者群体的异质性可能较小，试验药物之间的比较也会比单独研究的结果更可信。随机对照伞式/平台试验可看作一种特殊类型的多臂 III期试验，因此可遵循相同的原则进行多重性调整。如果试验的重点在于分别回答每一种治疗的疗效问题，而不是为了得到总体疗效的单个结论声明，则与单独的对照试验相比，采用共同对照的伞式/平台试验的总体 I类错误率总是更低，原则上不需要进行多重性调整。但是，如果试验中包含了同一治疗的不同剂量组，则必需进行多重性调整以回答该治疗的疗效问题。若试验中同时采用了响应适应性随机化或其他适应性设计，多重性问题的控制将更为复杂。在随机对照伞式/平台试验中，试验组和对照组之间的主要比较一般应基于同期参加试验被随机分配的受试者。

五、参考文献

1. Bretz F, Maurer W, Brannath W, et al. A graphical approach to sequentially rejective multiple test procedures[J]. Statistics in medicine, 2009, 28(4): 586-604.

2. Chapman P B, Hauschild A, Robert C, et al. Improved survival with vemurafenib in melanoma with BRAF V600E mutation[J]. New England Journal of Medicine, 2011, 364(26): 2507-2516.

3. Chen C, Li X N, Li W, et al. Adaptive expansion of biomarker populations in phase 3 clinical trials[J]. Contemporary clinical trials, 2018, 71: 181-185.

4. Freidlin B, Simon R. Adaptive signature design: an adaptive clinical trial design for generating and prospectively testing a gene expression signature for sensitive patients[J]. Clinical cancer research, 2005, 11(21): 7872-7878.

5. Garrett-Mayer E. The continual reassessment method for dose-finding studies: a tutorial[J]. Clinical trials, 2006, 3(1): 57-71.

6. Hobbs B P, Barata P C, Kanjanapan Y, et al. Seamless designs: current practice and considerations for early-phase drug development in oncology[J]. JNCI: Journal of the National Cancer Institute, 2019, 111(2): 118-128.

7. Howard D R, Brown J M, Todd S, et al. Recommendations on multiple testing adjustment in multi-arm trials with a shared control group[J]. Statistical methods in medical research, 2018, 27(5): 1513-1530.

8. ICH. E9(R1) Addendum on estimands and sensitivity analysis in clinical trials to the guideline on statistical principles for clinical trials. 2019.

9. Ji Y, Liu P, Li Y, et al. A modified toxicity probability interval method for dose-finding trials[J]. Clinical trials, 2010, 7(6): 653-663.

10. Kang S P, Gergich K, Lubiniecki G M, et al. Pembrolizumab KEYNOTE-001: an adaptive study leading to accelerated approval for two indications and a companion diagnostic[J]. Annals of oncology, 2017, 28(6): 1388-1398.

11. Mandrekar S J, Sargent D J. Clinical trial designs for predictive biomarker validation: theoretical considerations and practical challenges[J]. Journal of clinical oncology, 2009, 27(24): 4027.

12. Mayawala K, Tse A, Rubin E H, et al. Dose finding versus speed in seamless immune-oncology drug development[J]. The journal of clinical pharmacology, 2017, 57: S143-S145.

13. Proschan M A, Follmann D A. Multiple comparisons with control in a single experiment versus separate experiments: why do we feel differently?[J]. The american statistician, 1995, 49(2): 144-149.

14. Schwartz L H, Litière S, de Vries E, et al. RECIST 1.1—update and clarification: from the RECIST committee[J]. European journal of cancer, 2016, 62: 132-137.

15. Seymour L, Bogaerts J, Perrone A, et al. iRECIST: guidelines for response criteria for use in trials testing immunotherapeutics[J]. The lancet oncology, 2017, 18(3): e143-e152.

16. Sun L Z, Kang S P, Chen C. Testing monotherapy and combination therapy in one trial with biomarker consideration[J]. Contemporary clinical trials, 2019, 82: 53-59.

17. Yuan Y, Hess K R, Hilsenbeck S G, et al. Bayesian optimal interval design: a simple and well-performing design for phase I oncology trials[J]. Clinical cancer research, 2016, 22(17): 4291-4301.

18. Zhou H, Yuan Y, Nie L. Accuracy, safety, and reliability of novel phase I trial design[J]. Clinical cancer research, 2018, 24(18): 4357-4364

附录：中英文词汇对照

中文	英文
盲态独立中心审查委员会	Blinded Independent Central Review, BICR
部分缓解	Partial Response, PR
患者报告结局	Patient Reported Outcome, PRO
机构审查委员会	Institutional Review Board, IRB
疾病控制率	Disease Control Rate, DCR
客观缓解率	Objective Response Rate, ORR
首次人体	First in Human, FIH
推荐 II期剂量	Recommended Phase 2 Dose, RP2D
完全缓解	Complete Response, CR
无病生存期	Disease Free Survival, DFS
无进展生存期	Progression Free Survival, PFS
无事件生存期	Event Free Survival, EFS
至疾病进展时间	Time to Progression, TTP
至治疗失败的时间	Time to Failure, TTF
总生存期	Overall Survival, OS
最佳支持治疗	Best Supportive Care, BSC

NMPA

药物临床试验协变量校正指导原则

一、概述

在随机对照临床试验中，除处理因素以外还存在其他协变量，如果在试验设计时不进行有效控制，或在统计分析时不进行合理的校正，则可能使检验效能降低，或使疗效估计产生偏倚。因此，在随机对照临床试验中对于协变量的处理应予以慎重考虑。

本指导原则中，协变量是指在干预之前（通常是在随机化之前）观测到的，并且预期与主要研究结果有关联的变量。校正协变量的意义是使得对于任意一个受试者，随机分组到试验组或对照组的预期疗效差异与协变量的观测值无关。由于随机分组的原因，随机对照试验中的各个协变量的取值在试验组与在对照组的概率分布是相同的，而任何观测到的分布不均衡都应归结于随机抽样误差。因此，随机对照试验中协变量校正的主要目的是减少终点变量中与处理因素无关的冗余变异从而使疗效估计更加精确。协变量可以是连续型的、有序分类的或无序分类的。人口统计学指标（如年龄或体重）、疾病特征（如病程或严重程度）、预后因素、病理学结果、生理学因素、遗传因素、社会学因素（如经济状况、职业、教育水平），以及研究中心或研究者等都可能是协变量。同时，主要疗效指标的基线值也可能是非常重要的协变量。

在临床试验中，为了保证入组受试者对于目标人群的代表性，试验受试者的协变量通常对应一定的取值范围。当存在对终点变量影响较大的协变量时，终点变量的变异度会增加，导致疗效估计误差增大、相关假设检验的效能降低。因此，如何识别并控制潜在的协变量，更科学理地分析处理因素与终点变量间的效应关系是临床试验中的关键问题。

本指导原则旨在阐明确证性随机对照临床试验中协变量的处理原则，并为试验设计、统计分析、临床试验报告中如何处理和解读重要的协变量提供建议。

二、试验设计中有关协变量的考虑

在临床试验中，有关协变量控制和校正的考虑起始于试验设计阶段，并需要在研究方案中事先确定。实际临床试验中可能有很多协变量与主要研究结果有关，因此在试验设计时需要识别重要的、具有生物学意义和临床意义的协变量，并在随机分组时加以控制，在统计分析时加以校正。

（一）常见的重要协变量

1. 与终点指标关联性较强的协变量

如果协变量与主要终点指标有较强的关联性，协变量的变异以及抽样误差更有可能影响终点变量，造成疗效估计的误差增大以及相应的统计学检验效能降低。因此，通常需要将该协变量引入疗效分析的统计学模型中以提高疗效估计的精度。例如，某病情评估指标属于反映受试者的病情严重程度的连续型变量，并且在基线和干预后均有观测。无论疗效的评估是基于该指标在治疗终点时的实际取值，还是治疗终点时较基线的取值变化，评估结果均与基线取值有较强的关联性。此时，该疾病评估指标的基线取值应纳入统计分析模型中，以在疗效估计时进行相应的协变量校正。

当协变量的变异度较大时，可能导致疗效估计的精度下降，也可能使疗效估计产生偏倚。因此，可以事先考虑把预期变异较大的协变量引入疗效估计的统计分析模型中，以校正协变量对疗效估计带来的潜在影响。

2. 中心因素

在多中心随机对照临床试验中，各研究中心在临床实践、试验条件、受试者基线特征等方面可能存在不同程度的差异，而这些因素可能与终点指标相关，故而在多中心临床试验中通常会选择中心因素作为需要校正的协变量。特别是在国际多区域临床试验中，不同区域的受试者可能存在种族、文化、饮食习惯、临床实践等方面的差异。区域因素通常综性地包含这些特征和信息，可以考虑以国家或区域分类作为中心因素进行校正。当试验中心数量较多时，单个中心预期入组病人数量可能非常有限，此时以中心为协变量进行校正通常会带来模型估计和结果解读方面的挑战。此时，可以考虑不对中心因素进行协变量校正，或按预先定义的方式合并中心（或国家/地区）后进行校正。

（二）随机化的分层因素

在随机对照临床试验中，针对与终点变量有较强关联性的协变量，采用分层随机的方法将受试者分配到不同治疗组中，以进一步降低组间协变量的不均衡和控制偏倚。分层因素建议不宜过多，并且通常需要在统计分析模型中加以校正。

（三）对协变量数量的控制

如果在统计分析模型中纳入过多的协变量，特别是与终点变量关联性不大或者相互之间相关性很强的协变量，可能导致协变量某些取值组合情况下的样本量很少。这种情况下，经过协变量校正的疗效估计可能产生偏倚，检验效能出现下降，甚至可能导致模型的过度拟合、模型信息矩阵奇异等问题，给统计分析结果的科学性、可靠性和可解释性提出挑战。因此应在试验设计阶段尽可能地选取具有临床意义、与试验终点变量相关性强的关键协变量，以控制纳入统计分析模型的协变量个数。事实上，在随机对照临床试验中，除了分层因素等常规需要校正的协变量外，纳入统计分析模型的协变量数量建议尽可能少。

三、校正协变量的统计分析方法

在随机对照临床试验中，通常基于终点变量的类型选择不同的校正协变量的统计分析方法。例如，对于连续型疗效终点变量，协变量校正可以采用线性模型；对于时间-事件（time to event）型终点变量，协变量的校正可以采用Cox比例风险模型；对于二分类疗效终点变量（如有效/无效），每个组别的汇总统计量可以为率（如有效率），评估两组差异的统计量（以下简称为评估统计量）可以是处理组之间的率差、率比或率的优势比（Odds Ratio, OR），不同类型的评估统计量需用不同的协变量校正的统计学模型，例如logistic回归模型可以用于评估统计量为 OR 的协变量调整。

校正协变量的统计模型通常基于一系列的假设，因此需要关注模型的适用性要求，还需对模型的假设是否成立进行预先判断。例如，协方差分析模型需要进行残差分析和方差齐性评估，而Cox模型需要考虑比例风险模型的假定是否满足等。如果所选分析模型的假设不成立，可能导致对治疗效果的错误估计。

四、结果的报告和解读

除了在研究设计时采用分层随机控制协变量，在分析时用适的方法对协变量进行校正以外，在研究总结报告中还要注意正确解释协变量对主要分析结果的影响，评价主要结论的稳健性，并且在试验报告中进行充分讨论。

（一）基线变量的特征分析

在随机对照试验中，一般需要报告各处理组的基线变量特征。由于是随机分组，基线变量的组间差异来自于随机误差。因此基线数据的分析和报告通常基于各处理组的描述性统计，而不进行假设检验或统计推断。

如果出现非预期的基线变量在各处理组间明显不均衡的情况，这可能影响疗效的估计。此时，可以考虑在统计分析计划内容以外增加补充分析对该协变量进行校正，进一步评估主要分析结果的稳健性。

（二）分析方法对结果解读的影响

协变量校正会基于特定的统计模型，因此分析结果的解读应结合模型假设的合理性。若发现对模型假定有较大的偏离，需在研究总结报告中予以描述，同时采用其它模型进行补充分析以支持主要分析结果的稳健性。

（三）校正与未校正协变量的分析

在随机对照临床试验中，通常根据研究目的和协变量特征确定将校正协变量的分析方法预设为主要分析方法，未采用校正协变量的方法作为敏感性分析。当校正和不校正的结论不一致时，则需要进行进一步的深入探讨。

（四）协变量与处理因素交互作用的探查

一般情况下，确证性临床试验的主要目的是衡量处理在目标人群中的整体效应。主要分析中通常不会纳入协变量与处理因素的交互作用项，而在敏感性分析中可以考虑对协变量与处理因素的交互作用进行统计分析。

事实上，除非在设计时有针对性的考虑，临床试验往往都不具有足够的检验效能对协变量和处理因素的交互作用进行检验。因此对于交互作用的检验即使没有统计学意义也不足以完全证明分层亚组间疗效的一致性。如果协变量和处理因素存在具有统计学和临床意义的交互作用，这说明疗效可能在分层人群中有所不同，这种情况下，需从临床角度探讨交互作用的潜在来源、对主要分析结果的影响，并对基于主要分析的结论予以谨慎解释。

附录：词汇表

词汇	解释
协变量（Covariate）	在干预之前（通常是在随机化之前）观测到的，并且预期与主要研究结果有关联的变量。
多区域临床试验（Multi-regional clinical trial, MRCT）	一项按照单个方案在多个地区实施的临床试验。
分层随机（Stratified randomization）	依据关键因素（如年龄、性别、种族、疾病状态等）对研究对象进行分组（层），然后在每层内分别进行的随机化。分层随机可以有效地提高在关键因素或者特别关注的研究对象亚组中分布的平衡性。用于定义分层的因素称为分层因素。
过度拟合（Over-fitting）	在数据分析（如建模）中过于精确的契或匹配某一数据集，导致分析结果与额外的观测数据不匹配或者无法可靠地预测未来的观测结果。
交互作用（Interaction）	当某一个因素（协变量）对于结局变量的影响随另一因素变化而变化时，则称这两个因素之间存在交互作用。

附录：中英文对照

中文	英文
过度拟合	Over-fitting
交互作用	Interaction
分层随机	Stratified randomization
协变量	Covariate
抽样误差	Sampling error
偏倚	Bias
敏感性分析	Sensitivity analysis

参考文献

[1] Altman D, Dore C. Randomization and baseline comparisons in clinical trials. The Lancet, 1990, 335(8682):149-53.

[2] Beach M L, Meier P. Choosing covariates in the analysis of clinical trials. Controlled Clinical Trials, 1989, 10(4):161-175.

[3] Committee for Proprietary Medicinal Products (CPMP), Points to consider on adjustment for baseline covariates. Statistics in Medicine, 2004, 23:701-709.

[4] D. Tu, K. Shalay, and J. Pater. Adjustment of treatment effect for covariates in clinical trials: statistical and regulatory issues. Drug Information Journal, 2000, 34:511-523.

[5] EMA. Guideline on adjustment for baseline covariates in clinical trials. 2015.

[6] FDA. Adjusting for Covariates in Randomized Clinical Trials for Drugs and Biologics with Continuous Outcomes. Guidance for Industry (DRAFT GUIDANCE). 2019.

[7] G. Raab, S. Day, and J. Sales, How to select covariates to include in the analysis of a clinical trial. Controlled Clinical Trials, 2000, 21:330-342.

[8] S. Assmann, S. Pocock, L. Enos, and L. Kasten, Subgroup analysis and other (mis)uses of baseline data in clinical trials. The Lancet, 2000, 255:1064-1069.

[9] Senn S. Covariate imbalance and random allocation in clinical trials. Statistics in Medicine, 1989, 8(4):67–75.

[10] Tukey J W. Use of Many Covariates in Clinical Trials. International Statistical Review, 1991, 59(2):123-137.

[11] 赵耐青，陈峰. 基线与协变量. 临床试验统计学（第十三章）. 人民卫生出版社. 2018. 202-210.

NMPA

药物临床试验多重性问题指导原则（试行）

一、概述

临床试验中普遍存在多重性问题，它是指在一项完整的研究中，需要经过不止一次统计推断（多重检验）对研究结论做出决策的相关问题。例如，多个终点（如主要终点和关键次要终点）、多组间比较、多阶段整体决策（如以有效性决策为目的的期中分析）、纵向数据的多个时间点分析、亚组分析、同一模型不同参数组合或不同数据集的分析、敏感性分析等。对于确证性临床试验，将总 I 类错误率（FWER）控制在合理水平是统计学的基本准则。上述多重性问题有的可以导致FWER膨胀，有的则不会。对于前者，需要采用恰当的策略与方法将FWER控制在合理水平，这一过程称为多重性调整；对于后者，则无需多重性调整。因此，在制订临床试验方案和统计分析计划时，采用恰当的策略与方法控制FWER是非常重要的。

本指导原则主要阐述常见的多重性问题和相应的决策策略，介绍常用的多重性调整方法和多重性分析方法，旨在为确证性药物临床试验中如何控制FWER提供指导意见，所讨论的一般原则也适用于其它类型的临床研究。

二、多重检验中的I类错误、总I类错误率和II类错误

（一）I类错误和总I类错误率

I类错误是指原假设（或称无效假设）正确但检验结果拒绝了原假设的错误，相当于把实际上无效的药物经统计推断得出有效结论的错误。其概率需控制在某一水平，该水平称为检验水准，或称显著性水准，用α表示；对于多重检验中某一假设检验的检验水准称之为名义检验水准，又称局部检验水准，用α_i表示。

总I类错误率是指在同一临床试验所关注的多个假设检验中，至少一个真的原假设被拒绝的概率。不论多次假设检验中哪个或哪些原假设为真，都能将FWER控制在α水平，称为强控制FWER；在所有原假设都为真的条件下，将FWER控制在α水平，称为弱控制FWER。弱控制FWER只能得出整体性结论，而不支持其中单个假设检验的结论，故在确证性临床试验中的应用意义不大。本指导原则所描述的“控制FWER”均指强控制 FWER。

（二）II类错误

II类错误是指原假设不正确，但检验结果未能拒绝原假设的错误，相当于把实际上有效的药物经统计推断得出无效结论的错误，其概率用β表示，相应地1-β称为检验效能。对于确证性临床试验，在I类错误得到有效控制的前提下，II类错误的风险也需要注意。对于需要调整的多重检验，由于控制FWER降低了多重检验中单个假设检验的α，相应地也降低了检验效能。因此，当涉及多重性调整时，制定研究计划应考虑控制FWER对检验效能的影响，例如通过适当增加样本量以保证足够的检验效能。

三、常见的多重性问题

临床试验中常见的多重性问题一般体现在多个终点、多组间比较、亚组分析、期中分析、纵向数据不同时间点的分析等方面。

（一）多个终点

1. 主要终点

主要终点是指与临床试验所关注的主要问题（主要目的）直接相关的、能够提供最具临床意义和令人信服的证据的终点，常用于主要分析、样本量估计和评价试验是否达到主要目的。确证性临床试验中，单一主要终点较为常见，但某些情况下会涉及多个主要终点，对于多个主要终点的研究，通常有两类研究假设，即多个主要终点均要求显著和多个主要终点中至少有一个显著。

（1）多个主要终点均要求显著

即要求所有主要终点均显著时才认为研究药物有效（此种情况常称为共同主要终点）。例如，在一项治疗慢性阻塞性肺病的确证性临床试验中设置两个单独的主要疗效终点，第 1 秒用力呼气量和患者报告症状评分，决策规定两个主要终点均显著才可推断研究药物有效。在此情况下，不会导致FWER膨胀，因为这种策略没有机会选择对研究药物最有利的某个或某几个主要终点，只有一种可能得出药物有效的结论（即两个原假设都被拒绝）。但是，这会增大 II 类错误和降低检验效能。检验效能降低的程度与主要终点的个数和主要终点之间的相关性有关，个数越多、相关性越弱，检验效能降低的幅度越大。

（2）多个主要终点中要求至少一个终点显著

即至少一个主要终点显著时就认为研究药物有效。例如，某一确证性临床试验旨在验证一种治疗烧伤伤口的药物，设置两个单独的主要终点：伤口闭合率和瘢痕形成，临床试验方案规定只要其中一个终点显著，或两个终点都显著，就可认为该药物整体临床有效。此种情况下会导致FWER膨胀，因为得出药物有效的结论包括以下三种可能的组合：①伤口闭合率显著而瘢痕形成不显著；②伤口闭合率不显著而瘢痕形成显著；③伤口闭合率和瘢痕形成都显著。由于多个主要终点中至少有一个终点显著的组合不尽相同，是否会导致FWER膨胀应视具体的研究假设而定。

2. 次要终点

临床试验的次要终点通常有多个，多数情况下它们提供对主要终点的支持作用。但在某种情况下，有些次要终点可能用于支持药品说明书声称的获益，一般被称为关键次要终点。此时，应将关键次要终点与主要终点共同纳入FWER控制。只有主要终点的假设检验认为整体显著后，才考虑关键次要终点的假设检验。

3. 复合终点

复合终点是指将多个临床相关结局合并为一个单一变量，如表示心血管事件的复合终点，只要发生心肌梗死、心力衰竭、冠心病猝死等其中的任一事件将被视为终点事件发生；或者将若干症状和体征的评分通过一定的方法合并为一个单一变量，如评价类风湿关节炎的ACR20量表。如果将某一复合终点作为单一主要终点，将不涉及多重性问题。但是，如果同时将复合终点中某一组成部分（如某一事件或构成量表的某一维度）用于支持药品说明书声称的获益，应将其定位于主要或关键次要终点，再根据上述定位对所涉及的主要或次要终点的多重性问题予以考虑。

4. 探索性终点

探索性终点可以是预先设定、也可以是非预先设定（例如数据驱动）的终点，一般包括预期发生频率很低而难以显示治疗效果的临床重要事件，或由于其它原因被认为不太可能显示效果但被纳入探索性假设的终点，其结果可能有助于设计未来新的临床试验。此类终点不涉及多重性问题。

5. 安全性终点

如果安全性终点（事件）是确证性策略的一部分，即用于支持药品说明书声称的获益，则应事先确定并考虑多重性问题。需注意，在临床试验的实践中，由于安全性事件具有很大的不确定性，有时难以事先规定主要安全性假设，因此，对于多个安全性终点（通常是严重的不良反应）的确证性策略可能会基于事后的多重性调整策略，此时应充分说明其合理性，并与监管机构达成共识。

（二）多组间比较

临床研究中多组间的比较颇为常见，如三臂设计、剂量-反应关系研究、联合用药和复方药的评价等。

1. 三臂设计

三臂设计多用于非劣效试验，安排的三个组分别是试验组、阳性对照组和安慰剂组。此时，研究假设应该考虑三种情形：①试验组与安慰剂组比较的优效性；②阳性对照组与安慰剂组比较的优效性；③试验组与阳性对照组比较的非劣效性。对于上述多重性问题，如果三个假设检验均显著才可认为试验药物有效，或者基于一个比较弱的研究假设，即只要满足①即可认为试验药物有效（需得到监管机构的认可才可实施），或者采用固定顺序法，如假设检验顺序为①->②->③，此时不会导致FWER膨胀。其它的三臂设计如果不是遵循上述多重检验策略，且不满足所有假设检验均显著的话，需根据情况考虑是否会导致FWER膨胀。

2. 剂量-反应关系

剂量-反应关系研究对于找到安全有效的治疗剂量或剂量范围至关重要。剂量探索的方法和目的在探索性试验和确证性试验中有所不同。

在探索性试验中，用剂量-反应关系进行剂量探索研究时，是否需要控制FWER由申办方自行决定。在确证性临床试验中，为了选择和确证试验药物在特定患者人群中推荐使用的一个或多个剂量水平，必须控制FWER。

3. 联合用药和复方药

联合用药是指治疗用药同时使用两种或以上的药物，复方药是指治疗用药由两种或以上的药物组合而成。联合用药或复方药临床试验的目的主要是验证联合用药的获益-风险是否优于其中的单药，或复方药的获益-风险是否优于其组分药。

以两个单药的联合用药为例，试验设计至少会设置三个组，即联合用药组、单药 A 组和单药 B 组，后两组为阳性对照组。如果再增加一个安慰剂组，就是一个2x2的析因设计。无论是三组的设计还是四组的析因设计，其假设检验以推断联合用药组是否优于其它各组为主，这将不会导致FWER膨胀，因为只有所有假设检验均显著的情况下方可证明联合治疗的疗效。

（三）纵向数据不同时间点的分析

纵向数据，即基于时间点的重复测量数据，是临床试验常见的数据类型。此类数据与时间点相关的分析分两种情况，一种是在不同时间点进行组间比较；另一种是比较处理组内不同时间点的效应。

以只有一个主要终点且只涉及两个处理组的研究设计为例，如果主要终点评价被定义为在多个时间点中的某一个时间点（如最后一个访视点）进行处理组间的比较，其它时间点的组间比较被视为次要终点评价，则不涉及多重性问题；如果主要终点评价被定义为在不止一个时间点进行处理组间的比较，若其所有相关时间点的组间比较达到显著才认为有效，则不会导致FWER膨胀，否则会导致膨胀。

对于比较处理组内不同时间点效应的情形，如果目的是通过时间点之间的比较确证最佳时间点的效应，即当时间效应成为确证性策略的一部分时，就需要考虑多重性问题，否则无需考虑。

对于多于一个主要终点或多于两个处理组且涉及到纵向数据不同时间点分析的研究设计，其多重性问题更加复杂，需要综合考虑。

如果希望回避纵向数据的多重性问题，一种可能的解决方案是将不同时间点的效应转换为折线下的面积，例如治疗后不同时间点的疼痛VAS评分可以转化为折线下面积以代表治疗后总的疼痛评分，即把多个变量转化为一个变量，但相应地，在这种转换之后，每个时间点的组间比较就无法实施了。另一种可能的解决方案是对重复测量数据用单个模型分析，如重复测量方差分析或混合效应模型。

（四）亚组分析

亚组分析通常用于说明试验药物在某一目标亚组人群中的疗效、或者各亚组之间疗效的一致性。如果目标亚组的分析用于支持药品说明书声称的获益，则需要综合考虑总人群和亚组人群的多重性问题，同时还要注意保证亚组的样本量有足够的检验效能。反之，如果亚组分析不用于支持药品说明书声称的获益，则无需考虑多重性问题。

（五）期中分析

针对有效性进行监查的期中分析，因为在研究过程中需要进行多次决策，多重性问题复杂多样，所以控制FWER显得尤为重要。在制定临床试验方案时，应仔细考虑并预先设定恰当控制FWER的策略和方法。

（六）复杂设计

对于以确证性为目的的篮式设计、伞式设计、平台设计等涵盖多疾病领域、多种药物、跨研究的复杂设计，由于同时开展多个分题研究，可能涉及多重性问题。但是，由于这些分题研究多是独立的研究且回答特定的临床问题，如适用疾病、目标人群等，故一般不会导致FWER膨胀。

对于复杂设计分题研究的目标人群有较大重叠时，或者对于多个分题研究使用同一个对照组时，是否会导致FWER膨胀，应视具体情况而定。此时，建议申办方与监管机构进行充分沟通。

四、常见的多重性调整的策略与方法

针对临床试验中可能导致FWER膨胀的多重性问题，所采用的多重性调整的策略与方法取决于试验的目的、设计、研究假设及其检验方法。申办方需在试验设计时对选用的多重性调整的策略与方法进行必要的评估，并在临床试验方案和统计分析计划中详述。

多重性调整的策略与方法可以从决策策略、调整方法和分析方法三个层面考虑。

（一）多重性问题的决策策略

临床试验的研究结论主要依据综合所有试验数据分析结果所做的推断，是一个从局部决策到整体决策的过程。多重性问题的决策策略可分为平行策略和序贯策略。除了从局部决策到整体决策的过程外，还有分阶段的整体决策。根据研究目的和试验方案梳理出可能的多重性问题，可采用某一种策略或者多种策略组合，再根据所选策略或策略组合确定每一个检验假设所对应的统计分析方法和名义检验水准α_i的分配策略（如需要）。

1. 平行策略

平行策略是指所包含的各个假设检验相互独立，平行进行，与检验顺序无关，就像一种并联关系，每个假设检验的推断结果不依赖于其它假设检验的推断结果。

2. 序贯策略

序贯策略是指按一定顺序对原假设进行检验，直到满足相关条件而停止检验，就像一种串联关系，根据设定条件，前一个假设检验的结果将决定是否进行后续的假设检验。序贯策略中假设检验的顺序以及相应的多重性调整方法的不同对整体结论的影响也不同，这一点在设计阶段尤其要注意。

3. 分阶段的整体决策策略

分阶段的整体决策策略是指将整体决策按照事先确定的顺序分阶段进行，其典型代表是以有效性为目的的期中分析。每个阶段都进行一次整体决策，确定试验因有效或无效提前终止还是继续。每一阶段的整体决策可以采用多重性问题决策策略中的平行策略或序贯策略。多阶段决策需要多重性调整，即每个阶段都会消耗一定的α，各阶段的名义检验水准α_i可以相同，也可以不同，视采用的α消耗策略而定。

（二）多重性调整方法

多重性调整方法实质上是通过调整整体决策中每一个独立假设检验的名义检验水准α_i以达到将FWER控制在α水平的目的。名义检验水准α_i的确定方法可以根据多重性问题的决策策略选择。

1. 平行策略的多重性调整方法

（1）Bonferroni法

Bonferroni法的基本思想是各个独立假设检验的名义检验水准α_i之和等于α，即

$\alpha _{1}+\alpha _{2}+\cdots+\alpha _{i}+\cdots+\alpha _{m}=\alpha$

各名义检验水准α_i可以相同（α_i=α/m），也可以不同，后者往往在各个假设检验的重要性不同时使用。例如，某临床试验设有3个主要终点，需要进行3次假设检验，设定α=0.05。如果3个主要终点的重要性相同，则每个假设检验的α_i相同，均为0.0167（=0.05/3），则每个假设检验的P值小于0.0167才被认为有显著性；如果3个主要终点的重要性不同，如设置α₁、α₂和α₃分别为0.030、0.015和0.005，则每个假设检验的P值小于所对应的α_i才被认为有显著性。

（2）前瞻性α分配法

前瞻性α分配法（PAAS）与Bonferroni法思想相近，可理解为各个假设检验的名义检验水准α_i的互余的乘积等于α的互余，即

$\left(1-\alpha_{1}\right)\left(1-\alpha_{2}\right)\cdots\left(1-\alpha_{i}\right)\cdots\left(1-\alpha_{m}\right)=1-\alpha$

各α_i可以相同也不可以相同也不可以相同也不，若相同若相同，则可根据则可根据Šidák法

$\alpha_{i}=1-\left(1-\alpha\right)^{1/m}$

例如，一个有3个终点的临床试验，其中两个终点被指定分配了α_i值，α₁=0.02、α₂=0.025，若设α为0.05，则根据上式有0.98×0.975×（1-α₃）=0.95，求得第3个终点的α₃为0.0057。如果3个原假设的α_i等权重分配，则基于Šidák法求得α_i为0.01695。需要注意，PAAS法在满足多重检验呈独立或正相关时才能实现控制FWER。

2. 序贯策略的多重性调整方法

（1）Holm法

Holm法是一种基于Bonferroni法的检验统计量逐步减小（P值逐步增大）的多重调整方法。该法首先计算出各假设检验的P值后，将各P值按从小到大排序，记为P₁ < P₂ < ... < P_m，其相对应的原假设为H₀₁，H₀₂，...，H_0m，然后按照P值从小到大顺序依次与相对应的α_i进行比较，依次检验H_0i，1 ≤ i ≤ m。第一步从最小的P值开始，检验原假设H₀₁，如果P₁ > α₁（=α/m），则不拒绝原假设H₀₁，并停止检验所有剩余的假设；如果P₁ ≤ α₁，则拒绝H₀₁，H_A1成立，进入下一步假设检验。第2个假设检验的α₂=α/(m-1)，将该假设检验的P值与α₂比较，若P₂ > α₂，则停止检验余下的假设；否则，H_A2成立，并进入下一步假设检验。更一般地，在检验第i个原假设H_0i时，如果P_i > α_i（=α/（m–i+1）），则停止检验并接受H_0i，...，H_0m；否则，拒绝H_0i（接受H_Ai），并进入下一步假设检验；以此类推。

（2）Hochberg法

Hochberg法是一种基于Simes法的检验统计量逐步增大（P值逐步减小）的多重调整方法。该法首先计算出各假设检验的P值，将各P值按从大到小排序，记为P₁ > P₂ > ... > P_m，然后按照P值从大到小顺序依次与相对应的α_i进行比较。第一步从最大的P值开始，检验原假设H₀₁，如果P₁ ≤ α₁（=α），则拒绝所有原假设，并停止检验，所有的备择假设H_Ai成立；否则不拒绝H₀₁，进入下一步假设检验。第2个假设检验的α₂=α/2，将该假设检验的P值与α₂比较，若P₂ ≤ α/2，则停止检验余下的假设，除H_A1外，其余的备择假设均成立；否则，不拒绝H₀₂，并进入下一步假设检验。更一般地，在检验第i个原假设H_0i时，如果P_i ≤ α_i（=α/i），则停止余下的检验，拒绝H_0i，...，H_0m；如果P_i > α_i，则不拒绝H_0i并进入下一步假设检验；以此类推。需要注意，Hochberg法在满足多重检验呈独立或正相关时才能实现控制FWER。

（3）固定顺序法

固定顺序法是指按预先定义的顺序进行假设检验，每个假设检验的名义检验水准α_i与α相同，只有在上一个假设检验拒绝原假设时才进行到下一个假设检验直到某一个假设检验不拒绝原假设为止，而最终的推断结论为该假设检验前面的显著性结论均被接受。例如，按顺序有3个原假设分别是H₀₁、 H₀₂和H₀₃，若第1和第2个假设检验都在α水平拒绝了原假设，但第3个假设检验未能拒绝原假设H₀₃，则备择假设H_A1和H_A2都成立，而H_A3不成立。

（4）回退法

回退法需事先根据固定顺序法对各假设检验排序，并确定每个假设检验的名义检验水准α_i，然后依顺序进行假设检验。该法首先在α₁水平检验H₀₁，如果不拒绝H₀₁，则在α₂水平检验H₀₂；如果拒绝H₀₁，则在α₁ + α₂水平检验H₀₂，余类推。例如，一项设有2个主要终点（O₁和O₂）的临床试验，采用回退法，对应O₁和O₂的名义检验水准分别是α₁ = 0.04和α₂ = 0.01，如果假设检验的P值分别是P₁ = 0.062，P₂ = 0.005，则最终的决策结论为试验药物在O₂上有显著获益（P₁ = 0.062 > α₁，P₂ = 0.005 < α₂）；如果假设检验的P值分别是P₁ = 0.032，P₂ = 0.015，则最终的决策结论为试验药物在O₁和O₂上均有显著获益（P₁ = 0.032 < α₁，P₂ = 0.015 < α₁ + α₂）。

3. 期中分析常见的α分割方法

期中分析较经典的α分割方法有Pocock法、O’Brien-Fleming法和Haybittle-Peto法。这三种分割方法的一个共同前提是每一次期中分析的日历时间或累积数据占比相同只是每次假设检验α_i的分配有不同侧重。更为灵活的α分割方法则是α消耗函数，如Lan-DeMets α消耗函数，该方法是上述经典方法的扩展，在设定期中分析时间点上更为灵活。例如，一项评价免疫靶点抑制剂抗肿瘤药物的确证性临床试验，主要评价指标为全因死亡，拟进行一次期中分析，可基于有效性早期终止试验。考虑到免疫靶点抑制剂起效时间可能存在延迟，因此计划在研究相对较晚的时间点，即观察到75%的死亡事件时开展期中分析。采用近似O’Brien Fleming边界的Lan-DeMets α消耗函数，且要求双侧FWER控制在0.05，则期中分析和最终分析的双侧名义检验水准分别为0.019和0.044。

当临床试验的多重性问题较为复杂时，可组合使用多种策略的多重性调整方法。需要注意的是，将多个多重性调整方法进行简单组合未必能控制FWER。因此，在复杂情况下组合使用多个多重性调整方法时，为了确保能够控制FWER，可考虑采用守门法或图示法等。

（三）多重性分析方法

对于需要解决的多重性问题，多数是基于具体的统计分析方法结合多重性调整方法来实现的。例如，对于不同数据类型的多个终点（如定量、定性、生存时间），组间比较会用到不同的统计分析方法（如协方差分析、 Mantel-Haenszel χ²检验、 Kaplan-Meier检验），与此同时，还要依靠多个终点的多重性调整方法（如Bonferroni法等）来确定每个假设检验的检验水准α_i，然后才能做出决策结论。

对于单一终点变量、同一研究阶段的多组比较，有些统计分析方法是在整体假设检验的基础上解决多重比较的问题，其根本思想是两两比较所涉及的标准误是整体假设检验的标准误。例如，定量结局变量基于方差分析的两两比较有LSD法、SNK法等，多组与参照组的比较有Dunnett法等；定性结局变量的多重比较可通过变量变换（如反正弦变换）成为定量变量，然后采用上述定量变量的分析方法；生存时间结局变量基于Kaplan-Meier法的log-rank检验（Mantel-Cox法）、Breslow法（扩展Wilcoxon法）等。需注意的是，有些方法不一定能控制FWER。对于在整体假设检验的基础上无法实现多重比较的统计分析方法，就需要采用局部假设检验（两两比较）结合α分配的方法（如Bonferroni法等）。

多变量的参数方法（如多元方差分析）是解决多重性问题的手段之一，特别是对于多终点的情况，但是此类方法一是要求满足多元正态分布，二是分析结果的解释往往不直观，限制了其应用。

重复抽样（如bootstrap法和permutation法）也是解决多重性问题的手段之一，此类方法的优点是在控制FWER的同时还能保证较高的检验效能；其不足之处在于它所基于的经验分布难以验证从而导致估计的准确性不足，此外它更依赖于大样本。因此，该类方法在临床试验中少有实践，需慎重使用，建议事先与监管机构充分沟通。

由于解决多重性问题的统计分析方法众多，每种方法都有其优势与不足，申办方需要在临床试验方案或统计分析计划中事先规定针对多重性问题所采用的统计分析方法。

五、其它考虑

（一）不需要多重性调整的情况

不需要多重性调整的情况包括但不限于以下情形（均不包含有效性的期中分析）：

1. 针对单一主要终点的多组间比较（如非劣效试验的标准三臂设计），当所有假设检验均显著才被视为有效时；

2. 针对单一主要终点，研究假设为试验药物的疗效至少非劣于阳性对照药，当按固定顺序进行假设检验时，即第一步验证试验药物的疗效非劣于阳性对照药的假设，第一步原假设H₀被拒绝后，第二步验证试验药物的疗效优于阳性对照药的假设；

3. 针对多个主要终点，当且仅当所有终点的假设检验均显著时才被视为有效时；

4. 针对多个次要终点，当均不会用于在药品说明书中声称获益时；

5. 对于篮式设计、伞式设计、平台设计等跨研究的复杂设计，如果分题研究是独立的研究且回答各自的临床问题，如适用疾病、目标人群等；

6. 在统计分析过程中，对同一主要终点指标，可能会对不同的分析数据集进行分析，只要事先定义以哪个分析数据集为主要结论依据；

7. 采用不同的统计模型或同一模型采用不同的参数设置，只要事先定义主要分析模型；

8. 根据不同的假设进行敏感性分析，例如采用不同的缺失数据估计方法填补后的分析，对离群值采用不同处理后的分析等。

（二）多重检验的参数估计问题

应根据多重性调整方法对相应的置信区间进行估计。多重性调整方法众多，有的方法较为简单但相对保守，易于进行区间估计，例如采用Bonferroni方法调整置信区间；有的方法较为复杂，可能难以做出相应的区间估计。

多重性调整还有可能带来点估计的选择性偏倚。例如，在含有多个剂量组的确证性临床试验中，如果多重性问题的决策策略选择了在药物说明书中标示与安慰剂差异最大的剂量组的效应量，则有可能高估药物的疗效。类似的选择性偏倚也会因亚组的选择而产生。因此，有必要评估多重性调整可能带来的选择性偏倚。

（三）与监管机构的沟通

在临床试验方案和统计分析计划中应事先明确多重性问题和多重性调整的策略和方法。对于复杂的多重性问题，是否需要多重性调整以及如何调整，现有的策略和方法可能面临挑战，因此鼓励申办方在确证性临床试验设计阶段积极与监管机构沟通。在试验过程中，如果因为更改多重性调整策略和方法而使临床试验方案做出重大调整，应与监管机构及时沟通。

附录：词汇表

词汇	解释
I类错误（Type I Error）	指原假设（或称无效假设）正确但检验结果拒绝了原假设的错误，相当于把实际上无效的药物经统计推断得出有效结论的错误。其概率需控制在某一水平，该水平称为检验水准，或称显著性水准，用α表示。
II类错误（Type II Error）	指原假设不正确，但检验结果未能拒绝原假设的错误，相当于把实际上有效的药物经统计推断得出无效结论的错误。
α消耗函数（α Spending Function）	当某个临床研究分若干阶段进行整体决策时，如基于有效性所做的期中分析每个阶段都要消耗一定的α随着研究进展，研究所完成的比例（如1/3、1/2、3/5等）与累积的I类错误率呈现某种函数关系，如下图所示。
多重性问题（Multiplicity Issues）	指在一项完整的临床研究中，需要经过不止一次统计推断（多重检验）对研究结论做出决策的相关问题。
多重性调整（Multiplicity Adjustment）	采用恰当的策略与方法将总I类错误率控制在合理水平的过程。
关键次要终点（Key Secondary Endpoint）	次要终点指标中用于支持药品说明书声称的获益的指标。
名义检验水准（Nominal Level）	对于多重检验中某一假设检验的检验水准称之为名义检验水准，又称局部检验水准，用α_i表示。
总I类错误率（Familywise Error Rate FWER）	是指在同一临床试验所关注的多个假设检验中，至少一个真的原假设被拒绝的概率。其应控制在合理水平。
主要终点（Primary Endpoint）	是指与临床试验所关注的主要问题（主要目的）直接相关的、能够提供最具临床意义和令人信服的证据的终点，常用于主要分、样本量估计和评价试验是否达到主要目的。

附录：中英文对照表

中文	英文
α分配	α Allocation
α消耗	α Spending
α消耗函数	α Spending Function
I类错误	Type I Error
II类错误	Type II Error
多重性	Multiplicity
多重性调整	Multiplicity Adjustment
多重性问题	Multiplicity Issue
多个终点	Multiple Endpoints
分题研究	Substudies
关键次要终点	Key Secondary Endpoint
回退法	Fallback Method
剂量-反应关系	Dose-response Relationship
名义检验水准	Nominal Level
前瞻性α分配法	Prospective Alpha Allocation Scheme, PAAS
守门法	Gatekeeping Procedure
图示法	Graphical Approach
显著性水准	Significance Level
总I类错误率	Familywise Error Rate, FWER

参考文献

[1] 钱俊, 陈平雁. 多个样本率的多重比较. 中国卫生统计, 2008; 25(2): 206-212.

[2] Alosh M, Bretz F, Huque M. Advanced multiplicity adjustment methods in clinical trials. Statistics in Medicine, 2014; 33(4): 693-713.

[3] Bretz F, Tamhane AC, Pinheiro J, et al. Multiple Testing in Dose-Response Problem, Chapter 3 of Multiplicity Testing Problem in Pharmaceutical Statistics. CRC Press, 2010.

[4] Bretz F, Maurer W, Brannath W, et.al. A graphical approach to sequentially rejective multiple test procedures. Statistics in Medicine, 2009; 28 (4): 586-604.

[5] Chen J, Luo JF, Liu K, et al. On power and sample size computation for multiple testing procedures. Computational Statistics and Data Analysis, 2011; 55 (1): 110-122.

[6] Collignon O, Gartner C, Haidich AB, et al. Current statistical considerations and regulatory perspectives on the planning of confirmatory basket umbrella and platform trial. Clinical Pharmacology & Therapeutics, 2020; 107 (5): 1059-1067.

[7] Dmitrienko A, Tamhane AC, Bretz F, et al. Multiple Testing Methodology, Chapter 2 of Multiplicity Testing Problem in Pharmaceutical Statistics. CRC Press, 2010.

[8] Dmitrienko A, Tamhane AC, Bretz F, et al. Gatekeeping Procedures in Clinical Trials, Chapter 5 of Multiplicity Testing Problem in Pharmaceutical Statistics. CRC Press, 2010.

[9] Dunnett CW. A multiple comparison procedure for comparing several treatments with a control. Journal of the American Statistical Association, 1955; 50 (272): 1096-1121.

[10] European Medicines Agency. Guidance on Multiplicity Issues in Clinical Trials.

[11] Freidlin B, Korn EL, Gray R, et.al. Multi-arm clinical trials of new agents: some design considerations. Clinical Cancer Research, 2008; 14 (14): 4368-4371.

[12] Hochberg Y, Tamhane A. Multiplicity Comparison Procedure. New York: Wiley, 1987.

[13] Howard DR, Brown JM, Todd S, et.al. Recommendations on multiple testing adjustment in multi-arm trials with a shared control group. Statistical Methods in Medical Research, 2018; 27 (5): 1513-1530.

[14] Huque MF, Rohmel J. Multiplicity Problem in Clinical Trials, Chapter 1 of Multiplicity Testing Problem in Pharmaceutical Statistics. CRC Press, 2010.

[15] International Conference on Harmonization (ICH). E9 guideline “Statistical Principles for Clinical Trials”.

[16] International Conference on Harmonization (ICH). E8 guideline “General Considerations for Clinical Trials”.

[17] International Conference on Harmonization (ICH). E17 guideline “General Principles for Planning And Design Of Multi-Regional Clinical Trials”.

[18] Lan KKG, DeMets DL. Discrete sequential boundaries for clinical trials. Biometrika, 1983; 70 (3) :659-663.

[19] O’Brien PC, Fleming TR. A multiple testing procedure for clinical trials. Biometrics, 1979; 35 (3): 549-556.

[20] Peto R, Pike MC, Armitage P, et al. Design and analysis of randomized clinical trials requiring prolonged observations of each patient. I. Introduction and design. British Journal of cancer, 1976; 34 (6): 585-612.

[21] Pocock SJ. Group sequential methods in the design and analysis of clinical trials. Biometrika, 1977; 64 (2): 191-199.

[22] Sen PK. Some remark on Simes-type multiple tests of significance. Journal of statistical Planning and Inference, 1999; 82 (1-2): 139-145.

[23] U.S. Food and Drug Administration. Multiple Endpoints in Clinical Trials – Guidance for the Industry.

[24] Wang DL, Li YH, Wang X, et al. Overview of multiple testing methodology and recent development in clinical trials. Contemporary Clinical Trials, 2015; 45 (Pt A): 13-20.

NMPA

药物临床试验适应性设计指导原则（试行）

一、概述

确证性临床试验的设计一般基于前期探索性研究结果，很多时候仅依赖于非常有限的数据，由此可能造成设计元素存在较大的偏差，从而直接影响试验的成败。随着药物研发的推动，临床研究的技术方法得到不断的发展，适应性设计也受到越来越多的研究与应用。适应性设计允许根据试验期间累积的数据对试验设计进行修改，以修正初始设计的偏差，从而增加试验的成功率，提高试验的效率。

成组序贯设计是最早应用于临床试验的适应性设计，其后，适应性设计较广泛地用于样本量的重新估计，现今逐步推广和发展到了多种类型的试验设计，例如两阶段设计、平台试验设计等更为复杂的设计。随着理论方法的不断成熟完善、模拟计算能力的进步，以及实践经验的积累，适应性设计在临床试验中得到越来越多的应用。

本指导原则对适应性设计的定义为：按照预先设定的计划，在期中分析时使用试验期间累积的数据对试验做出相应修改的临床试验设计。一方面，适应性修改是“按预先设定的计划”进行的，而不是临时提出的修改方案；另一方面，适应性修改是一个自我学习的过程，即通过对累积数据的不断学习，相应地修改试验方案，以适应不断变化的研究环境。因此，适应性设计旨在更好地改进进行中的临床试验，而不是因设计本身缺陷而有极大可能导致临床试验失败所做的临时补救。

在实际当中有时会基于充分合理的外部数据对一个进行中的临床试验做出修改，如果这种修改仅仅基于外部数据，依据本指导原则的定义不将其归于适应性设计的范围。本指导原则着重于讨论适应性设计的基本概念和原则、常用的适应性设计类型、使用适应性设计时的考虑要点以及监管要求等，目的是指导和规范申办者如何采用以及实施适应性设计。申办者在设计适应性临床试验方案时，应同时参考其它相关的ICH指导原则和国内指导原则。本指导原则主要适用于药品的确证性临床试验，对于探索性研究也具有参考意义。本指导原则仅代表当前的观点和认识，随着研究和认识的深入将予以修订完善。

一、概述

在决定是否采用适应性设计之前，应全面深入地权衡适应性设计和传统设计之间的优劣，尤其是适应性设计在设计、实施和统计分析方面的复杂性，以及由此而带来的在试验实施中可能会引入的、不可避免的操作偏倚以及其他各种挑战。采用适应性设计需综合考虑诸多因素，特别是适应性设计的适用性（fitness for purpose）、合理性（validity）、完整性（integrity）和可行性（feasibility）。

（一）适用性

适应性设计的适用性是指计划开展的试验是否适合采用适应性设计。一般而言，确证性临床试验需要良好合适的试验设计，包括试验目标、受试人群、入组分配、主要终点、分析方法等多个方面，其中每一个环节的偏差都可能导致试验的失败。适应性设计虽然可以实现自我学习，重新评估当前试验的计划，并可以调整设计时的偏差以寻求更好的方法来实现同一目标，但它并不是用于解决试验开始时设计上的错误。

是否采用适应性设计，首先应该考虑需要什么样的适应性修改、什么样的数据、验证什么样的假设、什么样的决策方法、什么样的条件使其能在实际中实施等。如果一个适应性设计并不能带来预期试验效率的增加、试验质量的提高，或者实施起来有极大的困难，则并不适合采用该设计。此外，适应性设计需要在设计阶段投入大量的时间进行深入地研究和仔细地计划。

大多数适应性设计方法是为满足临床试验的特殊需求而产生，可能不具备统计理论上的某些最优性，但它可能是解决临床试验某个特殊问题最为合适的方法，因此在考虑采用适应性设计时应主要基于需要解决的特殊问题。另外，适应性设计临床试验在操作和实施中较传统试验更为复杂和困难，因此，试验设计方法的简易性有时也成为是否采用适应性设计的一个重要的考虑因素。

（二）合理性

适应性设计的合理性是指试验的总I类错误率能否得到控制，以及能否确保试验结果的可信度、可解释性和说服力。

判断适应性设计是否合理，最重要的标准是所使用的统计方法能否控制总I类错误率。适应性修改一般需要考虑统计检验的多重性问题，并需将试验的I类错误率控制在预先设定的水平。此外，对有些适应性设计来说，如果采用双侧检验，由于适应性修改前后阶段的p值不能反映组间比较的方向，有可能使得最终的整体p值的意义难以解释，为避免这种情况，可在试验方案中选择单侧检验；但对另一些适应性设计，例如不对称的双边假设，双侧检验会是更合适的选择。

保持试验的合理性还意味着应该有正确的统计推断方法，比如用于计算调整后的p值、估计效应量及置信区间，以及衡量不同阶段治疗效果的一致性等。

适应性设计可能同时涉及多个目标人群、多个假设、多个终点或多重检验，故对统计分析方法的合理性有着很高的要求。如果对适应性修改没有相应合理的统计方法，则不宜采用该设计。由于适应性设计的复杂性，在某些情况下因没有适用的统计推断的理论公式或解析公式，需要基于模拟方法验证统计方法的合理性，这在一定程度上增加了额外的不确定性。

如果适应性设计需要合并调整前后的数据，那么需要考虑数据合并的合理性（包括前后数据的差异以及合并方法等）以及合并后疗效估计的可解释性。如果适应性修改的最终统计检验结果虽为阳性但临床获益太小，也不足以支持所验证的药物疗效。

（三）完整性

适应性设计的完整性是指是否能够控制住试验操作所引入的偏倚。保持试验的完整性意味着需要按照预先设定的计划对方案进行调整和保持期中分析结果的盲态，以求最大限度地减少操作偏倚。

避免引入操作偏倚是所有临床试验的最基本要求。适应性设计由于涉及临床试验许多方面的修改，有可能影响后续试验的执行，对保持试验的完整性增加了额外的难度。因此在确证性试验中，适应性设计的期中分析一般应该由独立的数据监查委员会（Data Monitoring Committee, DMC）及其申办者以外的独立统计支持团队完成，并保证期中分析的结果不被申办者、研究者和受试者所知悉，以免影响后续试验的执行和引入操作偏倚。因适应性修改涉及多个环节，设立一个有效的防火墙以防止期中分析结果外泄而造成可能的操作偏倚是执行中最为重要的任务。为此，适应性设计的方案应包含一个完善的操作流程，特别是关于如何设置相关信息的访问权限。同时，为避免不可控制因素对试验结果的影响，还要考虑怎样避免根据试验所做的修改而被间接地推出期中分析的结果。申办者应准备好试验所有需要的标准操作流程，并将涉及适应性修改的相关流程纳入其中，同时记录好实际操作的过程。以上这些都应该在试验的设计阶段仔细考虑，并需要在试验进行中严格地执行，以免影响试验的完整性。

（四）可行性

适应性设计的可行性是指试验的适应性修改能否在实际中实施。由于适应性设计比传统设计更为复杂，并且实施和分析更加困难，在计划采用适应性设计之前，可能需要考虑以下因素：适应性调整策略能够保障试验的合理性和完整性；相对于试验周期，有充裕的时间根据试验累积数据的分析结果进行适应性修改和开展后续试验的操作；期中数据收集和数据清理可以快速完成，以便按预定计划完成期中分析和调整；具备能够快速修改随机化程序/药物供应系统；具备足够的药物供应管理的能力以及能够负担增加的药物供应；提前准备好适应性设计的数据采集系统；保证与各相关方的沟通顺畅有效；能够配备专业软件来完成复杂设计和相关分析的计算等。同时，在试验设计阶段，申办者也可以与研究者沟通，评估所考虑的适应性设计在实际中能够顺利进行的可行性。如果相关适应性修改难以实施，则应该考虑其它设计。

综上所述，若计划采用适应性设计，需要仔细地评估其是否确有优势。若无法决策，可以采用模拟方法以评估适应性设计的效率。如果评估后适应性设计没有体现出太多的优势，建议谨慎考虑适应性设计。

三、常用的适应性设计

（一）成组序贯设计

成组序贯设计是指方案中预先计划在试验过程中进行一次或多次期中分析，依据每一次期中分析的结果做出后续试验的决策，决策通常有四种可能：①依据优效性终止试验；②依据无效性终止试验；③依据安全性终止试验；④继续试验。期中分析的时间一般基于累积数据的占比，如受试者入组比例或发生目标事件数的比例，或日历时间。如果期中分析至少有一次优效性分析，且有提前终止试验的可能，则应调整分析的I类错误率以将总I类错误率控制在事先设定的水平。调整I类错误率的常用方法包括Pocock方法、O'Brien & Fleming方法和Lan & DeMets方法等。由于期中分析仅使用了部分数据，结果仍有较大的不确定性，评估早期优效性时一般建议使用较为保守的方法以便终止试验时增加优效结论的可靠性。无效性边界的设定分为绑定和非绑定。绑定边界在期中分析结果一旦跨越无效性边界时必须终止试验。非绑定边界在期中分析结果跨越无效性边界时，一般会终止试验，但在有些情形下独立数据监查委员会基于全面评估后仍然可以建议试验继续进行。对于非绑定边界，无需调整最终分析的I类错误率。

选择期中分析的时间点也要仔细考虑。如果成组序贯调整计划中存在以优效性提前终止试验的可能，时间点的选择应该考虑期中分析时的数据量是否充分以及随访时间是否足够以便能够提供可靠的疗效估计和安全性评价的结果，也包括重要的次要终点以及一些重要的亚组结果的估计。若期中分析是要验证药物的安全性和无效性，时间点则应该侧重于如何最大程度地保护受试者。

（二）样本量重新估计

样本量重新估计是指依据预先设定的期中分析计划，利用累积的试验数据重新计算样本量，以保证最终的统计检验能达到预先设定的目标或修改后的目标，并同时能够控制I类错误率。

初始样本量的估计通常取决于效应量、主要终点的变异度、试验随访时间、受试者脱落率等诸多因素，而这些常常基于以往的研究数据。多数情况下，试验设计阶段样本量的估计所需要的参数信息往往不够充分，可能会导致样本量估算的不够准确。适应性设计中的样本量重新估计为此类问题提供了有效的解决方案。

样本量重新估计的方法可以分为盲态方法和非盲态方法。

盲态方法，也称为非比较分析方法（non-comparative analysis），是指期中分析时不使用实际试验分组的信息，或者未做任何涉及组间比较的分析。

盲态方法的样本量重新估计是指根据累积的数据，计算样本量的重要参数（如合并方差或合并事件发生率），然后对样本量进行重新估计。因期中分析时不涉及组间的疗效比较，故一般不需要调整I类错误率。该方法比较容易实施，一般不会引入操作偏倚，而且相关的统计方法也较为完善，只需要在试验设计的阶段预先做好规划。盲态方法的样本量重新估计也可由申办者完成。

非盲态方法，也称比较分析方法（comparative analysis），是指期中分析时使用了试验分组信息（包括各组的真实名称或可区分的分组代码）的分析，分析内容涉及组间的比较。

非盲态方法的样本量重新估计是指根据累积数据以及分组信息，计算样本量的重要参数（如试验效应量），然后对样本量进行重新估计，因期中分析涉及组间的疗效比较，通常需要对I类错误率进行相应调整。

非盲态分析的样本量重新估计需要预先在研究方案中阐明，包括重新估计的时点、决策时使用的标准、重新估计时使用的方法、调整检验水准α的方法、执行非盲态分析的人员，以及执行整个操作过程的人员等。应该注意的是，一个试验中不宜做过多次数的样本量重新估计。当重新估计的样本量少于最初设计的样本量时，通常不接受样本量减少的调整。

是否采用非盲态样本量重新估计需要考虑多种因素。例如，若有比较可靠的前期数据，非盲态下样本量重新估计是否必要；采用非盲态样本量重估所付的代价（如检验水准调整）与初始设计时略微放大样本量相比，是否有利；期中分析能否很快完成，是否可能因为入组较快而导致没有充足时间用来调整试验；期中分析的时间节点和推断方法是否合理；现有数据能否支持进行计划内的期中分析等。因此，应根据试验本身的特点，仔细考虑各种因素，然后做出合适的决策。

（三）适应性无缝剂量选择的设计

适应性无缝剂量选择的设计是指将两个试验无缝连接，在前期试验结束时做剂量选择，并将所选剂量用于后期试验。最终分析时则同时包含前期和后期两个试验入组的所有受试者的数据。本指导原则以II/III期试验为例对适应性无缝剂量选择的设计予以阐述，其他无缝设计情形可以此为参考。

在传统的设计中，独立的II期剂量选择通常包括多个剂量组，目的是选出合适的剂量并用于III期试验。III期试验是一个独立于II期的试验，其最终分析并不包含II期试验的数据。以此为特定目标的II/III期试验也常称为II/III期操作无缝设计。操作无缝设计将II期试验的受试者排除在III期的最终分析之外，且不需要在III期的最终分析时对I类错误率进行调整。另一种被称为II/III期推断无缝设计，是指在最终分析时包含了选中剂量和未选中剂量的II期试验的所有受试者。适应性II/III期推断无缝剂量选择的设计是推断无缝设计的特例。这种设计具有很多优点，例如可以缩短通常由II期试验结束时到III期试验开始时的时间间隔、减少试验的总样本量、缩短试验的时长、减少试验的费用等。同时，因II期入组的受试者有更长的随访时间，有时可以更早地观察到药物的长期安全性。

采用适应性II/III期无缝剂量选择的设计需要考虑多种因素。由于期中分析时对II期数据可能无法进行全面深入地分析，如果对试验药物了解甚少，一般应慎重选择采用适应性II/III期无缝剂量选择的设计，因II期试验的数据要包含在最终分析中加之III期试验已经在进行之中，而如果使用两个单独的试验可以有更多的选择方式。还有一些因素，例如，III期试验的主要终点需要较长的随访时间，II期或许只能够用替代终点进行判断，当替代终点与主要终点关联性不高甚至较差时，用替代终点选择III期试验的剂量会带来很大的不确定性。又如，也应考虑是否有足够的生产能力在短时间内提供III期所需的药物。

以上讨论的适应性II/III期无缝剂量选择的设计也可以直接应用于其他类似的试验，例如联合用药和单药的选择，或者不同药物之间的选择等。

（四）适应性富集设计

适应性富集设计是指试验将根据期中分析的结果，依据预先设定的标准对目标人群进行适应性调整，以决定试验后续阶段的目标人群。试验的后续阶段可能继续在全人群中进行，或者仅入组亚群并有可能需要做一些相应的适应性调整，或者加大样本量继续入组全人群，这同时也自然地加大了亚群的入组人数。试验的最终分析目标可能仅是全人群、亚群，或者全人群和亚群都包含。试验的最终分析将包含试验的两个阶段入组的所有受试者的数据，并有相应的调整方法以控制I类错误率。

如果已知试验药物只对某特定亚群有效，那么，临床试验应该只在该亚群中招募受试者。但实际中更为常见的情形是试验药物有可能对某亚群有较大的疗效，但不清楚对全人群是否也有足够大的疗效。在这种情况下，如果试验药物对全人群有足够大的疗效，只入组亚群受试者就会失去显示对全人群有效的机会；如果试验药物对全人群疗效较小但对某亚群有效，入组全人群受试者极有可能得不到预期的阳性结果，同时也失去了显示对亚群有效的机会。采用适应性富集设计来选择目标人群可以同时兼顾两者，利用试验本身的结果以便可以更科学地选择出目标人群，增加药物研发的成功率。

由于适应性富集设计中目标人群的选择涉及全人群和亚群，以及期中分析时采用非盲态的组间比较，因此应分别明确定义两个人群的统计假设和相应的统计方法，并控制I类错误率。

对于目标人群的选择标准，可以基于疾病特征、预后生物标志物或预测生物标志物等各种标准。一般而言，采用公认的疾病相关特征或预后相关生物标志物来选定目标人群，试验的设计和操作会相对简单。目前，采用预测生物标志物来选择目标人群的研究日趋增多，但许多预测生物标志物的临床价值尚不明确。如果试验要用一个全新的预测生物标志物来选择目标人群，必须要有对应的诊断方法。所用诊断方法必须已经被监管部门批准上市，如果没有，可能需要同时研发。

（五）两阶段适应性设计

两阶段适应性设计，是指将一个试验分为两个阶段，适应性调整前是第1阶段，适应性调整后是第2阶段。在第1阶段结束时进行期中分析，依据预先设定的修改计划，对第2阶段的试验进行适应性修改。

以上所讨论的成组序贯设计（若仅有一次期中分析）、样本量重新估计、适应性II/III期无缝剂量选择的设计、适应性富集设计都是两阶段适应性设计。两阶段适应性设计也包括其他常见的设计，例如在第1阶段结束期中分析时，从第1阶段选择一个合适的主要终点用于第2阶段；从第1阶段的两个或多个目标子群中选择一个合适的目标子群用于第2阶段；将第1阶段的单一主要假设修改为多个主要假设等。

有两点需要注意：一是成组序贯设计和适应性成组序贯设计之间存在区别。两者仅在期中分析、提前终止试验和样本量重新估计时类似；若一个适应性成组序贯设计包含了其他的适应性修改，则成组序贯设计中标准的分析方法就不适用。另一点是当两阶段适应性设计在分析以生存期为终点的试验时，无论第1阶段入组受试者的终点事件发生在哪个阶段，计算时均应将其归在第1阶段的结果内，否则两阶段的独立性假设将不再成立，导致I类错误率增加。

大多数适应性设计都属于两阶段范畴。两阶段适应性设计的原理和方法可类似地推广到多阶段或多重适应性设计。

（六）适应性主方案试验设计

主方案试验设计是指一个整体临床试验方案含有多个子方案，不同的子方案可同时检验一种药物对于多种疾病的临床效果，也可同时检验多种药物对于一种疾病的临床效果，或者同时检验多种药物对于多种疾病的临床效果。每一个子方案可以是单臂试验，也可以是随机对照试验。如果有子方案是随机对照试验且病人群体相同，这些随机对照试验有可能共用一个对照组，也可能有各自的对照组。主方案试验也用来泛指由患者特定特征（如疾病、组织学类型、分子标记物）为标志的临床试验。主方案试验具有很多优点，例如能够为患者提供最大的入组机会并选择最合适的受试药物的机会。常见的主方案设计包括篮式试验、伞式试验和平台试验设计。

篮式设计旨在评估一种药物治疗具有同一种生物学特征的不同疾病类型的临床效果，每一个子方案都针对一种或多种疾病类型。伞式设计旨在评估多种药物针对同一种疾病或生物标记物类型的靶向治疗的临床效果。平台设计旨在评估多种药物针对多种疾病的临床疗效。平台试验通常会维持试验长期进行，并允许新的试验药物随时加入试验平台，同时，对照药物随着时间推移也可能发生变更。

主方案试验虽然具有很多优点，但由于其复杂性，在计划、执行、统一管理结构的建立、尤其是统计分析等方面都面临着较大地挑战。如果计划采用主方案试验，应对试验各个方面可能涉及的各种问题做全面、深入和细致的研究后，再慎重选择。

适应性主方案设计是指在主方案设计中包含了一种或多种适应性调整的设计，它可以灵活地采用多种适应性调整，例如添加一个或多个新的子方案，提前结束一个或多个子方案，重新估计样本量，调整检验的假设、主要终点和主要统计方法，或对不同的子方案设计做不同的适应性调整等。

（七）多重适应性设计

多重适应性设计是指一个试验中采用了多于一种适应性调整方法的试验设计。以上所讨论的适应性设计方法都可以同时用于同一个临床试验。例如，一个临床试验在第1阶段结束时确定了下阶段的用药剂量，其后可以选择目标人群，再其后可以做样本量重新估计。

原则上讲，如果一个临床试验设计包含了多种适应性调整，只要符合适用性、合理性、完整性和可行性的要求，多重适应性设计都可以考虑。但由于多重适应性设计的复杂性，在一个试验中是否有必要引入过多的适应性调整，建议申办者予以慎重考虑。

四、其他考虑

（一）仅基于外部数据的修改

仅基于外部数据的修改是指在试验进行过程中仅仅基于外部数据对于一个进行中的临床试验做出某些修改，在本指导原则中，不将其归于所定义的适应性修改。

在试验进行过程中，常常会有与本试验相关的新的信息出现，而这些信息一般都是基于在当前试验设计时还不存在的新近完成的试验或研究。基于外部数据对于一个进行中的临床试验做出某些修改，必须有充分的依据且不应破坏试验的合理性及完整性，并需提前与监管机构进行沟通确认后方可通过试验方案的修正案来体现。申办者尤其要注意这些修改是仅基于外部数据，而非基于进行中的试验本身的结果。

在当前试验设计时可能同时会有其它尚未完成的相同药物的其它试验正在进行，其与当前试验相关，并在当前试验的设计时预先设定，这同样被视为外部数据并可通过试验方案的修正案来体现。

如果需要用一个II期试验的结果来决定当前试验的生物标志物的阈值，同时结合当前试验期中分析的累积数据做出修改，则在本指导原则中被归为适应性修改，此时需在适应性修改计划中预先设定。

（二）监管的其他考虑

作为试验方案的一部分，适应性修改计划应在临床试验开始前的试验方案中预先设定。

申办者如果计划在确证性试验中采用适应性设计，或在统计推断中用到贝叶斯方法或模拟方法等，申办者应在试验方案设计阶段与监管部门进行沟通交流。

申办者在沟通交流中递交的资料应包含重要的用来支持采用适应性设计的文献和数据以便监管部门审评。资料的准备应主要围绕预先设定的适应性调整计划的细节，包括其适用性、合理性和完整性等。

申办者在沟通交流资料中应讨论采用适应性设计的理由，包括与传统设计相比的优势、需要采用适应性设计解决的具体问题以及解决的方式、适应性调整后结果的可解释性等；还应包括预先设定的调整计划的细节，比如，期中分析的时间和目的、决定适应性调整的统计规则、最终分析的统计检验方法、控制I类错误率的方法等；以及关键的实施适应性设计的操作流程，保证试验完整性的具体措施等。

附录：词汇表

词汇	解释
适应性设计（Adaptive design）	按照预先设定的计划，在期中分析时使用试验期间累积的数据对试验做出相应修改的临床试验设计。
成组序贯设计（Group sequential design）	：是指方案中预先计划在试验过程中进行一次或多次期中分析，依据每一次期中分析的结果做出后续试验决策的试验设计。
盲态/非比较分析方法（Blinded/Non-comparative analysis）	是指期中分析时不使用实际试验分组信息，或者未做任何涉及组间比较的分析。
非盲态分析/比较分析方法（Unblinded/Comparative analysis）	是指期中分析时使用试验分组信息（包括各组的真实名称或可区分的分组代码）的分析，分析内容涉及组间比较。
适应性主方案设计（Master protocol with adaptive designs）	是指在主方案设计中包含了一种或多种适应性调整的设计。
多重适应性设计（Multiple adaptive design）	是指一个试验中采用了多于一种适应性调整方法的试验设计。
贝叶斯方法（Bayesian method）	贝叶斯方法一般是指在对未知参数做出统计推断时，它先使用先验信息（先验分布函数）对未知参数做一初始判断，在搜集到新数据后，它根据贝叶斯原理将先验信息和新数据总结在另一个函数中（后验分布函数），并基于此后验分布做出统计推断。
模拟方法（Simulation method）	是指使用计算机技术通过创建虚拟患者数据并根据预先指定的模型预测患者的临床结果来模拟临床试验的进行。

参考文献

1. 国家药品监督管理局药品审评中心. 药物临床试验数据监查委员会指导原则（试行）. 2020.

2. Bauer P, Köhne K. Evaluation of experiments with adaptive interim analyses. Biometrics.1994; 50:1029–1041. corrections. Biometrics.1996; 52:380.

3. Bauer P, Kieser M. Combining different phases in the development of medical treatments within a single trial. Statistics in Medicine.1999; 18: 1833-1848.

4. Bauer P, Posch M. Letter to the Editor. Modification of the sample size and the schedule of interim analyses in survival trials based on data inspections by H. Schaefer and H.-H. Mueller, Statistics in Medicine 2001; 20: 3741–3751. Statistics in Medicine.2004; 23: 1333–1335.

5. Chang M. Adaptive design method based on sum of p-values. Statistics in Medicine.2007; 26:2772–2784.

6. Chen C, Li X, Li W, Beckman RA. Adaptive Expansion of Biomarker Populations in Phase 3 Clinical Trials. Contemporary Clinical Trials.2018; 71:18-85.

7. Chen C, Anderson K, Mehrotra DV, Rubin EH and Tse A. A 2-in-1 Adaptive Phase 2/3 Design for Expedited Oncology Drug Development. Contemporary Clinical Trials.2018; 64:238-242.

8. Chen JYH, DeMets DL, Lan GKK. Increasing the sample size when the unblinded interim results is promising. Statistics in Medicine.2004; 23:1023-1038.

9. Chow SC. Complex innovative design for NASA clinical trials. Academic Journal of Gastroenterology & Hepatology.2020; 2: 1-9.

10. Chow SC, Chang M. Adaptive Design Methods in Clinical Trials. CRC Press, 2nd edition.2011.

11. Chow SC, Lin M. Analysis of two-stage adaptive seamless trial design. Pharmaceutica Analytica Acta.2015; 6: 341-440.

12. Chow SC, Shao J, Wang H, Lokhnygina Y. Sample size calculations in clinical research. Chapman & Hall/CRC, 3rd edition.2018.

13. Chow SC, Tu YH. On two-stage seamless adaptive design in clinical trials. Journal of Formosan Medical Association.2008; 107: s1-59.

14. Cui L, Hung HMJ, Wang SJ. Modification of sample size in group sequential clinical trials. Biometrics.1999; 55:853-857.

15. Cui L, Zhang L. On the efficiency of adaptive sample size design. Statistics in Medicine.2019;38:933-944.

16. Friede T, Kieser M. Sample size recalculation in internal pilot study designs: a review. Biometrical Journal.2006; 48:537–555.

17. Friede T, Parsons N, Stallard N. A conditional error function approach for subgroup selection in adaptive clinical trials. Statistics in Medicine.2012; 31:4309–4320.

18. Friede T, Stallard Nigel. A comparison of methods for adaptive treatment selection. Biometrical Journal.2008; 50:767–781.

19. Gould AL. Interim analyses for monitoring clinical trials that do not materially affect the Type I error rate. Statistics in Medicine.1992; 14:1039-1051.

20. Hochberg Y. A sharper Bonferroni procedure for multiple tests of significance. Biometrika.1988; 75: 800–802.

21. Howard DR, Brown JM, Todd S, Gregory WM. Recommendations on multiple testing adjustment in multi-arm trials with a shared control group. Statistical Methods in Medical Research.2018；27:1513-1530.

22. Jenkins M, Stone A, Jennison C. An adaptive seamless phase II/III design for oncology trials with subpopulation selection using correlated survival endpoints. Pharmaceutical Statistics.2011; 10:347–356.

23. Lan KG, DeMets DL. Discrete Sequential Boundaries for Clinical Trials. Biometrika.1983; 70:659–663.

24. Lehmacher W, Wassmer G. Adaptive sample size calculations in group sequential trials. Biometrics.1999; 55: 1286–1290.

25. Maca J, Bhattacharya S, Dragalin S. et al. Adaptive Seamless Phase II/III Designs Background, Operational Aspects, and Examples. Drug Information Journal.2006; 40: 463-474.

26. Marcus R, Peritz E, Gabriel KR. On closed testing procedures with special reference to ordered analysis of variance. Biometrika.1976; 63:655–660.

27. Mehta CR, Pocock SJ. Adaptive increase in sample size when interim results are promising: a practical guide with examples. Statistics in Medicine.2001; 30:3267- 3284.

28. Müller HH, Schäfer H. Adaptive group sequential designs for clinical trials: Combining the advantages of adaptive and of classical group sequential approaches. Biometrics.2001; 57:886–891.

29. Müller HH, Schäfer H. A general statistical principle for changing a design any time during the course of a trial. Statistics in Medicine.2004; 23:2497–2508.

30. O’Brien PC, Fleming TR. A Multiple Testing Procedure for Clinical Trials. Biometrics.1979; 549–556.

31. Pocock SJ. Group Sequential Methods in the Design and Analysis of Clinical Trials. Biometrika.1977; 64:191–199.

32. Proschan MA, Hunsberger SA. Designed extension of studies based on conditional power. Biometrics.1995; 51:1315–1324.

33. Rosenblum M, Van Der Laan MJ. Optimizing randomized trial designs to distinguish which subpopulations benefit from treatment. Biometrika.2011; 98: 845-860.

34. Shih WJ. Sample size re-estimation – a journey for a decade. Statistics in Medicine.2001; 20:515-518.

35. Shih WJ, Li G, Wang Y. Methods for flexible sample-size design in clinical trials: Likelihood, weighted, dual test, and promising zone approaches. Contemporary Clinical Trials.2016; 47: 40-48.

36. Simes RJ. An improved Bonferroni procedure for multiple tests of significance. Biometrika.1986; 73:751–754.

37. Stallard N, Hamborg T, Parsons N, Friede T. Adaptive designs for confirmatory clinical trials with subgroup selection. Journal of Biopharmaceutical Statistics.2014; 24:168–187.

38. Wang SJ, Hung HMJ, O’Neill RT. Adaptive patient enrichment designs in therapeutic trials. Biometrical Journal.2009; 51:358–374.

39. Wassmer G, Brannath W. Group sequential and confirmatory adaptive designs in clinical trials. Springer,2016.

40. Wu PS, Lin M, Chow SC. On sample size estimation and re-estimation adjusting for variability in confirmatory trials. Journal of Biopharmaceutical Statistics.2016; 26:44-54.

41. Zhang JJ, Blumenthal G, He K, Tang S, Cortazar P, Sridhara R. Overestimation of the effect size in group sequential trials. Clinical Cancer Research.2012; 18: 4872-4876.

42. Zheng J, Chow SC. Criteria for dose-finding in two-stage seamless adaptive design. Journal of Biopharmaceutical Statistics.2019; 29: 908-919.

NMPA

药物临床试验随机分配指导原则（试行）

一、概述

药物临床试验的随机分配（亦称随机分组）是指参与临床试验的每位受试者的分组过程必须满足以下两点：一方面是不可预测性，指受试者、研究者以及参与试验的其他相关人员，均不应在随机分配实施前预先知晓或预测到治疗分配的相关信息。另一方面是机会均等，指在一定条件下(例如，在分层随机中的一定条件是指同一层内)，每位受试者被分配到同一治疗组的概率相等。同时注意，随机分配到不同治疗组的概率可以相等（平衡设计），也可以不等（非平衡设计）。

满足上述两个条件的随机分配过程可以使受试者的基线特征（包括已知和未知的非研究因素）在治疗组间的分布趋于相似，以期达到组间基线均衡。

对于采用随机分配的临床试验而言，在试验数据的后续分析中，随机分配是疗效归因的准确性和可靠性的保障，为定量评价药物的治疗效应提供了必要的统计推断基础。与盲法结合，在受试者的选择和分配时，随机化有助于避免因受试者分配的可预测性而导致潜在的偏倚。

随机分配表的生成、保存、使用及释放应有标准操作流程（SOP），实际操作中，需严格按照既定的随机分配结果执行随机化流程；如果随机分配过程没有得到规范执行甚至被破坏，将造成临床试验结果的严重偏倚。

本指导原则主要阐述了临床试验中常用的随机分配方法、随机分配的实施等方面的内容，旨在为申办者及相关人员能够在临床试验中对随机分配进行正确地设计和实施提供指导性建议。本指导原则主要适用于以支持药品注册上市为目的的确证性临床试验，也可供以非注册为目的的临床试验参考。本指导原则仅代表当前的观点和认识，随着研究和认识的深入将予以修订完善。

二、临床试验中常用的随机分配方法

随机分配方法包括简单随机、区组随机、分层随机及适应性随机等。不同的随机分配方法具有不同的特点，申办者应根据各方面因素综合考虑选择合适的随机分配方法。本章节就临床试验中几种常用的随机分配方法加以阐述。

（一）简单随机

简单随机又称完全随机，是指以特定概率将受试者分配到每个治疗组，分配到每个治疗组的概率可以相等（例如， 1:1 分配给试验组和对照组），也可以不等（例如，2:1 分配给试验组和对照组），受试者随机分配到各个治疗组的概率与受试者的基线特征或预期结局等因素无关。

简单随机分配具有以下性质：①对每位受试者进行独立的随机分配；②每位受试者被分配到同一治疗组的概率相等。因此，简单随机分配只与样本量和分配比例有关。其优点是操作简单、易于实施，能最大限度地保持随机分配的不可预测性。

简单随机分配的缺点是，在各个时间段内入组受试者的实际分配比例有可能不同，大多数临床试验是按时间顺序招募的受试者，如果某个基线协变量为预后因素，且该协变量在不同时间段入组的受试者间差异较大，采用简单随机分配则可能导致该基线协变量在组间分布不均衡，从而引入偏倚。例如，呼吸道疾病的基线症状在冬季往往比夏季更严重，采用简单随机分配的实际分配结果可能是，在冬季入组的患者试验组多，夏季入组的患者对照组多，从而造成组间基线症状不均衡，进而影响疗效评估。另外，当试验样本量较少或基于期中分析提前终止试验时，简单随机分配可能造成实际分配比列明显偏离预先设定。

（二）区组随机

区组随机是指将受试者在每个区组内进行随机分配的过程。区组长度（区组内计划入组的受试者数）可以相等，也可以不等，关键是区组长度需保持盲态，不应在研究方案中描述区组长度，除设定随机参数配置文件的人员外，受试者、研究者以及参与试验的其他相关人员均不应知晓区组长度。若区组长度的盲态保持遭到破坏将对试验造成严重偏倚最终影响疗效评估。例如，非盲试验中，若研究者事先知晓区组长度，同一区组最后一位入组受试者的组别可在入组前获知，从而导致研究者在入组受试者时的选择偏倚；双盲试验中，当有受试者因严重不良事件而紧急破盲后，同一区组剩余受试者的组别有较大可能被推理出。

当随机分配结束时，如果某区组实际入组的受试者例数小于该区组长度，则称该区组为碎片区组。如果一个研究中的碎片区组数量较多，可能影响随机分配比例和组间基线均衡性。因此，应尽可能减少或避免碎片区组。

区组长度要适中，太长易因碎片区组导致组间分配不均衡；太短则易造成同一区组内受试者分组的可预测性。为减少可预测性，可考虑采用多个区组长度并随机设置，或采用其他预测性更小的随机分配方法。

与简单随机相比，区组随机可使同一时间段同一区组内的受试者在各治疗组间的分配比例符合预设要求。当受试者基线特征可能随入组时间变化，且完成所有受试者入组所需的时间较长时，区组随机分配有助于减少季节、疾病流行等客观因素对疗效评价的影响，也可减少因方案修订（例如入选标准的修订）所造成的组间受试者比例失衡。

需注意，理论上简单随机和区组随机可以有效地保障各种已知的和未知的基线特征在组间的均衡性，但仍然有一定的可能性观察到个别基线因素在组间分布不均衡。因此为了预防可能出现重要基线因素在组间分布不均衡的情况，可考虑把重要基线因素作为分层因素进行分层随机。

（三）分层随机

如果某些基线特征（例如，受试者的病理诊断、年龄、性别、疾病的严重程度、生物标记物等）对药物的治疗效应影响较大，一旦这些因素在组间分布不均衡，将影响试验结果的评价。先按重要基线特征对受试者进行分层，然后在每层内再进行独立的随机分配，即为分层随机。这些基线特征被称为随机分层因素。在分层基础上，如果各层内采用区组随机分配，则被称为分层区组随机。

分层随机分配的优点在于，它能确保由分层因素所构成的各个层内的受试者都是随机分配到各个治疗组的，从而保证分层因素在组间的均衡性。

分层随机中，若各层内采用简单随机分配，则有可能导致组间分配比例偏离预先设定值。因此，可考虑采用分层区组随机。尤其是当分层随机分配所构成的各个层的样本量不能事先确定，而是基于实际入组情况而定时，若层内采用简单随机分配，往往无法保证试验组与对照组的实际随机分配比例符合预先设定，并有可能导致组间基线协变量失衡（当某些层的实际入组受试者较少时更易发生），在这种情况下，为保证各层内组间分配比例符合预设及组间基线均衡，建议采用分层区组随机。

如果分层因素较多，随机化的层数将呈指数级增加，当随机分配结束时，可能会导致某些层的受试者过少，造成某些层受试者的实际组间分配不均衡，甚至都在一个组别中；也可能引起其他因素在组间分布不均衡；若采用分层区组随机可能产生较多的碎片区组；以上情况均可能影响统计分析结果。因此申办者应慎重选择分层因素，应就分层因素的选择及层的划分提供依据并阐明合理性，应注意避免选择并不重要的分层因素而忽略其他重要因素从而影响试验结果的情形。当使用分层随机分配时，应当在统计分析时对分层因素加以考虑。

（四）适应性随机

适应性随机是指根据已经入组的受试者信息来调整当前受试者被分配到不同治疗组概率的随机分配过程。与上述随机分配方法不同的是，适应性随机对当前受试者的随机分配依赖于已入组受试者的信息。适应性随机包括协变量适应性随机分配、应答适应性随机分配等。

适应性随机无法通过提前制作随机分配表的方式来实现，需要通过程序或软件来实现。适应性随机可能有增加 I类错误率的风险，应谨慎使用。若采用，申办者应充分说明其合理性，并考虑使用合理的统计分析方法（例如随机检验或置换检验）及对 I 类错误率等方面的影响，随机分配过程和使用的程序需存档以备监管机构审核。

1. 协变量适应性随机

协变量适应性随机分配是指当前受试者的分配，部分或者完全取决于其自身的基线特征及已入组受试者的基线特征和随机分配结果。常用的协变量适应性随机分配方法是最小化法，即将当前受试者以较高的概率随机分配至能够使得组间基线协变量不均衡性最小的组别；这一概率须事先确定，并应阐明分组概率的计算方法。协变量的选择原则同分层随机。

与简单随机相比，协变量适应性随机可增加治疗分配的可预测性，应注意采用合适的方法减少可预测性。与分层随机相比，协变量适应性随机能均衡更多的分层因素，但过多的分层变量可能导致随机分配的变异减少，增加可预测性。另需注意使用适当的统计分析方法（例如，随机检验或置换检验），并注意避免增加 I 类错误率。

2. 应答适应性随机

应答适应性随机是指新纳入的受试者的随机分配概率根据已随机受试者的治疗结局而改变，适合能较快确定临床结局的试验。常用的应答适应性随机分配方法是“胜者优先”法。

应答适应性随机是存在争议的，一些研究者认为，不能用无法得出结论的期中分析结果改变正在进行的试验的随机分配；同时现有的用于应答适应性随机的统计分析方法，均基于一些难以验证的假设。统计分析应考虑试验设计并应充分说明统计分析方法的合理性。

三、临床试验中随机分配的实施和管理

为了确保临床试验的完整性，随机分配方法和过程中的必要细节（例如随机分配比例、分层因素等要素），设盲方式（双盲、单盲或非盲）和盲态维护方式（例如，紧急破盲流程、破盲受试者后续的处理和评价、锁库后揭盲流程、非盲人员管理等）应在研究方案中阐明。对于单盲或非盲试验，需在研究方案中提供依据以说明采用单盲或非盲的合理性，并描述偏倚控制措施。研究方案不可涉及对随机分配不可预测性产生影响的参数和技术细节（例如随机种子数、区组长度等）。此外，专业人员应根据临床研究方案制定随机分配参数配置文件，该文件中需包含实现随机分配所需的必要细节和参数（例如随机分配方法、随机分配比例、分层随机中的分层因素以及区组随机中的区组长度等）。

正确实施随机分配和设盲是避免临床研究产生偏倚的重要保障，所以通常要建立一套 SOP 来指导随机分配的实施和盲态的管理。在临床试验的具体实施中，主要是通过预制随机分配表并通过随机分配系统（通常为交互式应答系统）来实现随机分配，适应性随机可通过与选用随机分配方法匹配的计算机程序和随机分配系统来实现随机分配。

临床试验的随机分配表记录了依次入组受试者的随机分配结果，随机分配表应可重现。在临床试验中，随机分配表应该是一份独立的文件，需由具备相关专业知识并独立于研究的人员在临床试验开始前，根据临床研究方案和随机分配参数配置文件来生成。生成随机分配表的人员不应参与临床试验的实施、管理和分析。为了保持试验的完整性并避免随机分配过程中产生偏倚，正式的随机分配表（包括非盲试验）应由第三方外包公司的专业人员或申办者防火墙内专业人员制作，申办者防火墙内专业人员应与研究项目保持完全独立，并具有合理的组织架构和流程以确保防火墙内专业人员的独立性。适应性随机分配中随机种子的选择也应由第三方外包公司的专业人员或申办者防火墙内专业人员来完成，并进行存档，在整个临床试验过程中严格保密。正式的随机分配表、随机种子数应在对应的严格限定权限的电子系统中存档，在整个临床试验过程中严格保密和封存。对于非盲的临床试验，为避免偏倚的产生，在整个试验过程中，随机分配表也应严格保持盲态。对随机分配结果不可预测性产生影响的参数和技术细节（特别是种子数，区组长度等）应封存并保持盲态，泄露将会影响随机化的不可预测性，增加破盲风险，甚至导致试验失败。在临床操作中，研究者应严格遵循随机分配结果，任何偏离都应该如实记录，以待锁库前进行评估。

随机分配系统是研究过程中实现受试者随机分组的关键性工具。使用的随机分配系统应经过系统验证，并严格验证各种随机化算法的正确性。申办者应在相关文件中描述所用的系统、软件、程序、版本等信息。

为了保证随机分配系统按预定的随机分配方法进行分组，在临床研究正式开始前，建议相关专业人员使用测试用随机分配表或测试用适应性随机程序，对系统进行全面的用户验收测试。

在盲法研究中，除上述章节中描述的受试者随机分配表外，还需单独制作一份药物编码表，以对研究药物进行随机编盲。研究药品需按照方案规定要求进行包装。药物编码表的生成和维护，药物随机分配系统的建立（例如，有关试验药物的供应链管理、发放等功能及流程）和测试遵循前述章节中同样的要求。为避免研究药物的准备、编码和供应管理过程中出现破盲，申办者应制定相关操作流程的 SOP，详细规定所使用药物标签格式的要求、参与药物编盲人员的要求、编盲材料和盲底材料管理及存档要求、研究中心药物供应和补充流程等。

在临床试验过程中，如需进行揭盲分析（例如阶段性疗效或安全性分析、期中分析等），建议在临床试验方案中规定参与揭盲分析的人员和揭盲流程，并对盲底信息的管理加以说明。如有必要，可以在相关文件中进一步阐述更多细节。同时，对于临床试验中的任何揭盲行为（包括临床研究过程中的揭盲，和临床研究结束后的正式揭盲）均应保留相应的操作记录并存档。记录应包括但不限于揭盲原因、揭盲申请批准记录、揭盲时间、揭盲地点、揭盲人员、揭盲数据内容、揭盲后的盲底材料或信息的处理等。

研究结束后，申办者需将上述随机分配参数配置文件、随机分配表的生成和管理的相关记录文档、药物编码表的生成和管理的相关记录文档、揭盲相关记录文档归档以备监管机构审核。对于采用随机分配的注册研究，申办者有责任确保在锁库后，通过随机分配表/程序和随机分配系统对随机分配过程进行重现。根据 ICH E3 的要求，在临床研究报告附件中应包含随机化相关信息，主要包括受试者编号、随机编号、分配的治疗组别等信息。

四、其他考虑

（一）试验设计时的相关考虑

申办者应综合各方面的因素，合理选择随机分配方法，需要考虑的因素包括但不限于：组间分配比例，组间均衡性并兼顾不可预测性，分层因素的选择是否合适等。

在试验设计时，申办者应决定随机分配方法和形式，并在试验方案中说明其合理性。若各中心的同质性能够得以保证，建议采用中央随机形式实施随机分配，即所有研究中心在同一系统上基于同一随机编码表进行随机分配；尤其当研究中心较多，样本量较小，各中心间竞争入组，或试验为非盲试验时，中央随机形式更有利于维护不可预测性和盲态。

（二）随机分配实施中的注意事项

随机分配实施中需要注意的事项包括但不限于：随机分配实现的方法与事先指定的方法应一致；应有随机分配算法正确性的验证报告，以确保算法准确无误；受试者编号应唯一并准确无误；对于分层随机分配、协变量适应性随机分配和应答适应性随机分配等方法，受试者的分层因素和试验结局等信息应准确无误；对于通过非盲态人员进行药物准备以实现盲法的试验，应有相应的 SOP 以避免组别信息的泄露。正式的随机分配表等关键信息，应制定独立审核流程。

随机分配和药物分配过程中，应尽可能避免人为错误。为了避免随机分配错误的发生，可通过模拟受试者入组以预防随机化实施错误，随机分配实施的说明文件应尽可能的预测可能的人为错误类型并提前制定相关防范措施。对随机化实施过程中的非预期事件应有紧急应对措施。并在临床试验的各个阶段仔细监测随机分配过程。

（三）统计分析

统计分析模型与所采用的随机分配方法有关，例如，采用分层随机分配或协变量适应性随机分配方法时，模型中应考虑分层因素。当申办者不能确定所采用的统计分析模型是否适合该研究所采用的随机分配方法时，应考虑采用稳健的统计分析方法并进行充分的敏感性分析。若方案中涉及组间比较的期中分析，需由数据监查委员会（DMC）执行；申办者不应根据实际分组进行比较的汇总分析。

（四）与监管机构的沟通

当申办者与监管机构沟通关键性临床研究方案时，鼓励就临床试验设计中有关随机分配的关键问题与监管机构进行沟通，其内容包括但不限于随机分配方法选择，盲法实现方法和盲态维护措施，期中分析的必要性，I 类错误率控制等方面。

当申办者计划采用适应性随机分配时，应在沟通方案时与监管机构就适应性随机分配方法选择、参数设置等相关内容进行沟通并达成一致意见。进行沟通前，申办者应向监管机构预先提供试验方案等相关资料。

在试验过程中，若随机分配发生变更，申办者应及时与监管机构沟通，申办者应提供变更的充分依据并评估变更对试验完整性、I 类错误率、统计分析等各方面的影响。同样，在随机分配执行过程中遇到系统性问题时，应充分评估随机分配问题对试验可能造成的影响。

附录：中英文词汇对照表

中文	英文
简单随机	Simple Randomization
完全随机	Complete Randomization
区组随机	Block Randomization
非盲	Open Label
分层区组随机	Stratified Block Randomization
适应性随机	Adaptive Randomization
协变量适应性随机分配	Covariate Adaptive Randomization
应答适应性随机分配	Response Adaptive Randomization
胜者优先	Play-the-Winner, PW
用户验收测试	User Acceptance Testing , UAT
随机检验	Randomization Test
随机分配参数配置文件	Randomization Requirement Specification
置换检验	Permutation Test
中央随机	Central Randomization
最小化法	Minimization
数据监查委员会	Data Monitoring Committee, DMC

参考文献

[1] Rosenberger WF, Lachin JM. Randomization in Clinical Trials. Second Edition. Hoboken, New Jersey: John Wiley & Sons, Inc., 2016.

[2] Simon R, Simon NR. Using randomization tests to preserve type I error with response adaptive and covariate adaptive randomization. Statistics & Probability Letters, 2011, 81(7):767- 772.

[3] Downs M, Tucker K, Christ-Schmidt H, et al. Some practical problems in implementing randomization. Clinical Trials, 2010, 7(3):235-345.

[4] Therneau TM. How many stratification factors are “too many” to use in a randomization plan? Controlled Clinical Trials, 1993, 14(2):98-108.

[5] ICH. E3：Structure and Content of Clinical Study Reports. 1995.

NMPA

药物临床试验数据管理与统计分析计划指导原则

一、前言

药物临床试验过程中，制订规范的数据管理计划有助于获得真实、准确、完整和可靠的数据，严谨的统计分析计划有助于保证统计分析方法的合理性和结论的可靠性。因此，申办者有必要依照临床试验方案对数据管理工作和统计分析内容制定详细的计划。

随着近年来临床试验数据管理与统计分析技术与方法的不断发展，如电子源数据和电子数据采集系统的广泛应用，以及ICH E9（R1）《〈临床试验的统计学原则〉指导原则的增补：临床试验中的估计目标与敏感性分析》的出台和实施，对临床试验的设计、实施、数据收集和分析等方面的理念和实践都产生了影响。为了适应这些新的变化，现对2016年7月发布的《药物临床试验数据管理与统计分析的计划和报告指导原则》进行修订，更新数据管理计划与统计分析计划的技术要求，同时不再对数据管理报告和统计分析报告的撰写提出技术要求。对于上述资料的递交要求，建议申办者参考申报资料要求和ICH E3 等相关指导原则。

本指导原则主要适用于确证性临床试验，同时可供探索性临床试验参考使用。

二、数据管理计划

（一）一般考虑

数据管理计划由数据管理人员依据临床试验方案书写，详细、全面地规定并记录某一特定临床试验的数据管理任务，包括人员角色、工作内容、操作规范等。数据管理计划应在临床试验方案确定之后、第一例受试者筛选之前形成经申办者批准的版本且开始执行。在执行过程中，数据管理计划可能需要根据实际操作及时更新与修订。

数据管理工作需要多方参与，涉及临床研究机构和申办者指定的数据管理、统计、编程、监查、药物警戒等部门。各方职责在数据管理各步骤不尽相同，可分为负责、参与、审核、批准等，数据管理计划需明确参与各方及其人员的职责。同时，数据管理各步骤需建立并遵循相应的标准操作规程，数据管理计划应列出项目所遵循的标准操作规程清单。

（二）基本内容

数据管理计划应全面且详细地描述数据管理流程、数据采集与管理所使用的系统、数据管理各步骤及任务，以及数据管理的质量保障措施。

1. 试验概述

应简要描述临床试验方案中与数据管理相关的内容，一般包括研究目的和总体设计，如随机化方法及盲法（如有必要）、受试者数量、评估指标、试验的关键时间节点、重要的数据分析节点及对应的数据要求等。

2. 数据管理流程及数据流程

应描述数据管理的工作流程以及临床试验数据的流程，明确各环节的管理。如需要，可采用图示方式。

数据管理的工作流程应包含数据采集/管理系统建立（如病例报告表及数据库的设计）、数据接收与录入、数据核查与质疑、医学编码、外部数据管理、数据审核、数据库锁定、数据导出及传输、数据及数据管理文件的归档等过程。

数据流程应包含临床试验中所有类型和来源的数据（如病例报告表数据、中心实验室检测数据、药代动力学检测数据、患者报告结局数据、影像学数据等）的生成、采集、传输、导入、导出、存档位置、存储期限、负责单位/人等信息。应详细列出各种类型和来源的数据的流程，以便于对其进行数据管理。

3. 数据采集/管理系统

应列出采集临床试验数据的方法，如纸质或电子的病例报告表、采用的数据采集/管理系统的名称及版本。描述系统用户的权限控制计划，或者以附件形式提供相应信息，包含权限定义、分配、监控及防止未经授权操作的措施或方法、权限撤销等。

数据采集/管理系统应具备稽查轨迹、系统安全管理、权限控制及数据备份等功能，并通过完整的系统验证。电子数据采集/管理系统应同时具备除了上述功能之外的电子签名功能。

4. 数据管理步骤与任务

（1）病例报告表及数据库的设计

病例报告表的设计必须保证收集临床试验方案所规定的并满足统计分析需求的数据。无论病例报告表采用纸质版还是电子版，均需对其填写指南的撰写和管理有所阐述。

数据库的设计应与注释病例报告表和/或数据库设计说明保持一致，并依据数据核查计划建立逻辑核查，经用户接受测试合格后方可上线使用。应对此过程进行简要描述和说明。

（2）数据采集

应阐述数据采集的方式和过程，包括填写、接收和录入（或导入）等。

临床研究者或临床研究协调员应依照病例报告表填写指南，准确、及时、完整、规范地填写病例报告表。纸质病例报告表需定义已完成病例报告表的发送、转运、接收方式，如传真、邮寄、监查员收集等，同时定义收集频率及记录文件接收的格式等。纸质病例报告表通常采用双人独立录入后比对，以控制数据质量；在数据录入前需制定数据录入说明，确定数据录入的要求及方式。电子病例报告表由临床研究者或由其指定的临床研究协调员直接录入或由电子源数据直接导入。

（3）数据核查

在进行数据核查之前，应制定详细的数据核查计划，以明确数据核查内容、方式与核查要求。数据核查通常需要数据管理人员、监查员、医学人员及统计师等共同完成，因此应在数据核查计划中明确不同人员的职责分工。

（4）医学编码

医学编码是把从病例报告表上收集的不良事件、医学诊断、合并用药、既往用药、既往病史等的描述与标准字典中的术语进行匹配的过程。应制订医学编码计划，描述编码流程、编码方式、编码字典及版本，以及执行编码的相关标准文件。

（5）外部数据管理

外部数据是临床试验数据库的组成部分，包括但不限于实验室数据、随机化数据等。针对外部数据的管理，应制订其数据传输协议，描述数据类别、数据提供者、数据格式、传输方式、传输频率等协议内容，以及明确对外部数据进行质控的措施，如传输测试、一致性核查等。对于盲态的外部数据，如血液样品中的药物浓度或某些关键数据等，需描述此类数据的管理流程。

（6）电子源数据管理

目前，各研究中心数据的原始记录更多是以电子方式直接录入，例如电子健康记录、电子实验室报告、电子患者报告结局、数字化影像报告等。电子源数据有助于数据的及时、准确、完整采集，实现远程监查，实时数据审阅，避免某些不必要的数据重复录入，减少数据转录错误。如果电子源数据作为生成递交数据的直接来源，申办者应列出在临床试验中应用的与电子源数据相关的计算机化系统，数据安全防护措施、去隐私化措施及质控流程，系统访问权限控制，以及电子数据在软件和（或）硬件系统中的传输流程。电子源数据应满足可溯源性、易读性、同步性、原始性、准确性的质量要求及监管的文档保存要求，以便核查。

（7）数据审核与数据库锁定

为了保证数据质量，在临床试验过程中可以根据需要进行多次数据审核。一般地，数据审核应对数据质疑、脱落和方案偏离的病例、合并用药和不良事件的发生情况进行确认。应列出数据审核的要求，并描述数据审核操作的具体流程。临床试验若采用盲法设计，则数据审核也应在盲态下进行；若采用开放设计，则应对数据审核人员保持盲态。

数据审核是数据库锁定的前置条件。应说明数据库锁定的流程、实施部门及执行的标准操作规程文件。应尽量避免数据库锁定后的解锁和再锁定，同时应事先规定并说明其条件和流程。

（8）数据导出及传输

描述数据导出和传输的文件格式、导出内容（数据库、变量名及变量值编码）及传输介质，传输介质应符合国家法规和监管部门要求。

（9）数据及数据管理文件的归档要求

数据及录入/导入数据库的时间、录入者、数据稽查轨迹及数据管理文件都需要完整保存。数据通常包括但不限于：临床试验数据、外部数据、数据库元数据信息、实验室检测参考值范围、逻辑检验及衍生数据变更控制列表、数据质疑表和程序代码等。数据管理文件通常包括但不限于：数据管理计划、空白病例报告表、病例报告表填写指南、完成病例报告表的PDF 格式文件、注释病例报告表、数据库设计说明、数据库录入说明、数据核查计划、数据质控核查报告等。

应明确需要存档的临床试验数据、管理文件、介质、归档方式及时限。

5. 质量控制

需确定数据及数据管理操作过程的质控项目、质控方式（如质控频率、样本选取方式及样本量等）、质量要求及达标标准、对未达到预期质量标准的补救措施等。

三、统计分析计划

（一）一般考虑

相对于临床试验方案中对统计分析的阐述，统计分析计划是具有更多技术性和实际操作细节的一份独立文件，包括针对估计目标及其他数据进行统计分析的详细内容。统计分析计划应当由统计学专业人员起草，要求全面陈述临床试验数据的分析方法和呈现方式，以及预设的统计推断标准。统计分析计划应在临床试验方案第一版定稿之后形成。如需要，可以在临床试验过程中进行修改、补充和完善。不同时点的统计分析计划建议标注版本及日期，其终稿应在数据揭盲之前完成。在临床试验过程中，如果临床试验方案有修订，则统计分析计划也可根据需要作相应的调整。

确证性证据必须是在统计分析计划中事先规定的统计分析内容，其他的分析内容只能是支持性或探索性的。如果涉及期中分析，则相应的统计分析计划应最迟在每次期中分析前确定。

（二）基本内容

统计分析计划的基本内容涵盖但不限于研究目的、设计类型、比较类型、随机化与盲法、估计目标的定义、假设检验、样本量、分析集的定义、有效性及安全性评价的详细计划。

1. 试验概述

试验概述是对临床试验方案的简要描述，一般包括以下主要内容：

（1）研究目的：临床试验的主要目的和次要目的。

（2）设计类型：如平行设计、交叉设计、析因设计、单臂设计等。

（3）对照类型：如安慰剂对照、阳性对照、剂量组对照、目标值对照等。

（4）比较类型：明确临床试验的比较类型，如优效性检验、非劣效性/等效性检验及其界值等。

（5）随机化方法及其实施：明确随机化方法，如区组随机、分层随机及其分层因素等。

（6）盲法及设盲措施：说明是单盲、双盲，设盲措施是双盲单模拟、双盲双模拟，以及在盲态下执行统计分析的措施等。若采用开放设计，需说明是否采取了某种程度的设盲措施。

2. 估计目标

应依照临床试验方案描述估计目标的定义，每个估计目标应包括治疗（处理）、人群、变量（终点）、伴发事件及其处理策略、群体层面汇总等属性。

（1）主要估计目标

治疗（处理）：相关的治疗条件，以及适用时进行比较的其他治疗条件。这些可能是单独的干预措施，也可能是同时进行的干预措施的组合（如加载治疗），或者是一个复杂干预序列组成的整体方案。

人群：临床问题所针对的目标人群。可以是整个临床试验人群，也可以是按某种基线特征定义的亚组，或由特定伴发事件定义的主层。

变量（终点）：为解决临床问题从每个受试者获得的变量（或终点）。

伴发事件及其处理策略：针对伴发事件的临床相关问题，通常采用疗法策略、假想策略、复合变量策略、在治策略或主层策略来反映。一些伴发事件的处理策略可以通过治疗（处理）、人群和变量（终点）的精确说明来体现。无论采用何种策略，申办者均应提供充分的临床依据。

群体层面汇总：应规定变量的群体层面的汇总统计量，为不同治疗之间的比较提供基础，例如均数、中位生存时间、应答率等。

（2）次要估计目标

应参考前文的主要估计目标的描述。如果设有关键次要估计目标，则可与其他次要估计目标分开描述并置于这些次要估计目标之前。

（3）探索性估计目标

如果有探索性估计目标，可参考前文的主要估计目标的描述。如果无探索性估计目标，则无需描述。

3. 样本量

应阐述样本量的确定依据，包括样本量估计方法（包括所涉及的参数及其依据）、样本量估计所使用的软件模块等，以及样本量调整计划（如有）。确定的样本量应确保对主要估计目标的评价具有足够的检验效能。

4. 分析集

应根据不同研究目的描述分析集的定义。临床试验的分析集一般包括基于随机分组的分析集和安全性分析集。基于随机分组的分析集一般适用于人口学资料和基线特征的分析以及不同估计目标的评价；如果用于评价估计目标的人群不是该分析集的全部人群，则应在分析集中对这部分人群进行标记，并在本章节中描述标记的条件。安全性分析集一般适用于安全性分析。对于非随机化的临床试验可根据入组人群定义分析集。

5. 统计分析方法

统计分析应建立在真实、准确、完整和可靠的临床试验数据基础上，应根据研究目的、试验设计和估计目标等选择合理的统计分析方法。应给出不同类型资料的描述及统计推断方法，明确采用的单/双侧检验及其检验水准，并说明所采用的统计软件及版本号。针对统计分析涉及的衍生变量，应描述其衍生公式。通常以统计分析表或图的形式呈现统计分析结果，并以文字形式对其相关信息进行简要描述。

（1）受试者分布分析

对于受试者分布的分析，说明所采用的描述性统计分析方法和分析内容，如筛选、分配、终止治疗、终止研究等情况及其原因。

（2）人口学资料和基线特征分析

说明对于人口学等基线资料根据数据性质所采用的描述性统计分析方法。

（3）依从性和合并用药分析

对于依从性和合并用药的分析，说明所采用的描述性统计分析方法，并说明对依从性差、具有合并用药的受试者具体情况的描述方式。

（4）主要估计目标分析

应描述主要估计目标的主估计方法和敏感性估计方法。

①主估计方法

应阐明主要估计目标所涉及伴发事件的处理策略及相应的数据处理和分析方法，包括与伴发事件及其处理策略有关的缺失数据的处理。此处应避免与前面估计目标定义部分重复，应提供更多关于数据处理和分析方法的详细信息。

应定义主要估计目标统计检验的原假设、备择假设及其检验水准等。说明评价主要估计目标所采用的统计分析方法，相应的统计模型的选择要注意考虑变量（终点）的类型及其分布特征。治疗效应的估计应包括点估计和区间估计。

②敏感性分析方法

为了探索根据主估计方法得到的统计推断结果的稳健性，建议针对同一估计目标采用一种或多种形式的敏感性分析。

对于敏感性分析，同时变动主要分析的多个方面假设可能难以确定由哪些假设导致了目前所观测到的潜在差异。因此，应根据具体情况考虑是否需要进行同时变动多个假设的敏感性分析。阐明不同敏感性分析背后的假设变化，将有助于对敏感性分析结果做出更合理解释。敏感性分析方法同样需要事先说明。

（5）次要估计目标分析

应描述次要估计目标的估计方法，治疗效应的估计应给出点估计和区间估计。如果对次要估计目标设有假设检验，则应说明其原假设、备择假设以及检验水准等。如果设有关键次要估计目标，需参考前文的主要估计目标分析的描述，并将其置于其他次要估计目标的分析方法之前分别描述。

（6）探索性估计目标分析

如果有探索性估计目标，应描述其估计方法，治疗效应的估计应给出点估计和区间估计。如果无探索性估计目标，则无需描述。

（7）安全性分析

所有的安全性指标在分析中都需要高度重视，应特别关注严重不良事件以及与药物作用机理、代谢物和/或疾病领域相关的安全性事件。对不良事件及其严重程度的分级应采用统一的编码词典进行编码，并说明其名称和版本。

对于安全性数据的分析需说明所采用的统计分析方法。分析计划中需说明各种安全性数据的分类（如临床结局、实验室检查结果、生命体征等）及其汇总方法，如按照事件发生的频数、频次和发生率进行分析，必要时可进行组间比较。

对安全性数据的分析，必要时还可以结合适当的图形以显示某不良事件及其严重程度在各组间的分布，或不同时间段发生率和累计发生率的趋势。

（8）缺失数据处理

应预先说明缺失数据的处理方法及理由。应区分与伴发事件及其处理策略直接相关的缺失数据（如在疗法策略下，终止随机治疗后应收集但未被收集到的数据），以及与特定估计目标直接相关但与伴发事件及其处理策略不直接相关的缺失数据（如当直接退出研究未被预设为伴发事件时）。前者的处理方法应在估计目标的分析方法部分进行描述，后者的处理方法应在本章节进行描述。

（9）亚组分析

通常需要进行支持性亚组分析，主要目的是进一步探索试验药物在各个亚组中的疗效一致性。当涉及亚组分析时，需要对亚组给出明确的定义。

（10）补充分析

除以上的分析之外，还可以对估计目标进行补充分析，以提供对疗效更全面的了解。补充分析在解释临床试验结果方面的作用通常较小，因此需考虑补充分析的必要性和作用。

6. 多重性考虑

如果存在多重性检验问题，例如多个估计目标、多组间比较、多阶段整体决策、纵向数据的多个时间点分析、确证性亚组分析等，则应说明控制总I 类错误率的策略与方法。

7. 期中分析

如果事先制订了期中分析计划，则应阐述期中分析的时点（包括日历时点或信息时点）、决策策略和总I 类错误率控制方法等。如果成立了数据监查委员会，则应简要描述其任务。

参考文献

[1] 国家药品监督管理局. 化学药物临床试验报告的结构与内容技术指导原则. 2005

[2] 国家药品监督管理局. 药物临床试验的生物统计学指导原则. 2016

[3] 国家药品监督管理局. 临床试验数据管理工作技术指南. 2016

[4] 国家药品监督管理局. 药物临床试验的电子数据采集技术指导原则. 2016

[5] 国家药品监督管理局. 药物临床试验数据管理与统计分析的计划和报告指导原则. 2016

[6] 国家药品监督管理局. 药物临床试验质量管理规范. 2020

[7] 国家药品监督管理局. 药物临床试验多重性问题指导原则（试行）. 2020

[8] 国家药品监督管理局. 药物临床试验亚组分析指导原则（试行）. 2020

[9] 国家药品监督管理局. 药物临床试验数据监查委员会指导原则（试行）. 2020

[10] 国家药品监督管理局. 药物临床试验适应性设计指导原则（试行）. 2021

[11] 国家药品监督管理局. 用于产生真实世界证据的真实世界数据指导原则（试行）. 2021

[12] FDA. Guideline for Industry on Electronic Source Data in Clinical Investigations. 2013

[13] FDA. Guideline for Industry on Use of Electronic Health Record Data in Clinical Investigation. 2018

[14] ICH. E3: Structure and Content of Clinical Study Reports. 1995

[15] ICH. E6: Guideline for Good Clinical Practice. 1996

[16] ICH. E9: Statistical Principles for Clinical Trials. 1998

[17] ICH. E9(R1): Addendum on Estimands and Sensitivity Analysis in Clinical Trials to the Guideline on Statistical Principles for Clinical Trials. 2019

附录：词汇表

词汇	解释
电子源数据（Electronic Source Data）	是指以电子形式进行初始记录的数据，包括在临床研究开始之前或期间采集的可用于重现或评估该研究的原始记录及其核证副本中的信息。
电子数据采集（Electronic Data Capture，EDC）	是一种基于计算机网络的用于临床试验数据采集的技术，通过软件、硬件、标准操作程序和人员配置的有机结合，以电子化的形式直接采集和传递临床数据。
权限控制（Access Control）	是指按照临床试验电子系统的用户身份及其归属的某项定义组的身份来允许、限制或禁止其对系统的登录或使用，或对系统中某项信息资源项的访问、输入、修改、浏览能力的技术控制。
稽查轨迹（Audit Trail）	是计算机系统（如数据管理系统）的基本功能。是指系统采用安全的和计算机产生的带有时间烙印的电子记录，以便能够独立追溯系统用户输入、修改或删除每一条电子记录的日期、时间，以及修改原因，以便日后数据的重现。任何记录的改变都不会使过去的记录被掩盖或消失。只要受试者的电子记录保存不变，这类稽查轨迹文档记录就应当始终保留，并可供监管视察或稽查员审阅和复制。
系统验证（System Validation）	是指建立计算机化系统生命周期管理的文档化证据，以确保计算机化系统的开发、实施、操作以及维护等环节自始至终都能够高度满足其预设的各种系统技术标准、使用目的和质量属性，和处于监控的质量管理规程中，并能在其投入应用直至退役过程中都能高度再现和维护系统的标准和功能符合监管要求。
注释病例报告表（Annotated Case Report Form，aCRF）	是对空白的病例报告表的标注，记录病例报告表各数据项的位置及其在相对应的数据库中的变量名和编码。
数据核查计划（Data Validation Plan，DVP）	也称逻辑核查计划，是由数据管理员为检查数据的逻辑性，依据临床试验方案以及系统功能而撰写的系统设置文件。
逻辑核查（Edit Check）	是指临床试验数据输入计算机系统后对数据有效性的检查。这种核查可以通过系统的程序逻辑，子程序和数学方程式等方法实现，主要评价输入的数据域与其预期的数值逻辑、数值范围或数值属性等方面是否存在错误。
用户接受测试（User Acceptance Testing，UAT）	用户接受测试是由临床数据管理系统的用户进行的一种检测方式，检测记录可用以证明所设计系统经过了相关的验证过程。用户应全面检测所有正确和错误数据组合，记录检测结果。全面的检测文档应包括验证方案、测试细则记录、测试总结报告和验证总结报告等。
方案偏离（Protocol Deviation）	是指任何有意或无意偏离和不遵循临床试验方案规定的治疗、检查或数据收集规程的且未经伦理委员会批准的行为。一般来说，这种偏离只是逻辑性地或管理性地偏离临床试验方案，不会对受试者的安全和获益产生实质性的作用，也不会影响所收集数据的价值。
估计目标（Estimand）	对治疗效应的精确描述，反映了针对临床试验目的提出的临床问题。它在群体水平上汇总比较相同患者在不同治疗条件下的结局。
估计方法（Estimator）	采用临床试验数据计算估计目标的估计值的分析方法。
伴发事件（Intercurrent Event）	治疗开始后发生的事件，可影响与临床问题相关的观测结果的解释或存在。在描述相关临床问题时，需解决伴发事件，以便准确定义需要估计的治疗效应。
期中分析（Interim Analysis）	是指在临床试验期间使用试验累积数据进行的分析，如评价有效性的分析，评价安全性的分析，以及样本量的重新估计等。
安全性分析集（Safety Set，SS）	安全性与耐受性评价时，用于汇总的受试者集称为安全性分析集。安全性分析集应考虑包括所有至少接受一次治疗的且有安全性评价的受试者。
缺失数据（Missing Data）	是指对于既定估计目标的分析有意义、但未收集到的数据。它应该与不存在的数据，或由于伴发事件而被认为没有意义的数据区分开来。
敏感性分析（Sensitivity Analysis）	是指针对模型假设的偏离和数据局限，探索主估计方法统计推断的稳健性的一系列分析。
亚组分析（Subgroup Analysis）	通常是指将受试者根据其特征变量值分成不同的亚组，并估计各亚组的疗效和/或安全性的分析策略。
补充分析（Supplementary Analysis）	是指对于主要分析和敏感性分析之外的分析的一般描述，目的是更多地了解治疗效应。

附录：中英文对照表

中文	英文
安全性分析集	Safety Set, SS
伴发事件	Intercurrent Event
标准操作规程	Standard Operation Procedure, SOP
病例报告表	Case Report Form, CRF
补充分析	Supplementary Analysis
电子患者报告结局	Electronic Patient Reported Outcome, ePRO
电子数据采集	Electronic Data Capture, EDC
电子源数据	Electronic Source Data
多重性	Multiplicity
方案偏离	Protocol Deviation
估计方法	Estimator
估计目标	Estimand
患者报告结局	Patient Reported Outcome, PRO
稽查轨迹	Audit Trail
临床研究协调员	Clinical Research Coordinator, CRC
逻辑核查	Edit Check
敏感性分析	Sensitivity Analysis
期中分析	Interim Analysis
权限控制	Access Control
缺失数据	Missing Data
数据管理计划	Data Management Plan, DMP
数据核查计划	Data Validation Plan, DVP
数据监查委员会	Data Monitoring Committee, DMC
统计分析计划	Statistical Analysis Plan, SAP
系统验证	System Validation
亚组分析	Subgroup Analysis
用户接受测试	User Acceptance Testing, UAT
注释病例报告表	Annotated Case Report Form, aCRF
总I 类错误率	Familywise Error Rate, FWER

NMPA

罕见疾病药物临床研究统计学指导原则（试行）

一、概述

与常见疾病相比，罕见疾病及其药物研发具有以下特点：①罕见疾病中很多是严重或危及生命的疾病，许多属于先天遗传性疾病且多始发于儿童期；②对于罕见疾病，通常流行病学和疾病自然史等数据有限，医疗信息不充分，可能缺乏公认的疗效评价方法和研究终点；③患者群体小，开展临床研究的机会有限，药物研发经验较少；④疾病可能存在多种亚型，不同亚型患者的症状、体征、患病率及进展模式等可能各不相同，患者可能呈现较高的异质性；⑤小样本临床研究方法具有特殊性。因此，罕见疾病临床研究的设计、实施和结果解释常面临挑战，罕见疾病的临床用药普遍存在未被满足的需求。

对于罕见疾病，在药物研发过程中，需要选择合适的设计和分析方法以确保研究质量和结果的可靠性。临床研究设计是决定研发成功与否的重要因素之一，良好的研究设计不仅有助于达到研究目的，同时能提高研究质量和研发效率；合理的统计分析有助于结果的解释。本指导原则针对罕见疾病药物临床研究中的关键统计学问题进行阐述，旨在为申办者开展罕见疾病药物临床研究提供指导。本指导原则主要适用于以支持药品注册上市为目的的临床研究，也可供以非注册为目的的临床研究参考。

二、罕见疾病药物临床研究设计和分析

(一) 一般考虑

在临床研究设计阶段，申办者应根据研究目的确定合适的估计目标、入排标准、研究及治疗持续时间、数据收集频率等与临床研究相关的关键要素。

疾病自然史研究在罕见疾病药物开发中非常重要。疾病自然史是指在没有对患者进行干预的情况下，疾病从发生、发展到结局（疾病消退、患者死亡）的整个过程。疾病自然史研究是一项旨在跟踪疾病过程并预先计划的观察性研究。其目的是确定与疾病的发展和结局相关的人口统计学、遗传、环境及其他因素（例如治疗方式、伴随用药等）。因此，疾病自然史数据是获得疾病诊断、进展、转化、结局等方面信息的重要方式，在罕见疾病药物开发的各个阶段均起到非常重要的作用，特别是在患者人群的识别、研究终点的选择、疗效阈值的确定、生物标志物的识别与开发、对照的选择等方面，对于罕见疾病而言，疾病自然史数据对相关药物开发和上市后使用提供重要的定位和指导。早期临床研究数据应与疾病自然史数据相结合，从科学上构成完善且逻辑充分的证据链，以支持药物的后期开发。

对于临床研究的目标人群而言，一方面，由于患者总体人群小，罕见疾病的药物临床研究可考虑适当放宽入排标准使相对较多的患者进入研究，这不仅有利于患者招募，也能在目标治疗人群中更全面充分地评价药物的获益及风险。另一方面，对于异质性较高的罕见疾病，可考虑在临床研究中采用合理的富集策略以减少患者非药物相关的异质性，增强研究确证药物疗效的能力。如果研究的目标人群是患有罕见疾病人群的亚群，申办者应考虑在非目标亚群中对该药物进行评估，以确定研究结果是否可以推广到更广泛的患者人群。

申办者应从充分且设计科学合理的研究中获得确证目标人群的有效性证据，在伦理和实际操作可行的情况下，应尽量使用平行对照（例如安慰剂、标准治疗、阳性药物、不同剂量组对照等）设计。对照组的选择可能影响受试者的招募和脱落，申办者可考虑采用合理的研究设计，例如剂量效应、延迟启动、随机撤药、交叉设计、具有期中分析的适应性设计、以及同时利用试验和外部数据的混合合成对照组等设计方法，这些设计保留了安慰剂对照研究的优势，并且能够减少安慰剂的暴露，增加使用试验治疗的机会。

由于患者人数有限，建议尽可能最大限度地利用每个受试者的数据，例如进行扩展队列研究、在早期研发阶段进行随机等。如有必要，可采用合理的分层随机以提高组间可比性，并且通过预先指定的分层分析提高检验效能。

盲法是控制偏倚的重要手段之一。如果临床研究只能使用非盲设计，应说明其合理性，且必须采取所有可能的措施来控制潜在的偏倚。应严格将研究的总 I类错误率控制在一定水平。如果研究的主要目的涉及对多个人群（例如生物标志物阳性人群和所有受试者人群）或多个终点进行假设检验，或者计划实施因有效性而提前终止研究的期中分析等多重性控制问题，应选择合适的多重性控制策略，并在方案以及统计分析计划中事先进行详细规定。计划因有效性而提前终止研究的同时需考虑安全性评价的数据是否充分等方面。

许多罕见疾病目前尚无公认的有效性评价指标，建议在早期研发阶段建立新的终点评估方法或改进现有的方法。对于包含多个组成部分的复合终点，各个组成部分也应单独分析以确保整体结果不会过多依赖于少数组成部分；如果要对某些组成部分进行假设检验，则应事先规定控制总 I类错误率的方法。

在终点选择时需注意，罕见疾病临床研究可能纳入比常见病更广泛的疾病分期（例如疾病严重程度、并发症）或表型的患者。对于不同分期不同表型的患者，研究终点的有效性、灵敏度、可靠性或可解释性可能存在差异。另外，儿童患者和成人患者的终点指标也可能不同。

(二) 研究设计

通常情况下，随机对照试验通过随机分组最大限度地减少影响估计药物疗效的因素，因此研究结论的可靠性高，是评价药物疗效和安全性最有效、最准确的 “ 金标准 ” 。事实上，大多数已获批的罕见疾病药物均基于随机对照试验。对于常规的随机对照试验及可能适用于罕见疾病的剂量效应、延迟启动、随机撤药、交叉设计等设计方法，本指导原则不再详述，而主要阐述在常规随机对照试验中加入其他设计元素的方法（例如序贯设计、应答适应性设计、 n-of-1 设计、适应性无缝设计、篮式设计、贝叶斯方法等）、单臂试验、真实世界研究等。若采用单臂试验设计、真实世界研究等作为注册申报的关键性证据，申办者应说明其合理性。需要注意的是，任何一种研究设计都有其独特的优势和局限性。因此，实际药物开发中，申办者应根据研究目的和具体情形选择合适的设计并事先与监管机构沟通。

1. 序贯设计

序贯设计是指在控制总 I 类错误率的情况下，基于累积的数据进行期中分析，通过事先设定的合理的边界和样本量来判断疗效并决定试验是否继续。序贯设计适用于研究终点能够快速（相对于患者招募率）获得的临床试验。对于患者群体小、招募速度慢的罕见疾病临床试验，该方法可能适用。

2. 应答适应性设计

应答适应性设计是指新纳入受试者的随机分配概率根据已入组受试者的治疗结局而改变。这种设计的具体形式很多，常见的是 “ 胜者优先 ” 法，即根据已入组受试者的应答，如果一种治疗显示了更好的疗效，那么新纳入研究的患者更有可能在盲态下被分配到该治疗组中。此类设计可增加患者在潜在相对有效的治疗组中的暴露机会，同时可减少在剂量选择和确证性试验阶段的总体样本量。与序贯设计相同，该设计适用于能较快（相对于患者招募率）获得临床结局的试验。然而，这种设计不是基于随机分配概率固定的标准假设，且需注意盲态保持、统计分析等方面的问题。

3. n-of-1设计

n-of-1 试验又被称为结构化的患者自身随机多交叉对照试验设计，简称自身多阶段随机对照试验。典型的 n-of-1 试验包括多个治疗周期（一般 ≥3 ），每个治疗周期内包括若干个阶段，受试者在每个阶段中接受某种治疗。第一个治疗周期内的治疗顺序（例如试验 -对照、对照 -试验）随机确定，之后每个治疗周期内的治疗顺序随机确定或使用系统性的平衡设计（例如，试验有两个组别，第一次随机确定的治疗顺序是对照 -试验，后续治疗周期直接分配试验 -对照、对照 -试验的治疗顺序，并依此类推）确定。这种设计的主要目标是通过对同一受试者进行多周期的交叉治疗，观察该受试者对试验药物和对照药物的反应，从而为该受试者寻找最优治疗方案。当有多个受试者进行了相同设计的 n-of-1 试验时，可采用与交叉设计和 meta 分析相似的方式合并多个 n-of-1 试验的结果。一系列 n-of-1 试验通常能够更好地显示出疗效趋势。以 A 、 B 两种治疗 3 个周期为例，单个受试者的 n-of-1 试验设计示意图见图 1 。

图 1：n-of-1试验设计示意图

<p style="text-indent:2em">n-of-1 设计的优势在于利用患者自身对照设计，可以提高统计效率，减少样本量。同时能保证每个受试者都能得到阳性治疗。 n-of-1 设计也有其局限性，例如，较适用于速效对症治疗和在治疗结束后迅速恢复到稳定基线值的疾病。对于疗程较长或起效较慢、以及自限性疾病，不宜使用 n-of-1设计。需要注意的是，与一般的交叉设计类似， n-of-1 设计的前后不同阶段可能存在延滞效应。因此在试验的每个治疗阶段之间需考虑洗脱期。另外，受试者的随访时间比平行设计要长，因此受试者脱落的可能性较高。此外，研究设计还需要考虑治疗顺序的随机化和盲态的保持等问题。</p>

4. 适应性无缝设计

适用于罕见疾病的适应性无缝设计主要是推断无缝设计，这种设计允许使用早期临床试验数据，在患者人群数量有限的情况下可能适用。例如，适应性 II/III 期推断无缝剂量选择的设计通常可以缩短由 II 期试验结束到 III 期试验开始时的时间间隔、减少试验总样本量、缩短试验时长等。另外，II 期入组的受试者有更长的随访时间，有利于更早观察到药物的长期疗效和安全性。在使用适应性无缝设计时需考虑控制总 I 类错误率、保持试验完整性（例如，防止期中分析结果被泄露导致影响研究者的后续操作以及受试者的入组）等问题。

5. 篮式设计

适用于罕见疾病的主方案设计主要是篮式设计。篮式设计旨在评估一种药物治疗具有同一种生物学特征的不同疾病类型的治疗效果，每一子方案针对一种或多种类型的疾病。

6. 贝叶斯方法

贝叶斯方法是将先验信息与试验的样本信息综合得出后验分布，再根据后验分布进行统计推断的方法。即利用先验信息校正研究结果。先验信息的来源包括但不限于历史研究、专家经验及无信息先验等。借用各种来源可靠的证据作为先验信息，可减少当前试验的样本量、缩短试验时长、提高检验效能，对于招募困难的罕见疾病可能适用。

为了获得充分的统计学证据，保证研究的质量、有效性和完整性，申办者应充分评估先验信息的合理性以及对统计学结论和最终结论可能带来的影响。建议使用其他合理的先验分布作为敏感性分析，以确保研究结论不会过分依赖先验信息。

7. 单臂试验

当罕见疾病患者数量极少、临床试验实施难度较大，尤其是当前缺乏有效治疗手段且危及生命的重大疾病，开展随机对照试验可能存在医学伦理风险，此时若考虑采用单臂试验设计，申办者需提供相应依据并阐明偏倚控制措施。单臂试验通常采用外部对照，外部对照可以是目标值，也可以是外部的个体层面数据。

对于以目标值为对照的单臂试验，目标值的确定应有充分依据，它可以来源于前期研究（例如， meta 分析或某一个具有最佳参考意义的研究）的效应量，也可以是行业内广泛认可的效应量，以此作为试验组至少应取得的目标效应。以目标值为对照的单臂试验须在研究设计和实施过程中控制选择偏倚，保证入组患者的代表性和与历史对照的可比性，并在统计分析时考虑可能的偏倚（例如选择偏倚、幸存者偏倚等）。由于缺乏同期平行对照，其研究结果应谨慎解读。

对于以外部个体层面数据为对照的单臂试验，有平行对照和历史对照两种形式，鼓励采用平行对照。采用历史对照是真实世界研究的一种情形，如果采用历史对照，需事先对历史数据进行治理，当治理后的数据满足适用性要求后，才可开展相关研究。外部对照研究终点的选择应与试验组保持一致，如果某些临床终点的测量在外部对照与试验组并非完全一致，需事先评估其影响并在设计时提出应对措施。试验组的样本量估计仍需基于统计学假设或估计精度，外部对照的样本量需考虑匹配因素等方面，因此外部对照的样本量通常多于试验组。

8. 真实世界研究

真实世界研究是指针对预设的临床问题，在真实世界环境下收集与研究对象健康有关的数据（真实世界数据）或基于这些数据衍生的汇总数据，通过分析，获得药物的使用情况及潜在获益 -风险的临床证据（真实世界证据）的研究过程。若申办者考虑利用真实世界研究作为支持罕见疾病药物上市的关键证据，建议参照相关指导原则进行科学严谨的设计，并就方案、数据治理 / 管理计划、统计分析方法等与监管机构沟通并达成一致意见。

(三) 样本量

对于罕见疾病临床研究，所需的样本量应保证能够充分评估药物的获益和风险。罕见疾病样本量的确定通常采用传统的估计方法，即基于临床研究目的、设计类型、原假设、备择假设、目标疗效以及个体变异，估计在一定的检验水准和检验效能下获得具有统计学意义结果所需的样本量。罕见疾病临床研究最大的挑战是患病率低，没有足够多的患者可纳入研究，因此申办者可能会采用灵活的设计方法，从而在一定程度上减少研究所需的样本量。如果采用非传统方法确定样本量（例如，使用贝叶斯等方法），样本量估计方法的合理性（例如，先验分布、参数估计值等设置是否合适）需经充分论证，必要时可采用不同的方法和 / 或基于不同的模拟参数进行估计，相关参数需与监管部门充分沟通并达成一致意见，在综合考量后确定最终样本量。样本量估计应有完整详细的记录，包括但不限于相关依据、文档、代码及结果，以支持监管部门进行必要的审核和验证。另外，样本量的确定还应考虑有充分的安全性评估数据。若采用国际多中心临床研究，样本量分配建议参考 ICH E17。

(四) 统计分析

1. 统计模型的假设

罕见疾病研究的样本量一般较少，可能需考虑复杂、高效、获取信息丰富的统计分析方法。其中许多方法涉及利用统计模型，值得注意的是，只有在统计模型前提假设被满足的情况下，利用临床研究数据对疗效做出的推断才合理。在小样本情况下，实际中难以检验预设统计模型的前提假设是否正确，因此设计时应考虑在模型不同假设条件下及利用不同分析方法进行充分的敏感性分析，以评价结论的稳健性。判断模型是否适用及验证模型假设非常重要，申办者应在方案或统计分析计划中对模型假设、协变量选择及所用分析方法的合理性等关键统计学问题进行充分说明，并与监管机构沟通达成一致意见。

2. 统计分布

对统计分布的假设是使用统计模型的前提，当无法确定数据是否服从某特定统计分布（例如正态分布）时，可考虑使用非参数方法。标准的渐近方法基于一个假定，即当样本量足够大时，假设检验统计量服从特定的分布。这在罕见疾病研究中样本量较小的情况下可能并不适用。当不确定渐近假定是否成立时，应采用合适的方法评估方法的小样本性质或考虑使用精确方法。

3. 协变量

在模型中纳入重要的协变量可能会提高疗效估计的精度和检验效能，但应注意协变量数量不宜过多。统计分析时应考虑随机分层因素，但它们之间的交互作用项通常不纳入主要分析模型。

4. 重复测量

采用受试者多时间点的（或身体的不同部位的）重复测量设计，可提高检验效能。需要注意的是，在重复测量设计中，同一受试者的观测结果之间是非独立的。忽视这种非独立性可能导致使用错误的统计学方法或得出错误的结论。此时可采用层次线性模型、混合效应模型等非独立数据的统计分析方法。

三、罕见疾病临床研究实施中的注意事项

相对于常见疾病的药物临床研究，罕见疾病药物临床研究往往更常面对入组困难或入组时间长、样本量有限、入组受试者异质性高、缺乏有效治疗手段等问题，因而对临床研究实施中的质量有更高的要求。

第一，研究者往往缺乏足够的罕见疾病临床研究经验。申办者需要谨慎选择临床研究中心，确保研究中心具备相应条件；确保研究者以及研究人员对方案有充分的理解并严格按照方案和 GCP 执行研究；确保研究者、研究参与人员具备相关经验，并对研究运行中可能产生的突发事件有充分的处置能力。

第二，罕见疾病患者，特别是儿童疾病和母婴疾病的患者，往往对于临床研究的相关知识了解很少，造成患者对临床研究的接受程度不高、参与临床研究的意愿不强。因此，需要提高患者的参与意识，使其充分了解临床研究的流程以及可能的获益与风险，使受试者充分知情并对其进行最大程度的随访，尽可能降低脱落率。对于停止用药的受试者，应鼓励其继续参与研究并进行随访观察，使研究信息的完整性和可解释性最大化。

第三，罕见疾病临床研究往往入组难度大、入组时间长，从而导致整个临床研究周期较长。在一段相对较长的时段内，疾病诊断技术的发展可能导致入组受试者的特征改变，从而产生选择性偏倚；亦或由于标准治疗的改变导致对照组的选择困难。这些都可能给临床研究的实施和分析带来额外的困难，需要在研究设计阶段给予必要的考虑。

第四，为了确保研究人群的代表性以及足够的样本量，罕见疾病药物临床研究的入排标准有时相对较宽。这就要求入组过程必须严格遵循受试者的筛选条件，确保避免不必要的非目标人群计划外入组。

第五，罕见疾病患者数量有限，且临床研究的数据可能有多个来源。这就要求数据的收集和整理必须科学规范。标准化操作流程（ SOP ）、质量控制及数据质量保证都至关重要，另外还需保证疗效评估的科学、合理及规范。

四、证据评价

与常见疾病药物一样，罕见疾病药物开发的总体目标是确证药物治疗某疾病的有效性和安全性，评估药物的获益 -风险，并为药物说明书的撰写提供依据。因此，罕见疾病药物的开发和评价标准也应基于对药物安全性和有效性的合理评估。

(一) 有效性和安全性证据评价

在与常见疾病药物评价统一的监管标准下，鉴于罕见疾病的特点，对相关药物的评价具有一定的灵活性。特别是罕见疾病药物开发证据的建立可能需要考虑多形式、多方面、或合并来自多个数据源的证据，而药物的评估也将基于对全部证据的分析，包括对不同终点治疗效果的临床意义，治疗效果的持久性，以及安全性的评估等。所有形式的证据都提供了一定的信息，并且应该包含在最终的综合分析中。例如，在极罕见的疾病中，单病例研究的综合评价可能是提供证据的唯一途径。对于此类研究，应在研究方案中进行前瞻性计划和描述。对所有数据（包括其他来源的数据）进行系统的审查和综合分析将增加证据的强度，例如对个别病例报告或观察性研究进行的综合分析。

在罕见疾病药物开发中经常缺乏公认的主要有效性终点和评价方法，因此建议在设计时尽可能考虑合理或可能的终点（包括替代终点、患者报告结局等），并在最终研究报告中呈现所有数据，以获得更加充分的证据。同时，可以在临床研究期间对疗效指标的合理性进行探索，为疗效指标选择的合理性提供证据。鼓励在临床研究期间研发适合罕见病的新的测量工具和终点指标。合理的替代终点与临床疗效的关系必须明确，才可能被接受。否则应根据预先制定的计划，用进一步的证据支持临床有效性、安全性和获益 -风险的评价。

罕见疾病药物临床研究的统计设计、数据收集与分析以及结果的解读应遵循 ICH E9 及 E9 （ R1 ），充分考虑估计目标及伴发事件的影响。申报资料通常应包括事先计划的统计分析，例如主要分析、敏感性分析、补充分析、亚组分析等。对于罕见疾病研究，由于患者人数少，可能需要复杂的统计分析方法，但需注意进行充分合理的敏感性分析，以确保结论的稳健性。另外，需注意临床研究实施中的相关问题对研究结果的影响，例如缺失数据、异质性等，要尽可能的量化这些问题对结果的潜在影响。

在利用真实世界证据时，应充分评估研究方法的科学性、数据的质量和相关性以及研究结果的可靠性，重点针对研究中潜在的选择偏倚、信息偏倚和混杂偏倚进行分析，并分别阐述在研究设计、实施和统计分析过程中对偏倚的相关控制措施。对于研究结果，应探讨其局限性，并进行充分的敏感性分析，以检验研究结论的稳健性。

药物开发过程中安全性评价的目标是在合理的时间内，根据药物的预期用途，在合理数量的受试者中描述药物的安全性。对于罕见疾病药物，应考虑到该疾病患者数量有限所带来的可能挑战。为了尽可能增加上市前的安全性数据，申办者应考虑使用增强安全性评估的方法，例如疾病自然史数据、剂量选择研究、设置对照组及辅助安全队列等。充分可靠的自然历史数据有助于区分药物相关的不良反应和潜在的疾病表现。在伦理和实际操作可行的情况下，采用平行对照组设计可以帮助对不良事件因果关系的解释。辅助安全队列（例如，与有效性研究平行的安全性队列、药物其他适应症的研究、类似药物的研究）可以丰富上市前安全性数据库，提供更多的药物安全性信息。针对药物开发计划中可能面临的挑战，申办者应提出具体的应对策略。

(二) 获益-风险评估

虽然罕见疾病研发中的数据可能不够丰富，但仍需清晰呈现良好的获益 -风险特征。申办者应遵循 ICH M4 E(R2) 的要求为药品的预期用途提供一个简洁、综合和可以明确解释的获益 -风险评估。获益 -风险分析需考虑罕见疾病特点，例如目前是否具有有效的治疗手段、疾病的严重程度（是否严重乃至危及生命）、临床急需性、以及患者在未满足医疗需求的情况下对风险的耐受性等。获益 -风险分析应首先明确定义获益及风险、提供关键获益和风险相关的数据，并对数据的局限性和不确定性进行充分评估。对于明确或潜在的风险，应提出相应的风险管理计划。对数据分析结果的解读需要同时考虑统计学意义和临床意义，可将患者报告结局和医生临床观点纳入获益 -风险分析，并将其作为重要的补充。鉴于罕见疾病药物在临床研究中的局限性，通常需要在药物上市后进一步收集相关的安全性、有效性数据，为药物的获益 -风险评价提供更加充分的证据和信息。

五、与监管机构的沟通

由于罕见疾病在研究设计、实施、分析和报告中的特殊性，鼓励申办者与监管机构就方案设计及实施中的关键统计学问题进行及时沟通。进行沟通前，申办者应该向监管机构预先提供方案及关键统计学问题的详细资料。

六、参考文献

[1] Cornu C, Kassai B, Fisch R, et al. Experimental designs for small randomised clinical trials: an algorithm for choice. Orphanet J Rare Dis. 2013, 8: 48.

[2] Fonseca D A, Amaral I, Pinto A C, et al. Orphan drugs: major development challenges at the clinical stage. Drug Discovery Today. 2019, 24(3): 867-872.

[3] Friede T, Posch M, Zohar S, et al. Recent advances in methodology for clinical trials in small populations: the InSPiRe project. Orphanet J Rare Dis. 2018, 13(1): 186.

[4] ICH. ICH E1A: The Extent of Population Exposure to Assess Clinical Safety: For Drugs Intended for Long-term Treatment of Non-Life-Threatening Conditions. 1995.

[5] ICH. ICH E9: Statistical Principles for Clinical Trials. 1998.

[6] ICH. ICH E9(R1): Addendum on Estimands and Sensitivity Analysis in Clinical Trials to the Guideline on Statistical Principles for Clinical Trials. 2019.

[7] ICH. ICH E17: General Principle for Planning and Design of Multi-Regional Clinical Trials. 2016

[8] ICH. M4E(R2): The CTD- Efficacy. 2017.

[9] Public Policy Committee, International Society of Pharmacoepidemiology. Guidelines for good pharmacoepidemiology practice(GPP). Pharmacoepidemiol Drug Saf. 2016, 25(1): 2-10.

[10] Chow S C, Chang Y W. Statistical considerations for rare diseases drug development. J Biopharm Stat. 2019, 29(5): 874-886.

[11] 国家药品监督管理局药品审评中心 . 真实世界证据支持药物研发与审评的指导原则（试行） . 2020.

[12] 国家药品监督管理局药品审评中心 . 用于产生真实世界证据的真实世界数据指导原则（试行） . 2021.

[13] 国家药品监督管理局药品审评中心 . 罕见疾病药物临床研发技术指导原则 . 2021.

附录：中英文对照表

中文	英文
n-of-1 设计	n-of-1 Design
贝叶斯方法	Bayesian Method
层次线性模型	Hierarchical Linear Models
单臂设计	Single-arm Design
非独立	Non-Independent
辅助安全队列	Auxiliary Safety Cohort
个体层面数据	Individual-level Data
混合合成对照组	Hybrid Synthetic Control Arm
混合效应模型	Mixed-effects Models
疾病自然史研究	Natural Disease History Study
剂量效应	Dose Response
渐近方法	Asymptotic Methods
交叉设计	Cross-over Design
精确方法	Exact Methods
可解释性	Interpretability
可靠性	Reliability
扩展队列研究	Expansion Cohort Study
篮式设计	Basket Trial Design
灵敏度	Sensitivity
平行设计	Parallel Groups Design
适应性 II/III 期推断无缝剂量选择设计	Adaptive Phase II/III Inferential Seamless Dose-selection Design
适应性无缝设计	Adaptive Seamless Design
随机撤药设计	Randomized Withdrawal Design
随机对照试验	Randomized Controlled Trial (RCT)
速效对症治疗	Fast-acting Symptomatic Treatments
完整性	Integrity
消退	Resolution
幸存者偏倚	Survivorship Bias
序贯设计	Sequential Design
延迟启动设计	Delayed Start Design
应答适应性设计	Response-adaptive Design
阈值	Threshold

NMPA

药物临床试验盲法指导原则（试行）

一、前言

盲法也称设盲，指在药物临床试验中使受试者方（受试者及其陪同人员）和/或研究者方（申办者及其委托机构、临床试验机构、其他相关机构等的人员）不知道治疗（也称为 “处理”，以下均简称“治疗”）分组信息，是控制试验偏倚的一项重要措施。治疗分组信息是指能够显示、揭示或用于推测受试者接受何种治疗的所有信息。对于随机临床试验，盲法往往与随机分组相结合，作用于试验的全过程，以避免因“知道随机分组信息”而导致可能出现的试验偏倚。

如果在临床试验过程中未设盲，试验相关人员知道治疗分组信息可能就会有意或无意地在心理上产生差异性影响，进而导致试验结果发生偏倚。例如，研究者可能会倾向性地选择入组受试者，受试者可能会根据入组情况产生治疗效应之外的不同反应，评价者可能会在进行有效性与安全性评价时产生主观偏差等。这种偏倚对于试验结果的影响是极难评估的。因此，盲法思想应自始至终地贯彻于整个临床试验中，以最大程度地控制试验偏倚。

根据疾病特征、药物特点、试验方案设计和实际操作难度等方面的差异，临床试验的盲法被分为双盲、单盲和开放等形式，其设盲措施和盲态保持程度不尽相同。在临床试验的盲法实施过程中，除了试验结束后揭盲之外，可能存在紧急揭盲、期中分析揭盲甚至意外破盲等情况。目前我国药品监管机构尚缺乏对上述不同情况的系统性和规范性要求。

本指导原则主要阐述在药物临床试验中不同情况下对盲法实施的系统性和规范性要求，旨在为申办者在临床试验中正确设计和实施盲法提供技术性指导。如无特殊说明，本指导原则中有关要求的落实均由申办者承担主体责任。本指导原则主要适用于以支持药品注册上市为目的的确证性临床试验，也可供以非注册上市为目的的临床试验参考。

二、盲法分类

根据设盲程度的不同，药物临床试验的盲法分为双盲试验、单盲试验和开放试验等三种类型。

（一）双盲试验

双盲试验是指在临床试验中受试者方和研究者方对受试者的治疗分组信息均处于盲态。双盲是最严格的盲法，从盲底产生、药物编码、受试者用药、数据监查、数据管理到统计分析等都应保持双盲状态，直到达到了预先定义的揭盲条件。

原则上，在具有可行性且不存在伦理问题时，临床试验应尽量采用双盲设计。一般情况下，对主要疗效指标为主观指标且由研究者或者受试者评价的临床试验，均应采用双盲设计。例如，采用量表评价治疗效应的神经和精神类药物、用于缓解症状（如过敏性鼻炎、疼痛等）的药物，或者以“患者报告结局”为主要疗效指标等的临床试验。

（二）单盲试验

单盲试验是指在临床试验中受试者方对受试者的治疗分组信息处于盲态。即便如此，也应尽可能缩小研究者方中知道受试者的治疗分组信息的试验相关人员范围。

在双盲试验难以实施的情况下应优先考虑采用单盲试验，并应在临床试验方案中阐明理由，描述控制试验偏倚的具体措施。例如，采用客观指标作为主要疗效指标，采用中央随机化系统/交互式应答系统管理受试者入组，参与受试者入组以及参与有效性和/或安全性评价的试验相关人员处于盲态等。应特别注意，除试验方案规定之外，在试验过程中不能进行治疗分组之间的分析和比较。

（三）开放试验

开放试验是指在临床试验中受试者方和研究者方均知道受试者的治疗分组信息。在双盲试验和单盲试验均难以实施的情况下，方可考虑采用开放试验，并应在临床试验方案中阐明理由，描述控制试验偏倚的具体措施。例如，采用客观指标作为主要疗效指标，采用中央随机化系统/交互式应答系统管理受试者入组等。

由于开放试验中所有试验相关人员均知道受试者的治疗分组信息，可能会带来某种程度的试验偏倚，因此也应尽可能采用一些合适的设盲措施将试验偏倚降到最低。例如，对参与受试者入组的试验相关人员保持盲态，采用“独立评价”以确保对有效性和/或安全性评价处于盲态，对数据分析人员保持盲态等。应特别注意，除试验方案规定之外，在试验过程中不能进行治疗分组之间的分析和比较。

三、设盲措施与操作

药物临床试验的盲法通常由多种设盲措施构成，不同类型的盲法采取的设盲措施会有所不同，不同的设盲措施具有不同的操作难度。常见的设盲措施包括分配隐藏、治疗模拟、药物编码、研究参与人员的盲态保持、盲态数据审核和独立评价等。应根据临床试验确定的盲法选择合适的设盲措施。

（一）分配隐藏

分配隐藏是指在临床试验的受试者入组前对预先确定的治疗分组信息及其生成方法和参数进行隐藏的措施。对于随机临床试验，主要是对随机分组信息及随机方法和参数进行隐藏。常用的分配隐藏的方法有信封法、交互式应答系统等。无论采用何种方法，都需要确保能够真正实现隐藏分组信息的目的。

应该预先制定详细的分配隐藏标准操作规程，包括生成治疗分组信息和保管分组信息的方法和执行人员等。治疗分组信息及其生成方法和参数称为临床试验的盲底。应由申办者委托独立于研究者方的第三方机构负责执行分配隐藏并生成和保管盲底，可以采用纸质的或电子的形式保存，但需制定严格的保管措施以保证盲底的安全性和保密性。参与分配隐藏的人员不应参与受试者招募入组及其之后的试验实施工作。

（二）治疗模拟

根据临床试验确定的盲法，尤其是双盲试验，为了保持盲态，经常需要根据治疗措施进行安慰剂模拟。在安慰剂对照临床试验中，需要根据试验药物进行安慰剂模拟，称为单模拟；在阳性对照临床试验中，有时需要根据试验药物和阳性对照药品分别进行安慰剂模拟，称为双模拟。

根据试验药物和/或阳性对照药品进行安慰剂模拟，除了在有效成分上不同外，不仅应保证剂型、形状、颜色、外包装等外观方面相同，在重量、溶解度、味道、气味等内在方面也应尽量保持相仿。当阳性对照药品由于技术原因无法完全实现上述的安慰剂模拟要求时，也可采用改变包装的方法，以达到全部受试者所用药物在外观上无法区分的目的。但应当充分评估并有数据（如稳定性、溶出度等）证明所进行的操作未对原产品的质量产生明显影响。

（三）药物编码

药物编码是指按照已生成的治疗分组信息对临床试验用药品（包含试验药物、阳性对照药品、安慰剂）的最小独立包装预先进行编号。试验用药品的标签上只标明编号和用量、用法说明、有效期等，使试验相关人员均无法从药物外观及包装上获取受试者的治疗分组信息。药物编码系统应当包括紧急揭盲程序。药物编码过程应有监督措施和详细记录且可追溯。药物编码应由参与分配隐藏的人员主导完成。参与药物编码的人员不应参与受试者招募入组及其之后的试验实施工作。

（四）研究参与人员的盲态保持

除了分配隐藏和药物编码等人员之外，研究参与人员主要是指受试者及其陪同人员、主要研究者、研究医生、研究药师、研究护士、临床协调员、监查员、数据管理员、统计分析师等。盲态保持是指根据临床试验确定的盲法，在分配隐藏和药物编码等设盲措施建立后，直至揭盲前，全部或部分研究参与人员一直对受试者的治疗分组信息处于盲态。

根据临床试验确定的盲法，应对每位研究参与人员细化职责分工，按照其岗位授权要求划分为盲态保持人员和非盲态保持人员。应采取严格措施在盲态保持人员和非盲态保持人员之间设定“防火墙”，以避免意外破盲。应预先制定详细的盲态保持标准操作规程，无论是盲态保持人员还是非盲态保持人员均应掌握并严格执行该操作规程。

根据临床试验确定的盲法，受试者知情同意、药物管理、病历/病程书写、处方开具、医嘱下达、护理记录、安全性事件管理、生物样本采集和管理、样本检测数据传输、试验数据管理、盲态数据审核等试验过程中的工作文件也应区分为盲态保持文件和非盲态保持文件。应在盲态保持文件中隐藏治疗分组信息，也应在非盲态保持文件中尽可能隐藏分组信息。两类文件应分开收集、管理和保存，并预先制定详细的标准操作规程。盲态保持人员严禁接触非盲态保持文件。

（五）盲态数据审核

盲态数据审核是指在对受试者的治疗分组信息处于盲态的情况下对临床试验过程中的数据质疑、脱落和方案偏离的病例、合并用药和不良事件的发生情况等进行确认。应该预先制定详细的盲态数据审核标准操作规程，数据审核人员应掌握并严格执行该操作规程。无论临床试验采用何种盲法，甚至是开放试验，均应进行盲态数据审核。

（六）独立评价

在临床试验中，尤其是在多中心临床试验中，由于某些有效性和安全性评价指标具有较强的主观性，如对组织病理学和影像学资料的评价，其评价结果易受不同研究者实践经验影响；或者由于不同中心的实验室检测人员资质、仪器设备、检测方法、判断标准等存在差异，易对某些实验室检测指标如生物标志物的评价产生影响；或者由于试验处于非盲状态，对试验结果的评价易受研究参与人员主观意识的影响。为了控制上述影响所导致的试验偏倚，可以采用独立评价机制进行盲态评价。

常见的独立评价机制包括建立独立评价委员会统一进行评价，委托第三方实验室统一进行检测，或者在多中心临床试验中指定某一中心统一进行评价或检测等。采用独立评价时，应针对独立评价人员预先制定详细的盲态保持标准操作规程，确保其接收和传回的临床试验资料对受试者的治疗分组信息保持盲态。独立评价人员应掌握并严格执行该操作规程。

对处于盲态的临床试验，有时需要进行非盲态期中分析。为了确保研究参与人员保持盲态，通常会由独立的数据监查委员会及其独立统计团队执行非盲态期中分析。数据监查委员会及其独立统计团队应按照《药物临床试验数据监查委员会指导原则（试行）》的要求做好其内部运行及与外部交流过程中的盲态保持，防止因非盲态期中分析结果泄露而导致产生试验偏倚。

四、揭盲情形

在药物临床试验中设盲，则必须考虑揭盲的问题。揭盲是指揭晓受试者的治疗分组信息。在临床试验中常见的揭盲情形有终末揭盲、期中分析揭盲和紧急揭盲等。应预先制定详细的揭盲标准操作规程，并规定参与揭盲人员。揭盲人员应掌握并严格执行该操作规程，需保留相关记录以确保揭盲过程可追溯。

（一）终末揭盲

终末揭盲，是指按照临床试验方案规定，在数据库锁定、分析人群划分及统计分析计划定稿完成后，揭晓受试者的治疗分组信息以进行分析和总结。

（二）期中分析揭盲

某些临床试验可能需要进行非盲态期中分析。非盲态期中分析一般由数据监查委员会及其独立统计团队执行。因此，期中分析揭盲是指按照临床试验方案规定，在预先设定的期中分析时点上完成数据库锁定、分析人群划分以及定稿统计分析计划后，仅向数据监查委员会及其独立统计团队揭晓受试者的治疗分组信息以进行分析和总结。

数据监查委员会根据非盲态期中分析结果为申办者提供建议。当申办者根据建议认为无需修订临床试验方案或修订临床试验方案后继续开展试验，则本次期中分析揭盲结束。当决定终止试验，则本次期中分析揭盲可转为终末揭盲。当决定使用期中分析结果申请注册上市且同时监管机构要求继续开展试验进行盲态下长期随访，则本次期中分析揭盲结束，但需要由专门的团队负责申请注册上市，负责继续开展试验进行长期随访的团队仍保持盲态。应采取严格措施在两个团队之间设定“防火墙”，以避免意外破盲。

（三）紧急揭盲

紧急揭盲是指按照临床试验方案规定，基于受试者安全考虑和其他特殊原因，通过预先制定的标准操作规程，在紧急情况下获得单个或部分受试者的治疗分组信息。对于预期的和非预期的严重不良事件，只有当受试者发生紧急情况（如需要抢救）时研究者必须知道治疗分组信息才能进行处理，方可紧急揭盲。若对紧急情况的处理没有必要知道治疗分组信息，则无需紧急揭盲。

一旦发生紧急揭盲，需要及时记录紧急揭盲的时间、原因和执行人员，同时尽快通知监查员，并递交安全性事件报告至伦理委员会。在试验结束后，应对紧急揭盲的次数、原因、范围和时间做出描述和分析，作为对有效性与安全性评价的参考。

五、意外破盲处理

意外破盲是指在临床试验方案规定之外，试验相关人员无意地在揭盲前泄露受试者的治疗分组信息。一旦发生意外破盲事件，应详细记录意外破盲的时间、原因、经过、相关人员等信息，并根据需要立即通知相关人员。

应预先制定意外破盲事件的应急预案。意外破盲事件应作为方案偏离进行报告，对意外破盲受试者的数据进行处理的方法应在统计分析计划中明确规定，并在总结报告中评估意外破盲带来的试验偏倚。

六、盲法监控

为了监控药物临床试验的盲法实施情况，稽查员、监查员和临床试验机构的质控人员应切实掌握各项设盲措施的标准操作规程，增强发现、识别和正确处理试验中违反标准操作规程的事件的能力。

应制定详细的盲法监控计划对盲法实施情况进行全程监控。应按计划开展监控并进行记录以确保监控过程可追溯。尤其应重视试验早期和中期的盲法监控，对发现的违反任何设盲措施标准操作规程的事件，应要求临床试验机构及时予以纠正，并对相关人员进行培训；对发现的违反任何设盲措施标准操作规程的潜在风险，应及时与临床试验机构沟通，协助制定相应的预防措施。

七、其他考虑

（一）对设盲措施预先培训演练

在临床试验实施之前，应对试验相关人员进行各项设盲措施的标准操作规程培训。在此基础上根据需要对各项设盲措施进行演练，以排除标准操作规程中可能存在的不合理之处以及可能违反标准操作规程的潜在风险。演练重点是各项设盲措施之间的衔接情况、试验相关人员之间的工作交接情况、仪器设备（如电子数据采集系统、中央随机化系统、交互式应答系统等）的性能稳定情况、工作文件在传递过程中的敏感信息遮蔽情况等。

（二）尽量减少接触盲底的人数

在临床试验过程中意外破盲风险与接触盲底的人数直接相关。尽管可以建立各项设盲措施以控制意外破盲风险，但将会增大试验的实施难度，而减少接触盲底的人数将是降低意外破盲风险最行之有效的方法。因此，应充分评估每位试验相关人员的岗位职责，把能够接触到盲底的人数尽最大可能控制到最低；同时应向所有试验相关人员强化“不说、不问、不听、不看”盲底的思想意识。

（三）鼓励将新技术应用于盲法

鼓励与时俱进地将新兴技术应用于临床试验的盲法实施。应用新兴技术可以改进和优化关键设盲措施，并能远程实时预警、监控和追溯其操作情况，从而提高盲法实施的质量和效率。例如，将追溯码技术、加密技术和区块链技术等与中央随机化系统结合起来替代传统的分配隐藏和药物编码等设盲措施，也可结合现代物流和物联网技术将试验用药品直接送达受试者以减少或消除传统药物管理过程中存在的意外破盲风险。新兴技术在应用于盲法实施之前应做好相关测试和验证，以确保其适用性。

（四）与审评机构沟通盲法考虑

鼓励采用双盲试验。若采用单盲试验或开放试验，在制定临床试验方案的过程中，对拟采用的盲法和选择的设盲措施应与审评机构沟通。应从疾病特征、药物特点、试验方案设计和实际操作难度等方面向审评机构提供充足证据进行说明，以获得其对拟采用的盲法和选择的设盲措施的理解和确认。

附录：不同盲法的盲态保持建议

本表列举了通常情况下研究参与人员在不同盲法试验中的盲态保持建议。由于不同的药物临床试验所设置的人员岗位名称和职责不尽相同，本表无法穷尽各种可能性，因此仅供参考，不具有强制性。

参与人员	双盲试验	单盲试验	开放试验
申办者	保持盲态	保持盲态	保持盲态
受试者及其陪同人员	保持盲态	保持盲态	盲态与否视情而定
分配序列生成者	非盲态	非盲态	非盲态
受试者招募者	保持盲态	保持盲态	保持盲态
受试者分配者	保持盲态	保持盲态	保持盲态
结局评价者	保持盲态	保持盲态	保持盲态
主要研究者	保持盲态	盲态与否视情而定	盲态与否视情而定
研究医生	盲态与否视情而定	盲态与否视情而定	盲态与否视情而定
研究药师	盲态与否视情而定	盲态与否视情而定	盲态与否视情而定
研究护士	盲态与否视情而定	盲态与否视情而定	盲态与否视情而定
监查员	保持盲态	盲态与否视情而定	盲态与否视情而定
临床协调员	保持盲态	盲态与否视情而定	盲态与否视情而定
研究助理	保持盲态	盲态与否视情而定	盲态与否视情而定
数据管理员	保持盲态	保持盲态	保持盲态
统计分析师	保持盲态	保持盲态	保持盲态
独立评价委员会成员	保持盲态	保持盲态	保持盲态
数据监查委员会成员	非盲态	非盲态	非盲态

附录：词汇表

词汇	解释
盲法（Blinding/Masking）	也称设盲，指在药物临床试验中使受试者方（受试者及其陪同人员）和/或研究者方（申办者及其委托机构、临床试验机构、其他相关机构等的人员）不知道治疗分组信息。
双盲试验（Double-blind Trial）	是指在药物临床试验中受试者方（受试者及其陪同人员）和研究者方（申办者及其委托机构、临床试验机构、其他相关机构等的人员）对受试者的治疗分组信息均处于盲态。
单盲试验（Single-blind Trial）	是指在药物临床试验中受试者方（受试者及其陪同人员）对受试者的治疗分组信息处于盲态。
开放试验（Open-label Trial）	是指在药物临床试验中受试者方（受试者及其陪同人员）和研究者方（申办者及其委托机构、临床试验机构、其他相关机构等的人员）均知道受试者的治疗分组信息。
分配隐藏（Allocation Concealment）	是指在药物临床试验的受试者入组前对预先确定的治疗分组信息及其生成方法和参数进行隐藏的措施。
盲底（Allocation Schedule）	是指药物临床试验的治疗分组信息及其生成方法和参数。
单模拟（Single-dummy）	是指在安慰剂对照的药物临床试验中根据试验药物进行安慰剂模拟。
双模拟（Double-dummy）	是指在阳性对照的药物临床试验中根据试验药物和阳性对照药品分别进行安慰剂模拟。
药物编码（Drug Coding）	是指按照已生成的治疗分组信息对临床试验用药品（包含试验药物、阳性对照药品、安慰剂）的最小独立包装预先进行编号。
盲态保持（Maintenance of Blind）	是指根据药物临床试验确定的盲法，在分配隐藏和药物编码等设盲措施建立后，直至揭盲前，全部或部分研究参与人员一直对受试者的治疗分组信息处于盲态。
盲态数据审核（Blinded Data Review）	是指在对受试者的治疗分组信息处于盲态的情况下对药物临床试验过程中的数据质疑、脱落和方案偏离的病例、合并用药和不良事件的发生情况等进行确认。
揭盲（Unblinding）	是指揭晓药物临床试验中受试者的治疗分组信息。
终末揭盲（Unblinding at the End）	是指按照药物临床试验方案规定，在数据库锁定、分析人群划分及统计分析计划定稿完成后，揭晓受试者的治疗分组信息以进行分析和总结。
期中分析揭盲（Unblinding for Interim Analysis）	是指按照药物临床试验方案规定，在预先设定的期中分析时点上完成数据库锁定、分析人群划分以及定稿统计分析计划后，仅向数据监查委员会及其独立统计团队揭晓受试者的治疗分组信息以进行分析和总结。
紧急揭盲（Emergent Unblinding）	是指按照临床试验方案规定，基于受试者安全考虑和其他特殊原因，通过预先制定的标准操作规程，在紧急情况下获得单个或部分受试者的治疗分组信息。
意外破盲（Unintentional/Accidental Unblinding）	是指在药物临床试验方案规定之外，试验相关人员无意地在揭盲前泄露受试者的治疗分组信息。

附录：词汇表

中文	英文
安慰剂模拟	Placebo-dummy
标准操作规程	Standard Operation Procedure, SOP
单盲试验	Single-blind Trial
单模拟	Single-dummy
电子数据采集	Electronic Data Capture, EDC
独立评价	Independent Review
独立评价委员会	Independent Review Committee, IRC
非盲态期中分析	Unblinded Interim Analysis
分配隐藏	Allocation Concealment
患者报告结局	Patient Reported Outcome, PRO
加密技术	Encryption Technology
交互式应答系统	Interactive Response System, IRS
揭盲	Unblinding
紧急揭盲	Emergent Unblinding
开放试验	Open-label Trial
稽查员	Auditor
监查员	Clinical Research Associate, CRA
临床协调员	Clinical Research Coordinator, CRC
盲底	Allocation Schedule
盲法	Blinding/Masking
盲法监控	Blinding Monitoring
盲态保持	Maintenance of Blind
盲态数据审核	Blinded Data Review
期中分析揭盲	Unblinding for Interim Analysis
区块链技术	Blockchain Technology
数据监查委员会	Data Monitoring Committee, DMC
双盲试验	Double-blind Trial
双模拟	Double-dummy
物联网技术	Internet of Things Technology
现代物流技术	Modern Logistics Technology
严重不良事件	Serious Adverse Event, SAE
药物编码	Drug Coding
意外破盲	Unintentional/Accidental Unblinding
终末揭盲	Unblinding at the End
中央随机化系统	Central Randomization System
主要研究者	Principal Investigator, PI
追溯码技术	Traceability Code Technology

参考文献

[1] ICH. E9: Statistical Principles for Clinical Trials. 1998.

[2] 国家食品药品监督管理总局. 药物临床试验的生物统计学指导原则. 2016.

[3] 国家药品监督管理局. 国家药监局关于药品信息化追溯体系建设的指导意见. 2018.

[4] 国家药品监督管理局. 药物临床试验数据监查委员会指导原则（试行）. 2020.

[5] 国家药品监督管理局. 药物临床试验质量管理规范. 2020.

[6] 国家药品监督管理局.药物临床试验适应性设计指导原则（试行）. 2021.

[7] 国家药品监督管理局. 药物警戒质量管理规范. 2021.

[8] 国家药品监督管理局.《药品生产质量管理规范（2010 年修订）》附录：临床试验用药品（试行）. 2022.

[9] 国家药品监督管理局. 药物临床试验数据管理与统计分析计划指导原则. 2022.

[10] 国家药品监督管理局. 药物临床试验随机分配指导原则（试行）. 2022.

NMPA

药物真实世界研究设计与方案框架指导原则（试行）

一、概述

已发布的《真实世界证据支持药物研发与审评的指导原则（试行）》和《用于产生真实世界证据的真实世界数据指导原则（试行）》为真实世界证据支持药物研发与审评奠定了基础。采用真实世界研究支持儿科药物、罕见疾病药物等监管决策的指导原则也相继发布。

为了指导申办者科学合理的设计真实世界研究，明确真实世界研究方案撰写的技术要求，本指导原则将重点阐述药物研发及评价中真实世界研究设计以及研究方案制订的基本考虑，为药物研发中开展真实世界研究提供指导意见。

本指导原则适用于通过真实世界研究获得药物评价的临床证据。真实世界证据支持药物研发和监管决策的适用情形参见《真实世界证据支持药物研发与审评的指导原则（试行）》。本指导原则也可供以非注册研究为目的的真实世界研究参考。

二、真实世界研究设计的主要类型

真实世界研究设计包括观察性（或非干预性）研究设计和干预性研究设计（如实用型临床试验）。单臂研究设计是一种特殊的设计形式，其研究组可以是干预性的，也可以是观察性的，其外部对照通常基于真实世界数据而设定。

（一）观察性研究设计

观察性研究可分为队列研究、病例对照研究和横断面研究等。以因果推断为目的的观察性研究通常采用队列研究设计。本指导原则后文若无特别说明，所述观察性研究均是指队列研究。

根据研究方案中定义的真实世界研究起始时间和结局发生的时间，队列研究可分为回顾性、前瞻性和回顾前瞻性队列研究。回顾性队列研究收集的是历史数据，即研究开始前生成的数据；前瞻性队列研究收集的是研究开始后的数据；回顾前瞻性队列研究既收集已有的历史数据，也收集研究开始后的数据。

队列研究设计主要考虑目标人群队列、因果推断和质量控制三个方面。其它方面的考虑在下文的研究方案部分有具体阐述。

1. 目标人群队列

目标人群队列根据临床所关心的问题而定，具体以数据体现，即目标人群从研究的治疗开始到观察期结束所形成的纵向观测数据。目标人群队列的具体定义应基于研究目的、入排标准（包括本研究用治疗的初治者（本指导原则在实操上定义为：纳入研究队列之前在充分的洗脱期内未使用研究用治疗的病例）或非初治者）、数据来源和数据治理 /管理计划综合考虑。鉴于数据来源的多样性，需充分评估研究人群的代表性及研究结论的外推性。目标人群所收集的重要变量包括治疗（含研究队列和对照队列）、基线、协变量（如基线协变量、时依变量）和结局变量等。观察性研究的样本量应在充分考虑混杂因素、缺失数据等因素的基础上满足统计假设的要求，通常不设上限，特别是回顾性研究。队列起始时间、观察期 /随访期的长短和观测时间点 /访视点的确定应符合所研究疾病的特征、临床实践和临床评价要求。

2. 因果推断

观察性研究由于变量间因果关系的不确定性和复杂性使得因果推断具有挑战。不同分析模型的选择往往会导致分析结果不同，因此，为了避免结果驱动的偏倚，需要在设计阶段明确主分析将要采用的分析数据集、分析模型及其相对应的统计假设。为使研究结果更为准确和稳健，应考虑混杂偏倚、选择偏倚、信息偏倚等重要偏倚识别及控制方法，以及缺失数据的处理策略及其基于的假设；还应针对可能影响研究结果的各种因素，如模型假设背离或各类潜在偏倚来源，充分考虑敏感性分析及定量偏倚分析计划和策略。

3. 质量控制

质量控制的主要目的是保证获得高质量的分析数据。一方面，需要事先制定数据治理计划（针对历史数据）或数据管理计划（针对前瞻性收集数据），保证所产生的数据能够满足适用性要求（参见《用于产生真实世界证据的真实世界数据指导原则（试行）》）；另一方面，应制定具体措施保障观测变量值的准确性，例如在保障测量工具、度量单位和评价方法的一致性方面的具体措施。

（二）实用临床试验设计

实用临床试验（pragmatic clinical trial，PCT）又称实操临床试验或实效临床试验，是指尽可能接近真实世界临床实践的临床试验，是介于传统的随机对照试验（randomized controlled trail，RCT）和观察性研究之间的一种研究类型，属于干预性研究。与RCT不同的是：PCT的干预既可以是标准的，也可以是非标准的；既可以采用随机分组方式，也可以自然选择入组；受试病例的入选标准可以相对较宽泛；对干预结局的评价不局限于临床有效性和安全性；PCT更多地使用临床终点，而很少使用传统RCT中可能使用的替代终点；可以同时考虑多个治疗组，以反映临床实践中不同的标准治疗，或设置多个剂量组达到剂量探索目的；一般不设安慰剂对照；如果因难以实施而不采用盲法，应考虑如何估计和控制由此产生的偏倚；数据的收集通常依赖于患者日常诊疗记录，但也可以设置固定的随访时间点，其时间窗通常较RCT更宽。与观察性研究不同的是，PCT是干预性研究，尽管其干预的设计具有相当的灵活性。

PCT设计应重点考虑以下因素：①收集到的数据是否适用于支持产生真实世界证据；②治疗领域和干预措施等是否符合各种形式的常规临床实践；③是否具有足够的可以用于评价的病例数（特别是临床结局罕见的情况）；④参与PCT的各试验中心甚至不同的数据库之间对终点的评价和报告方法是否一致；⑤是否采用随机化方法控制偏倚；⑥当盲法不可行时，应考虑非盲对结局变量，特别是患者报告的结局，可能产生的影响，可使用不受治疗分组影响的客观终点（如中风、死亡等），以减少非盲可能带来的偏倚；⑦分析方法的考虑可参照观察性研究的分析方法。

对于实用随机临床试验，还需要特别阐明治疗策略的选择（如单次治疗策略或持续治疗策略）和有效性的主分析所基于的数据集。由于P-RCT在随机化之后出现的治疗策略更改、剂量改变、停药、转组、数据缺失等情况较RCT更为普遍，因此，相较于RCT通常基于ITT/mITT（调整ITT）进行主分析，P-RCT则需要考虑基于符合方案数据集是否更为合理的问题，或者考虑更加合适的数据集定义，并在样本量计算时予以充分考虑。

（三）单臂研究设计

采用单臂研究首先要考虑的问题是其前提条件是否充分，例如，采用RCT难以实施或具有重大伦理风险，属于危及生命、复发难治、无药可治或甚为罕见的疾病。单臂研究组如果是干预性的，为单臂试验；如果是非干预性的，为单臂观察性研究。无论是干预或非干预的，单臂研究设计通常应设置外部对照，外部对照采用的形式有基于疾病自然史队列数据或其他外部数据的历史对照或平行对照，或者目标值对照。为了减少偏倚，采用外部对照需考虑其目标人群特征（人口学、基线水平和临床特征等）、诊断和治疗标准、伴随治疗、结局的测量和评价标准等对结局（预后）有潜在影响的各种因素与研究组是否足够相似，以保证与研究组有较好的可比性。此外，单臂研究设计至少还应考虑以下内容。

1. 研究组设置

研究组的设置主要分干预性和非干预性，前者更为常用。对于干预性设计，研究组需要定义标准干预，且在研究实施过程中严格执行所规定的干预措施；对于非干预性设计，研究的治疗通常没有统一标准，且在治疗过程中患者可能会同时接受其它治疗，使得治疗模式较为复杂多样，对此可通过设置合理的入选和排除标准来定义较明确的目标治疗。

2. 对照设置

（1）历史对照

以既往获得的疾病自然史队列或其它外部真实世界数据作为对照，应考虑人群异质性及不同历史时期对疾病的定义、诊断、分类、自然史和可用的治疗手段等对疗效可比性和一致性的影响。

（2）平行外部对照

收集与研究组同期的疾病自然史队列或其它外部真实世界数据作为对照。

（3）目标值对照

目标值的确定应有充分依据，优先依次考虑国家标准、行业标准和专家共识，否则，需要根据已有的相关信息，包括但不限于公开发表的文献、研究报告、相关研究的原始数据等，通过综合分析确定目标值。

（4）混合对照

将既往及研究同期获得的外部数据混合在一起形成对照臂。这些外部数据可以是日常的病例记录，也可以是过去开展不同的临床研究（观察性或干预性的）所获得的数据。研究开始前需评估外部数据的适用性、代表性和预先设定不同部分数据合成时的权重系数，建议预先设置敏感性分析评估混杂因素、不同权重系数等对研究结论的影响。

3. 其它考虑

采用外部对照的单臂研究由于混杂因素、人群异质性和各种可能偏倚的影响，因果推断结论具有较大的不确定性。为克服或减少这些局限，除上述考虑外，还应注意：①主要终点采用客观指标，如肿瘤临床研究的客观缓解；②明确并严格把握入组人群的入排标准及筛选过程；③要确保所采集的数据符合真实世界数据的适用性要求；④较之于历史对照，更鼓励采用平行外部对照；⑤事先恰当地定义主分析的统计分析方法，如合理利用多因素模型、倾向评分方法，虚拟对照方法、工具变量方法等；⑥若对照组选择或主分析模型采用基于匹配的方法，应在方案中事先明确匹配标准；⑦要充分使用敏感性分析和偏倚的定量分析来考察未知或未测量的混杂因素、效应异质性、模型假设不成立以及其它各种可能偏倚对分析结果的影响。

三、真实世界研究方案的主体框架

不同设计类型的真实世界研究方案的主体框架基本相同，个别不同之处将在主体框架下相应内容中分别阐述。以下是真实世界研究方案的建议框架，但并不排除个别研究项目的某些特殊考虑。

（一）方案摘要

以表格形式摘录研究方案的主要内容，突出重点，力求简洁。主要内容包括：标题、研究背景、研究目的、研究假设、整体设计、研究人群（含诊断标准、入选标准、排除标准、剔除标准等）、治疗或干预（定义研究组和对照组）、研究终点、基线变量与重要协变量、安全性指标、观察期与观测时间点、数据来源、数据治理或数据管理、样本量及其确定依据、统计分析、偏倚控制等。

（二）研究背景

简要介绍研究背景，包括国内外研究的现状和意义，本研究的前期基础等。应充分论述选择真实世界研究路径的主要依据（如其它研究类型的不可行性和伦理风险等），以及本研究的定位，例如用于注册的关键支持证据、辅助支持证据、或基于探索目的的研究等。

（三）研究目的

根据目标人群、治疗（含对照）和结局，简要阐述研究目的，即本研究计划回答的临床科学问题，明确主要目的和次要目的（如果有），也可包括探索性目的。

（四）研究假设

根据研究目的提出研究假设。

（五）整体设计

简述研究的整体设计，包括多中心或单中心、观察性或干预性、单臂或双臂 /多臂等要素。若是观察性研究，应说明是回顾性的还是前瞻性的，或回顾前瞻性的。

干预性研究应说明是否采用随机化分配，如果采用，应详细说明具体的随机化分配方法及实施过程；是否采用盲法，如果采用盲法（单盲或双盲），应说明具体实施办法；如果采用开放设计，需说明终点事件是否采用盲评，若采用盲评如何实施。

单臂研究应说明研究组是干预性还是观察性的，以及采用何种形式的外部对照。

（六）研究人群

1. 诊断标准

如果所研究的疾病有不同诊断标准，应该说明本研究所采用的诊断标准及其出处，并给出所采用诊断标准的具体内容，若内容较多可以在附件中呈现。还应标明疾病代码（如ICD9/ICD10等）。

2. 入选/排除标准

入排标准的制定应能代表研究的目标人群。一般而言，观察性研究的入排标准较干预性研究宽松。应注意入排标准可能导致的恒定时间偏倚或选择偏倚，必要时对重要的入排标准做出解释，并评估其对分析结果的影响。

（七）治疗或干预

本指导原则中，关于采用研究药物或治疗策略的人群队列，对于观察性研究，称之为“治疗组”或“治疗队列”；对于干预性研究（如PCT），称之为“试验组”。关于采用非研究药物或治疗策略的人群队列，称之为“对照组”或“对照队列”。

1. 治疗组/试验组

对于治疗组的定义，应阐明具体治疗方法，如药物治疗的剂量、频次、给药途径、疗程等，以及药物的商品名和生产厂家；如果是物理治疗（如放疗或激光治疗），应给出具体的治疗参数。观察性研究中治疗策略和治疗模式由临床实践所决定，因此具有多样性，在数据收集、因果推断和结果解释时应予以考虑。

对于试验组的定义，与观察性研究不同的是，治疗方法通常应固定下来，形成相对标准的治疗策略。

2. 对照组

真实世界研究通常选择阳性对照或标准治疗对照，阳性对照应是目前或数据采集的起止期（如回顾性研究）临床实践中公认的疗效明确的治疗方法或治疗策略。对照组应像治疗组或试验组一样描述具体的治疗方法或策略。

除单臂研究的历史对照外，观察性研究对照的选择应与治疗组同时期。对于回顾性研究，为了避免病例选择偏倚，原则上应选择研究所定义的数据采集的起止期内所有的治疗组和对照组的病例，或者采用严格的随机抽样方法选择病例（例如因为已有数据量太大而无法承受治理和分析全部数据的情况）。对于前瞻性研究，对照组的选择标准，特别是与治疗组的匹配方法，应明确定义。

干预性研究对照组的选择与RCT类似。

单臂研究对照的选择见上述第三章的“（三）单臂研究设计 ”中的 “对照设置 ”一节。

3. 伴随治疗

真实世界研究中，伴随治疗的情况较为常见，应在方案中尽可能地阐述清楚可能出现的伴随治疗，对于未能预见的伴随治疗，也需要在分析过程中予以充分考虑。

（八）研究终点

1. 有效性终点

应定义主要终点和次要终点，如必要还需定义关键次要终点。有效性终点应完整定义，包括终点的名称、观测的时间点或时间段、测量方法与工具、计算方法、评价方法等。必要时，可设置独立第三方终点事件判定委员会，并描述实施办法，例如所执行的标准操作程序（ SOP）。应注意，真实世界研究的主要终点通常不采用替代终点，如采用需充分说明理由。

2. 安全性终点

根据研究目的，安全性终点可以是主要终点、（关键）次要终点、或者探索性终点。除了明确定义终点事件外，还应考虑对终点事件的编码（如用 MedDRA编码）、分级（如用 CTCAE对安全性事件的严重程度分级）、发生时间、发生频率（如反复多次发生，如何计算发生率）等加以说明。需要指出的是，与有效性终点不同，安全性终点在大多数情况下无法预先确定具体终点事件及其发生的时间和严重程度，因此其不确定性给统计分析和结果的解释带来挑战，具体考虑可参照相关临床试验指南。

3. 探索性终点（如果有）

研究如有需要，也可以设置某个/些探索性终点，例如药物经济学终点等。

（九）基线变量及重要协变量

研究方案中应明确基线变量和重要的协变量，以及它们的度量单位和观测时间。这些变量的确定依据主要来自对目标研究人群现有的研究成果，例如指南、专家共识、公开发表的文献、会议报告等提及的影响疗效的变量 /因素，也有来自项目组专家的认识。重要协变量的确定应具备合理性，可结合各因素间的因果路径图确定，并综合考虑前期数据评估结果。在已确定的重要协变量中，建议在方案中明确协变量的属性，如效应修正因素、危险因素、混杂因素（包括时依混杂因素）、中间变量、碰撞变量、工具变量等。

（十）观察期/随访期与观测/随访时间点量

应明确研究的观察期或随访期，以及观测对象的观测或随访的起始时间、时间间隔和时间点，合理定义窗口期。

（十一）数据治理/数据管理计划

在真实世界研究中，应准确理解数据治理和数据管理的概念。对于既往数据，无论是病历记录的原始数据，还是开展不同临床研究所获得的数据，都应经过统一的数据治理使其满足分析的要求。对于前瞻性收集的数据，应通过严格和规范的数据管理，为研究提供高质量的用于分析的数据。数据治理计划通常应与研究方案同步完成。

应明确研究数据来源，包括所来自的研究中心、收集数据的起止时间、数据存储的系统和记录形式。如果是来源于既往的研究，应描述原始数据的记录和存储形式，以保证研究数据可追溯。

数据治理和数据安全的具体要求可参见《用于产生真实世界证据的真实世界数据指导原则（试行）》。

（十二）偏倚考虑

偏倚是真实世界研究特别需要考虑的问题，在方案中应充分考虑各种潜在偏倚及其影响，并制定控制偏倚的有效措施。常见的偏倚包括：因测量、数据收集或评价方法的不准确或不一致导致的信息偏倚，因选择性地入选和 /或排除数据或失访、退出、剔除、记录缺失等导致的选择偏倚，因人群变化、治疗变化、研究背景变化等原因导致的疗效异质性，因分析中未能充分控制混杂因素导致的混杂偏倚，因未事先确定主分析方法而选择采用不同分析方法中最有利的结果导致的结果驱动等偏倚。此外，不同的研究中还可能发生其它具体的信息偏倚，例如，在记录生存时间时可能产生的恒定时间偏倚或领先时间 /起点时间偏倚，基于文献的 meta分析可能存在的发表偏倚，回顾性研究中回忆以往事件可能产生的回忆偏倚，因入选非初治病例而产生的幸存者偏倚等。

（十三）统计分析计划

为了避免结果驱动偏倚和保证研究过程的透明性，真实世界研究特别强调，至少主分析计划应该与研究方案同步确定，这与 RCT中规定统计分析计划可以在数据库锁定之前完成有很大不同。如果主分析计划篇幅较大，可以附件形式呈现。独立的主分析计划除了摘录方案中的一些关键要素外，如研究目的、目标人群、终点指标及其定义等，在统计分析方面至少应该包含以下内容。

1. 样本量估计

临床试验的样本量估计通常要考虑的因素有：研究类型、比较类型（优效性或非劣效性）、统计分析方法、结局变量预期的效应量或参数、统计分布、检验水准、单双侧检验、检验效能、分配比例、多重性、脱落剔除率、依从性等。真实世界研究应采用主分析所对应的样本量估计方法，在估计时，除了需要考虑上述因素外，还需考虑混杂因素等的调整对样本量的影响。

需注意，对于采用外部对照组的单臂试验研究，对照组的样本量通常应不少于治疗组的样本量，或可以数倍于治疗组。另外，观察性研究（特别是回顾性研究）的数据缺失率较高，设计时应留有充分余地。

2. 数据集定义

真实世界研究的数据来源及其质量有很大差异，而且不同分析回答的问题各异，应根据不同的分析定义不同的数据集，如有效性数据集和安全性数据集。如果涉及随机分配，应基于随机分组定义数据集。如果分析的目标人群是数据集的一个子集，应将子集标记为对应的目标人群。

3. 缺失数据处理

真实世界研究中，数据缺失较为普遍，甚至缺失比例较大。在数据治理及数据管理过程中，应尽可能追踪捕捉遗漏的记录，使数据质量有所改善。尽管如此，主分析或敏感性分析中仍面临缺失数据的处理问题，在主分析计划中和敏感性分析计划中（如适用）应阐述缺失数据的处理方法，并说明其理由。

4. 描述性分析

描述性分析能够刻画变量（特别是基线变量）的主要特征。所有指标 /变量，包括终点变量，均应进行描述性分析，所采用的描述统计量应根据变量的分布特征合理选择。

5. 异质性分析

应事先考虑可能的异质性因素，如研究中心、年龄、性别、病情程度等，为亚组分析或分层分析打好基础。同时阐述异质性的评估方法，如采用何种分析模型；以及异质性的判断标准，例如以 0.10的检验水准判断分组与潜在异质性因素是否存在交互作用，但应注意异质性判断标准的确定应结合研究目的和临床意义综合考虑。

6. 主分析

主分析围绕主要终点进行统计分析，是研究结论的最主要依据，应给予详尽和严谨的阐述，包括但不限于：统计假设；非调整分析和调整分析所采用的模型及其所基于的假设；拟纳入调整分析的协变量的初步考虑以及明确在分析过程中根据观测数据筛选各类变量的明确规则，包括混杂因素 /时依混杂因素、风险因子、中间变量和潜在异质性因素的识别；如果采用倾向性评分匹配方法，应定义匹配比例、匹配方法及其具体参数设置（如卡钳值），以及匹配的均衡性验证方法；对于生存结局的分析需考虑是否存在竞争风险问题。此外应对模型假设进行必要的验证，如非线性关系、非等比例风险等。需要指出，即使PCT设计中采用随机分配策略，其主分析对协变量的考虑仍建议与观察性研究相同，因为在研究的实施过程中，PCT（特别是群随机设计）对基线均衡性的控制远不如RCT严格。有关因果推断的具体方法可参阅《真实世界证据支持药物研发与审评的指导原则（试行）》的附录部分和其它相关专业文献。

7. 亚组分析

应根据现有的研究结论和认知、可能的异质性因素等明确定义需要进行亚组分析的因素，此外也可考虑主要协变量中与分组变量交互显著的因素进行亚组分析。有关亚组分析的具体方法可参阅《药物临床试验亚组分析指导原则（试行）》。

8. 敏感性分析

由于真实世界研究中因果推断结论具有不确定性，因此结论的稳健性尤其重要，充分的敏感性分析有助于判断结论的稳健性。敏感性分析应根据不同的假设情景展开，这些情景包括但不限于：缺失数据的不同处理机制；不同的数据集定义；不同的分析方法；模型中不同的协变量组合；未知或不可测的混杂因素影响等。

9. 定量偏倚分析

偏倚对研究结论的影响是因果推断中需要特别考虑的。鼓励对于各种可能的偏倚，明确判断其是否存在，或设置相关偏倚参数值或分布的方法，并基于偏倚的定量分析考察其对结果的影响，例如，根据剔除标准，分别对剔除病例的数据集和不剔除病例的数据集进行分析，比较其结果的差异以判断是否存在选择偏倚；根据混合型研究中内部数据与外部数据间的疗效差异，判断是否存在效应异质性偏倚，并根据结果设置异质性偏倚参数分布进行校正分析。偏倚参数的分布反映偏倚的大小和不确定性，利用临界点分析考察各种可能偏倚的影响也可视为定量偏倚分析的一种方法。另外，敏感性分析与定量偏倚分析亦可合并描述。

10. 安全性分析

真实世界研究，特别是回顾性研究，对安全性事件的主动监测存在较明显的不足，可能需要提供某些外部证据以弥补其不足，例如研究药物在其它研究中的安全性信息和不良反应监测系统报告的信息。如果研究假设要回答研究药物比对照药物具有更好的安全性，还应提供充分的对照药物的安全性信息。对于主要研究目的是回答安全性问题的情况，可参阅相关指导原则或文献。/p>

需要指出，上述与研究方案同步的主分析计划主要是呈现事先确定的将要做的各种分析以及这些分析的假设和条件，而与分析对应的结果的具体输出形式（统计图表）可以在正式的数据分析之前确定。

（十四）质量控制

一般而言，真实世界研究的质量控制的目标与RCT类似，但需要特别关注数据治理过程的质量控制，具体可参见《用于产生真实世界证据的真实世界数据指导原则（试行）》。

（十五）伦理

真实世界研究的伦理要求可参照国家卫生健康委员会《涉及人的生物医学伦理审查办法》等管理要求执行，回顾性观察性研究经伦理委员会审查批准后可采用泛知情同意等形式。

（十六）注册登记

应描述本研究在公共网站注册登记的情况。

（十七）方案修订

在真实世界研究的实施过程中，如果更改数据治理计划或统计分析计划中的主分析计划，属于方案的实质性变更，需将修订方案与药审中心充分沟通以达成一致。

（十八）组织实施

可参照一般的临床研究方案，并根据实施项目的特点，制定实施计划。

四、真实世界研究设计的其它考虑

（一）真实世界研究路径的可行性

在进行研究设计前，应首先对采用真实世界研究路径的可行性进行评估，包括但不限于以下考虑：① 传统RCT是否不可行；② 是否有比RCT更好或可替代的研究路径；③ 真实世界数据是否足以支持将要开展的研究。无论是数据的质量还是数量（样本量）应均能支持统计分析并产生真实世界证据；④ 该项真实世界研究在药物研发中的定位，明确该研究所形成的证据在整个证据链中的作用。

（二）目标人群的代表性

观察性研究中目标人群的代表性非常重要，确定研究人群的理想方法是采用严格的随机抽样。然而，由于临床研究的实际情况，研究人群通常采用的是便利抽样的方法确定的，因此，应充分评估研究人群与目标人群的特征是否存在异质性，及其对研究结论外推性（即外部效度）的潜在影响。

（三）混合型研究设计

本指导原则中，混合型研究是指同时基于真实世界数据和真实世界数据外的研究数据的研究。含有实用元素的随机对照试验和利用真实世界数据混合形成研究臂和/或对照臂（以下简称混合臂）而开展的研究是其中较为典型的应用。

混合臂研究设计的关键是将内部数据与外部数据的合并应基于合理的统计模型和方法，以保证内部人群与外部人群特征相一致为原则，将外部数据根据个体水平或整体水平、匹配或赋权等方式与内部数据进行融合，并尽可能进行充分的敏感性分析和定量偏倚分析。若采用基于贝叶斯理论的方法，还应配合充分的针对先验分布和其它相关参数设置的模拟分析。由于内外部人群特征重叠程度及效应一致性程度都会影响外部数据所能够提供的有效样本量，因此，混合臂研究估算所需样本量时应确保当前试验纳入足够数量的受试者，使分析结果达到稳健和可靠。

（四）估计目标

ICH E9 (R1) 将临床试验中构建估计目标归纳为五个重要属性，即目标人群、治疗、终点、伴发事件和汇总统计量。真实世界研究中，如何构建估计目标目前仍处于探索阶段，但与传统的RCT相比，还需考虑一些更复杂的问题，例如，研究人群的异质性、治疗方法的灵活性、伴发事件的多样性、终点选择的特殊性、敏感性分析的复杂性等。现阶段，本指南对真实世界研究中围绕估计目标的主线进行设计并无特定要求，但也鼓励真实世界研究设计中积极探索估计目标实施的可行性。以下是真实世界研究设计中估计目标需要特别考虑的问题。

1. 研究人群的异质性

由于真实世界研究中的入选标准较为宽松，且不采用随机化或不能严格按照随机分配方案实施，故人群异质性是普遍存在的，其来源除了人口学特征、临床特征、地域和研究中心等外，还可能包括不愿意参加 RCT 的患者或 RCT中代表性不足的患者群体（例如少数民族、老年人和居住在偏远地区的人）。因此，在疗效估计中应考虑所适用的目标人群。

2. 治疗方法的灵活性

真实世界研究中，对患者的治疗策略通常有较多的选择，如不同的治疗剂量、合并治疗、疗程等。患者的治疗依从性以及对治疗选择的偏好等，都是定义治疗时需要考虑的。

3. 伴发事件的多样性

真实世界研究中，除了需要考虑RCT中常见的因安全性、不耐受性、缺乏疗效等引起的伴发事件和终点伴发事件（如死亡）外，还应考虑因患者行为因素（如患者对治疗的偏好、治疗的便捷性、医患关系等）和非行为因素（如医保政策的调整影响现在接受的治疗药物、健康状况改善等）导致治疗中断的伴发事件，它们对疗效的影响是不同的。

4. 研究终点选择的特殊性

真实世界研究一般选择临床终点而非替代终点，最好选择单一测量、易观测的临床结果（例如死亡或住院）；复合临床终点的使用应确保构成复合事件的每一组成部分能够获得有效记录，否则要慎重考虑其可行性，例如使用量表工具时，某一维度或条目记录的严重缺失，可能导致整个量表的评价结果失效。

5. 敏感性分析的复杂性

真实世界研究由于需要控制混杂和偏倚而使得因果推断具有复杂性，同时为使估计量更为准确和可靠（稳健），也对敏感性分析提出了更高的要求。

此外，真实世界研究中还有许多面临挑战的问题，如数据融合问题，观察性研究中个体生存时间记录的区间删失等，有待深入研究和探索。

（五）模仿目标临床试验

模仿目标临床试验是一种真实世界研究方法，即基于现有的真实世界数据，模仿一个良好的RCT设计（明确的入排标准、治疗策略、治疗分配方法、随访期限和时间点、终点事件评价和统计分析计划等），产生一个真实世界研究的子集，通过因果推断得出研究结论。该法有助于思考、识别和避免不必要的偏倚，如恒定时间偏倚、非初治者偏倚等，并提供合理的方法来阐明在观察性研究中可能需要做出的权衡。模仿目标临床试验要考虑使用的场景，该法的前提是需要拥有非常大样本量的适用真实世界数据，并且具有较高的 RCT的仿真度，目前在应用方面有待获得共识，但不失为一种值得探索的方法。

五、与药审中心的沟通

就真实世界研究相关技术问题与药审中心的沟通交流可参照《真实世界证据支持药物注册申请的沟通交流指导原则（试行）》。

附录：名词解释

名词	解释
初治者（New User）	纳入研究队列之前在充分的洗脱期内未使用研究用治疗的病例。
单臂临床研究（Single-arm/One-arm Study）	一种只设置试验组或治疗组的非随机临床研究，通常采用外部对照，如历史对照、平行对照或目标值对照等。
定量偏倚分析（Quantitative Bias Analysis, QBA）	可用于评估研究结果对各种可能的系统误差来源（如错误分类、不受控制的混杂和选择偏倚等）敏感性的一类方法，可基于设置的各类偏倚大小及其分布考察各类偏倚对效应估计结果的影响方向和程度，亦可用于提供进一步校正各种可能偏倚后的分析结果。
估计目标（Estimand）	对治疗效应的精确描述，反映了针对临床试验目的提出的临床问题。它在群体水平上汇总比较相同患者在不同治疗条件下的结局。
观察性研究（Observational Study）	又称非干预性研究，根据特定研究问题，不施加主动干预的、以目标人群为对象的、探索治疗与结局因果关系的研究。
回顾性观察性研究（Retrospective Observational Study）	在研究开始时确定目标人群、并根据历史数据（研究开始前生成的数据）开展的观察性研究。
模仿目标临床试验（Target Trial Emulation）	是一种真实世界研究方法，即基于现有的真实世界数据，模仿一个良好的RCT设计，产生一个真实世界研究的子集，通过因果推断得出研究结论。
偏倚（Bias）	任何在研究设计、数据收集、分析、结果解释、报告中系统性地导致估计量偏离真值的倾向。
前瞻性观察性研究（Prospective Observational Study）	在研究开始时确定目标人群、并在研究开始前确定将要收集的治疗和结局数据的观察性研究。
实用临床试验（Pragmatic Clinical Trial/Pragmatic Trial, PCT）	又称实操/实效临床试验，指尽可能接近临床真实世界环境的临床试验，是介于RCT和观察性研究之间的一种研究类型。
数据治理（Data Curation）	指针对特定临床研究问题，为适用于统计分析而对原始数据所进行的治理，其内容至少包括数据采集（可包含多个数据源）、数据安全性处理、数据清洗（逻辑判断及异常数据处理、数据完整性处理等）、数据导入和结构化（通用数据模型、归一化、自然语言处理、医学编码、衍生点位等）、数据传输等若干环节。
外部对照（External Control）	在临床试验中，以研究对象以外的数据为对照，以评价所研究的治疗或干预效果。外部对照可以是历史数据，也可以是平行观测所获得的数据，还可以是目标值。
虚拟对照方法（Method of Virtual Control）	基于反事实论证思路，首先根据单臂设计所考虑的重要变量，利用现有真实世界数据建立不用试验药物的预后预测模型；然后将单臂试验所获得的协变量数据代入预测模型，计算得到假设不用试验药物的预后预测结果作为对照（虚拟对照）；最后将试验药物实际观测到的结果与虚拟对照进行比较，从而做出是否有效的推断。
因果推断（Causal Inference）	基于真实世界数据，刻画干预或治疗与临床结局或健康结局的因果关系路径，充分考虑各种协变量和已测或未测混杂因素的影响，并控制可能的偏倚，采用恰当的统计模型和分析方法，做出干预或治疗与临床结局或健康结局的因果关系的推断结论。
真实世界数据（Real-World Data, RWD）	来源于日常所收集的各种与患者健康状况和/或诊疗及保健有关的数据。并非所有的真实世界数据经分析后都能成为真实世界证据，只有满足适用性的真实世界数据才有可能产生真实世界证据。
真实世界研究（Real-World Research/Study，RWR/RWS）	指针对预设的临床问题，在真实世界环境下收集与研究对象健康状况和/或诊疗及保健有关的数据（真实世界数据）或基于这些数据衍生的汇总数据，通过分析，获得药物的使用情况及潜在获益-风险的临床证据（真实世界证据）的研究过程。
真实世界证据（Real-World Evidence，RWE）	指通过对适用的真实世界数据进行恰当和充分的分析所获得的关于药物的使用情况和潜在获益-风险的临床证据。
中间变量（Intermediate Variable）	Variable）：指处于因果关系链中间、既受药物治疗影响、同时又影响结局的变量，或与结局有关联的变量；前者又称中介变量（mediator）。
主分析（Primary Analysis）	指针对主要终点采用的统计分析方法。
主分析计划（Primary Analysis Plan）	指针对主要终点采用的统计分析方法以及相应的增加结果稳健性的敏感性分析计划。在真实世界研究中，特别强调主分析计划应在研究方案中事先确定下来，如果在研究过程中修订主分析计划，属于方案的重大调整。

附录：中英文词汇对照

标准操作程序	Standard Operation Procedure, SOP
病例对照研究	Case-control Study
初治者	New User
定量偏倚分析	Quantitative Bias Analysis, QBA
队列研究	Cohort Study
发表偏倚	Publication Bias
工具变量	Instrumental Variable
估计目标	Estimand
观察性研究	Observational Study
恒定时间偏倚	Immortal-time Bias
横断面研究	Cross-sectional Study
患者报告结局	Patient Reported Outcome, PRO
回顾性研究	Retrospective Study
回忆偏倚	Recall Bias
混杂因素	Confounder
可追溯性	Traceability
每个协变量阳性事件数	Events per Variable, EPV
碰撞变量	Collider Variable
领先时间偏倚	Lead-time Bias
模仿目标临床试验	Target Trial Emulation
目标临床试验	Target Trial
起点时间偏倚	Zero-time Shift Bias
前瞻性研究	Prospective Study
倾向评分	Propensity Scores PS
时依变量	Time-varying Variable
实用临床试验	Pragmatic Clinical Trial, PCT
数据管理	Data Management
数据治理	Data Curation
实用随机临床试验	Pragmatic Randomized Clinical Trial, P-RCT
统计分析计划	Statistical Analysis Plan, SAP
幸存者偏倚	Survivor Bias
虚拟对照	Virtual Control
衍生变量	Derived Variable
因果推断	Causal Inference
真实世界数据	Real World Data, RWD
真实世界研究	Real World Research/Study, RWR/RWS
真实世界证据	Real World Evidence, RWE
中间变量	Intermediate Variable
主分析	Primary Analysis
主分析计划	Primary Analysis Plan

参考文献

[1] 国家药品监督管理局. 真实世界证据支持药物研发与审评的指导原则（试行）. 2020.

[2] 国家药品监督管理局. 用于产生真实世界证据的真实世界数据指导原则（试行）. 2021.

[3] 国家药品监督管理局. 真实世界研究支持儿童药物研发与审评的技术指导原则（试行）. 2020.

[4] 国家药品监督管理局. 基于人用经验的中药复方制剂新药临床研发指导原则（试行）. 2022.

[5] 国家药品监督管理局. 罕见疾病药物临床研发技术指导原则（试行）. 2022.

[6] 国家药品监督管理局. 罕见疾病药物临床研究统计学指导原则（试行）. 2022.

[7] 国家药品监督管理局. 单臂试验支持上市的抗肿瘤药上市许可申请前临床方面沟通交流技术指导原则（试行）. 2020.

[8] 国家药品监督管理局. 单臂试验支持上市的抗肿瘤药进入关键试验前临床方面沟通交流技术指导原则（试行）. 2020.

[9] 国家药品监督管理局.药物临床试验亚组分析指导原则（试行）.2020.

[10] Duke Margolis Center for Health Policy. A frame work for regulatory use of real-world evidence. 2017.

[11] Boslaugh S . Encyclopedia of epidemiology. [M] SAGE Publications. 2008.

[12] Chen EY, Raghunathan V, Prasad V. An overview of cancer drugs approved by the us food and drug administration based on the surrogate end point of response rate[J]. JAMA Intern Med .2019;179(7):915-921.

[13] Hernán MA, Robins JM. Per-protocol analyses of pragmatic trials[J]. N Engl J Med, 2017, 377(14): 1391-1398.

[14] Hernán MA, Robins JM. Causal Inference[M]. Boca Raton: Chapman & Hall/CRC 2019.

[15] ICH E10: Choice of Control Group and Related Issues in Clinical Trials. 2000

[16] James S. Importance of post-approval real-word evidence[J]. Eur Heart J Cardiovasc Pharmacother, 2018; 4(1):10-11.

[17] Last JM. A Dictionary of Epidemiology[M]. 4th Edit. Oxford University Press. 2001.

[18] Lash TL, Fox MP, Fink AK. Applying quantitative bias analysis to epidemiologic data[M]. Springer Science & Business Media, 2011.

[19] Lash TL, Fox MP, MacLehose RF, et al. Good practices for quantitative bias analysis[J], Int. J. Epidemiol., 2014, 43(6): 1969–1985.

[20] Roland M, Torgerson DJ. Understanding controlled trials: What are pragmatic trials?[J]. BMJ, 1998, 316(7127): 285.

[21] Sherman RE, Anderson SA, Dal Pan GJ, et al. Real-world evidence—what is it and what can it tell us[J]. N Engl J Med, 2016, 375(23): 2293-2297.

[22] Strayhorn JM. Virtual controls as an alternative to randomized controlled trials for assessing efficacy of interventions [J]. BMC Med. Res. Methodol. 2021; 21(3): 1-14.

[23] Sugarman J, Califf RM. Ethics and regulatory complexities for pragmatic clinical trials[J]. JAMA, 2014, 311(23): 2381-2382.

[24] US FDA. Framework for FDA’s real-world evidence program. December 2018. 2019.

[25] US FDA. FDA Submitting Documents Using Real-World Data and Real-World Evidence to FDA for Drug and Biological Products. 2022.

[26] Velentgas P, Dreyer NA, Nourjah P, et al. Developing a Protocol for Observational Comparative Effectiveness Research: A User's Guide. Rockville (MD): Agency for Healthcare Research and Quality (US), 2013.

[27] Von Elm E, Altman DG, Egger M, et al. The Strengthening the Reporting of Observational Studies in Epidemiology (STROBE)statement: guidelines for reporting observational studies[J]. Ann. Intern. Med. 2007, 147(8): 573-577.

NMPA

基于疾病登记的真实世界数据应用指导原则（试行）

一、引言

使用真实世界证据（ real-world evidence ， RWE ）支持药物监管决策日益受到重视。目前，开展真实世界研究（ real-world study ， RWS ）面临的首要挑战是真实世界数据在质、量和可及性方面难以有效支持监管决策所需要的临床证据。疾病登记通常根据登记目的进行前瞻性设计，收集特定人群的疾病及其临床特征数据，实施中注重质量控制，其数据质量相对较好，是真实世界数据（ real-world data ， RWD ）的重要来源之一。如何充分利用现有的质量较好的数据资源，以及如何战略性布局建立质量优良的疾病登记，对于产生充分的真实世界证据并用于支持监管决策至关重要。本指导原则将阐述如何建立疾病登记，以及如何评估和使用已有的疾病登记数据，旨在为基于疾病登记的真实世界数据应用提供指导。

二、疾病登记的定义

“ 登记 ” 一词所对应的英文 “registry” ，同时有 “ 注册 ” 、 “ 注册登记 ” 等不同翻译。为了与临床研究中的药物注册相区分，本指导原则采用 “ 登记 ” 这一词汇。

登记，是指根据事先确定的登记目的，有组织地、系统地、根据所定义的随访 / 观察时限和时间点标准化地收集与人口学、疾病、暴露、诊疗、结局等相关的患者个体层面的纵向数据所形成的数据库。登记数据通常是前瞻性地收集的，也可以按照设计方案融合既往产生的数据。

登记针对患者的数据进行收集，包括患者的疾病状况，接受的治疗或所处的暴露（含使用的药品）。

登记根据内容的侧重点不同可分为疾病登记、医疗产品登记和健康服务登记。其中疾病登记可以是单一疾病登记（如乳腺癌登记、高血压登记、戈谢病登记），也可以是某一类疾病登记（如癌症登记，心血管病登记），还可以是国家或地区规模的一类或多类疾病登记（如中国国家罕见病注册系统）。由于登记有多种含义，考虑到药物临床研发与评价的实际，如无特别说明，本指导原则针对单一疾病登记进行阐述，其他类型的疾病登记也可以参考。

登记数据的最大优势是根据特定研究目的前瞻性地建立特定疾病人群队列，针对性地确定所要收集的数据以及收集数据的方法，能够形成较完整的纵向数据，包括患者用药的完整数据的获取，以及体现以患者为中心的药物研发（ patient-focused drug development ， PFDD ）理念的患者体验数据（ patient experience data ， PED ）的收集，如患者报告结局（ patient-reported outcome ， PRO ）数据的收集等。在采集数据方面可以根据前瞻性设计建立结构化和标准化的数据库，并利用性能不断提升的数字化工具高效获取数据。

基于登记所产生的数据开展的研究，称为登记研究。登记研究在建立过程中如果设计不严谨或执行质量不佳，均可能导致登记数据应用受限，特别是不同偏倚的产生。例如，设计时重要变量的遗漏或缺乏严格的规定（如测量方法、随访周期和时间点）会导致重要信息的缺失或不可用，引起多种偏倚或影响对某些偏倚的校正；入选 / 排除标准不当会影响目标人群的代表性或产生选择偏倚；病情较重者比病情较轻者更倾向于入组而导致人群代表性受限；失访率偏高可能导致的选择偏倚；持久的质量控制得不到保障导致数据质量问题；不同研究中心间的数据异质性问题（如医疗习惯与治疗水平、社会经济背景、自我疾病管理能力）可能引入偏倚，并带来研究设计和结果解释上的挑战，等等。

三、疾病登记数据的应用场景

登记研究具有较广泛的应用场景，包括了解疾病的自然史，探查预后的影响因素，描述诊疗习惯，监测安全性风险，评估治疗效果，等等。在药物研发领域，基于真实世界诊疗环境的疾病登记数据可用于上市前和上市后评价，常见应用场景包括但不限于以下情形：

（一）产生关键或支持性临床证据

基于疾病登记数据产生的真实世界证据可作为关键或支持性临床证据支持药物监管决策。例如，在儿科、罕见疾病、肿瘤等疾病登记中收集的数据，可能用于支持新增适应症的监管决策。

（二）为临床试验设计提供依据

利用登记数据可以为临床试验设计提供一定依据，例如，病例选择的入选 / 排除标准的制定，样本量估计时参数的确定依据，体现临床价值且能够灵敏反映临床疗效的研究终点的确定，关键的观测时间点、时间窗和间隔的选择，最小临床意义差别的探索，患者就医行为和治疗偏好的描述等。此外，如果疾病登记有相关基因或生物标记物的完整记录，将有助于精准定位试验的目标人群。

（三）作为单臂试验的外部对照产生临床证据

单臂研究设计通常应设置外部对照，外部对照采用的形式有历史对照、平行对照等，其来源和选择至关重要。外部对照对真实世界数据的质量和样本量均有较高要求，外部对照的基线和影响结局的关键变量（除研究相关的治疗以外）应与试验组相近且数据缺失应在可接受的范围内。如果有设计和执行良好的高质量疾病登记数据，可以被优先考虑作为外部对照，因为它相较其它数据源更容易满足外部对照的要求且在数据的获取和治理方面更具有可行性。

（四）用于疾病自然史研究

疾病自然史在临床研究中具有重要意义，特别是罕见疾病研究。疾病登记系统是获得疾病自然史研究数据的常用平台，如果设计良好，可以为罕见疾病研究提供有力支持，包括获得人口统计学、疾病特征、疾病进展等基本信息。基于疾病自然史研究，可以为研究设计提供依据，如入选 / 排除标准、干预阶段、研究终点、随访时限及时间点等的合理选择；识别和开发生物标志物；作为单臂试验的外部对照等。

（五）用于上市后安全性监测和 / 或有效性评价

疾病登记具有长期性、及时性和纵向性的特点，通过对药品上市后的长期监测和数据不断积累更能体现其优势。疾病登记随着病例数量的增加和观察时间的延长，更有利于全面监测药品的安全性事件和发现罕见不良事件，以及评价在随机对照临床试验中难以获取的较长周期或罕见的临床终点事件。通过对登记数据的分析，不仅可以了解真实诊疗环境下的药品疗效，还能支持不同的治疗策略（如剂量、疗程、用药频率、合并用药等）下的疗效评估，为指导临床实践提供依据，还可能为说明书修订提供依据。

（六）丰富临床试验的实施方式

利用疾病登记还可以配合干预性临床研究的实施，显著提高临床研究的效率。例如对于病例数足够大的疾病登记系统，通过对病例的临床特征分析，根据研究方案中的入选 / 排除标准快速筛选病人；在病人招募的基础上，还可实施随机化，例如心脏病登记系统 SWEDEHEART 就被用于药品和器械研发的临床试验中对招募病人进行随机化分配，这种形式的研究被称为基于登记的随机对照临床试验（ registry-based randomized clinical trial ，R-RCT ）。

四、疾病登记数据库的建立

（一）疾病登记的建立过程

疾病登记的建立过程如图 1 所示。首先制定疾病登记的整体计划，并根据整体计划进行具体设计。接着根据设计的要求构建数据库。建库完成后开始收集和录入数据，并在这一过程中进行数据的质量控制，当数据库成熟后可用于分析目的。疾病登记的数据库还建议具备数据的融合与扩展功能，一方面可以融合既往数据和其它登记数据；另一方面也可以根据研究需要和数据获取的可能，在疾病种类、随访时限、变量等方面进行扩展。

注释：虚线表示可选

（二）疾病登记计划与设计

1.疾病登记计划制定

疾病登记计划需要依次考虑若干关键问题，包括但不限于：

明确登记目的：应明确开展疾病登记的整体目的是什么，例如哪个疾病领域、何种规模、收集信息范围等。

选择疾病领域：可以是单一疾病、同一类疾病或多类疾病，下文主要围绕单一疾病展开。

定义目标疾病人群：根据所选的疾病领域定义目标疾病人群，并考虑本疾病登记的代表性。

规划研究期限：综合考虑科学性、实施的现实性和经费支持程度，拟定随访期的时限，界定项目为长期或短期研究。从科学性和数据库价值考虑，鼓励长期研究。

数据源：充分考虑数据来源的充足性、适用性和可及性。

数据安全与伦理：需考虑数据系统的安全性及数据使用的合规性和所涉及的伦理问题。

各相关方合作方的确认：疾病登记需要多学科的协作，需确认各参与方角色和职责，组建项目团队，以保障项目的顺利实施。鼓励患者的积极参与以及项目团队同患者组织的合作。

可行性论证：综合各种因素进行可行性论证，包括项目的科学意义和临床价值、数据的获取和质量保证、经费是否充足、患者的依从性、数据使用的安全性与合规性、伦理风险等，以判断项目开展的可行性。

项目执行计划：即项目管理与实施计划，包括组织实施、经费预算与管理、进度管理、人员管理、质量控制、沟通机制、风险管理等，还应包括数据使用和共享机制的考虑。

2.疾病登记设计

在《药物真实世界研究设计与方案框架指导原则（试行）》中有关于真实世界研究设计的详细论述，本指导原则仅根据疾病登记特点重点阐述几个方面。

（1）登记目的

根据具体疾病及其目标人群、治疗、结局和主要数据来源，简要阐明所要建立的疾病登记，包括区域（如果有）、针对的疾病、研究期限、病例规模等，以及基于疾病登记所要回答的临床问题，例如，罕见疾病的自然史、临床效果评价、预后预测、安全性监测、药物经济学评价等。

（2）目标疾病人群

首先应定义目标疾病人群，明确所依据的诊断标准以及对应的疾病编码（如 ICD 编码），然后根据目标疾病制定病例的入选 / 排除标准，进而选择登记系统的入组人群。为便于后续对研究人群代表性的评估，建议收集患者招募及研究中心、基线特征等重要信息。

（3）治疗/暴露

在疾病登记中，治疗策略和治疗模式由临床实践所决定，对于治疗或暴露变量应尽可能详细记录，如药物治疗的剂量、频次、给药途径、疗程、药物组合方案（如果有）等，以及药物的商品名和生产厂家。由于疾病登记是针对疾病所建立的登记，除非有特殊考虑，通常在建设过程中并不特别限定治疗药物或治疗手段，而针对某种产品 / 治疗策略的临床研究则是通过对疾病登记数据库的可行性评估后（如该产品 / 治疗策略的样本量是否足够）开展的，之后才有研究组和对照组的划分，同时伴随治疗也将被定义。

（4）临床终点

针对某种疾病的临床研究，不同研究回答的临床问题不尽相同，相应地在确定主要和次要临床终点时也不尽相同。因此，在疾病登记的设计中难以确定临床研究主次要终点，但需要较长远地考虑该疾病登记将要支持开展哪些临床研究，这些研究会涉及到哪些重要的临床终点，包括有效性、安全性和药物经济学（如需要）的主要和次要终点。为保证临床终点数据的可靠性，建议考虑相关的质量控制环节，如复合终点关键数据元素的验证、重要临床终点事件的审定等。

（5）随访期

如果是短期研究，随访期的确定一般依据疾病特点和重要临床终点。如果是长期研究，需要定义随访期的下限，而对随访期的上限则没有特别要求。

（6）变量词典

规范的疾病登记应有专门的变量词典。变量词典围绕数据元素进行创建，其主要内容包括变量定义、变量维度、变量名与标签、变量类型、变量单位、测量、关联关系、取值范围（如参考范围）、分类与转化、随访的时间点等。

定义/标准术语：每一个变量应该有相应的标准的定义，如果引用的是其它的标准术语库，应注明出处。

变量维度：在变量词典中，通常会将变量划分归属于若干维度，如人口学、病史、诊断、治疗或暴露、疗效结局（含主要终点和次要终点）、实验室检查、安全性事件、生活方式与饮食、社会与环境因素等。应合理划分变量的维度。

变量的名称、标签：每个变量的名称、标签需要按照统一标准设定，设定时应注意变量名称的最大长度限定。

变量类型：建议在变量词典中明确定义变量的采集形式，在设计变量类型时尽量使用标准化的形式，如数值型、选项型（分类型）等，不鼓励使用开放式文本。对于选项型的变量，还应对选项标签进行规范化编码。在同一疾病登记中，尽量使用统一的编码原则及顺序。

关联关系：建议定义变量之间的关联关系，如疾病诊断与检查结果、治疗的关联。

取值范围：定义变量采集的合法值范围，也称为有效范围，注意变量的合法值范围指的是变量值对于疾病登记是否合理、有效，需区别于临床检查值的正常值/参考值范围。实验室检查结果的参考值范围在研究过程中可能会定期更新，可单独管理，避免出现变量字典的频繁修改。

衍生数据：定义衍生数据的产生方法，如根据年龄产生的年龄分组变量，根据身高和体重产生的体重指数（BMI）等。

随访的时间点：每个变量都需要确定其基线和随访性质。对于随访采集的变量，不同变量的随访周期和时间点不完全相同，需要明确每一个变量的随访周期和时间窗。

（7）病例数

一般而言，在疾病登记设计阶段，需要根据最迫切需要回答的一个或多个具体的研究问题估计样本量，并确保数据库最终完成设计规定的随访期限的病例数不低于设计确定的样本量。在实际操作中，疾病登记在保证最低样本量的前提下，通常不设上限，而且随着登记数据的积累，病例数会不断增大。需要注意，最初的登记设计的病例数未必能够满足所有在疾病登记建设过程中提出的一些新的临床研究，研发人员应评估疾病登记数据库当时或扩大规模后能否满足新提出的临床研究对样本量的要求。

（8）数据来源

疾病登记的数据可以包括自身采集的数据和与外部融合的数据，其来源又可分为医疗环境和非医疗环境采集的数据。在医疗环境下，患者住院或根据随访安排在医院诊疗，可产生住院、门诊和检查数据。在非医疗环境下，数据主要来源于院外随访、 PRO/ePRO 和监测设备（如可穿戴设备）。

（三）数据库构建

疾病登记数据库的构建需要充分考虑互操作性的要求，从系统、数据标准、通用数据模型（ common data model ， CDM ）等维度实现不同数据库、系统之间的通讯、数据交换及信息使用。

1.系统

为保证数据质量，建议采用经验证的电子数据采集（ electronic data capture, EDC ）系统进行疾病登记的数据采集及数据管理 / 治理。疾病登记所使用的数据库系统应满足EDC 系统的一般要求：一是安全的物理和网络环境；二是系统运行的稳定性及数据安全性；三是用户角色管理及权限控制；四是稽查轨迹，即数据在系统中录入并保存后，所有的稽查轨迹均应被记录且不允许被删除或修改；五是标准化操作程序。具体要求可参考《临床试验的电子数据采集技术指导原则》。此外，还应满足对互操作性能的要求，即可以通过定义数据交换的结构和格式，实现系统间的数据传输及业务信息交换。在疾病登记数据库的构建及配置时，应当充分考虑在多个数据库 / 数据系统间进行数据交换的需求，根据不同数据库/ 数据系统的属性及数据结构，提前定义数据交换标准，并进行传输测试，以确保信息的准确传输。

2.数据标准

在疾病登记的建设过程中，可能需要融合多种不同来源的临床数据。标准化的数据结构与格式是数据交换及共享的基础，为了实现数据库的融合与扩展，提高数据的可交换性及数据质量，同时为提高注册监管审评效率，在构建疾病登记数据库时建议优先考虑行业通用的数据标准，例如CDASH （ Clinical Data Acquisition Standards Harmonization ）。从更广义的角度，数据标准涵盖疾病登记建设的各个环节，如方案设计、数据采集、分析、交换、递交、报告撰写等，在构建疾病登记数据库时应当充分考虑相关标准适用性及数据结构的兼容性。用于上市申请时，最终递交的数据应符合《药物临床试验数据递交指导原则（试行）》要求。对于通用数据标准未覆盖 / 不适用的数据模块，在疾病登记的系统层面也应制定统一的标准，并在相同或不同的疾病队列中应用。

3.通用数据模型

在疾病登记的数据库及数据采集方案的设计阶段，应清晰地定义该疾病队列适用的通用数据模型，明确数据源与通用数据模型的映射关系，包括变量的定义、源数据的提取 / 转换 / 加载规则、多个数据库的数据转换标准等。有关数据通用模型的详细介绍，可参见《用于产生真实世界证据的真实世界数据指导原则（试行）》。

（四）疾病登记数据的获取、录入与质量控制

登记数据主要由登记系统内部以前瞻性收集的方式生成，也可能融合外部数据，如既往数据或其它系统的数据。本节主要介绍登记数据如何由系统内部生成。

1.数据的获取

疾病登记数据主要来源于医院内系统数据、随访数据、PRO 数据和日常的个体监测数据等。

（ 1 ）院内系统数据：医院内部系统的数据，特别是电子病历数据，是疾病登记数据最主要的来源。通常情况下，无论患者是否住院，其基线数据、诊疗数据、各种检查数据等，均产生于院内系统。

（ 2 ）随访数据：通过随访患者获取数据是保障数据纵向性的重要手段。根据研究计划，通过定期或不定期随访、门诊或通讯随访等方式，获取患者的疾病状态、临床终点、治疗等数据。随访数据通常以纸质或者电子病例报告表（ case report form, CRF ）作为主要采集工具，也可以考虑采用经验证的技术手段直接导入。

（ 3 ） PRO 数据： PRO 数据有纸质和电子记录两种方式，后者称为电子化患者报告结局（ electronic patient-reported outcome ， ePRO ），目前较为常用。 ePRO 系统可与电子病历系统或 EDC 系统对接，形成个体层面的完整数据流。有关PRO 数据的详细介绍，可参见《患者报告结局在药物临床研发中应用的指导原则（试行）》。

（ 4 ）个体监测数据：借助移动设备（如智能手机、可穿戴设备、动态心电监测仪等）实时采集个体监测数据在数据收集的便利性和即时性等方面优势明显，不仅可以丰富数据的获取手段，同时也丰富了疾病登记数据库。鼓励数据库建设中采用先进且可靠的数据采集技术。

2.数据录入或导入

数据的采集包括人工录入和自动化导入两种方式。人工录入的数据通常包括纸质或电子的随访数据、纸质 PRO 数据等，由具有资质的、经授权的人员将采集的数据录入至EDC 系统。录入工作正式开展前，需要根据疾病登记计划与设计的要求，制定明确的填写指南和具体的填写说明，并对相关工作人员进行数据填写及录入的培训。ePRO 数据、医院随访系统数据、来自移动设备的个体监测数据有时可以直接导入至 EDC 系统。数据导入前需明确源数据与 EDC 数据库的映射关系及数据导入机制，并通过导入测试。所有的规则及操作过程均应保留详细的文件记录，确保数据处理流程的透明性及数据的可溯源性。

3.数据管理/治理及质量控制

回顾性收集的数据通常需要进行数据治理，而前瞻性收集的数据则需进行数据管理。数据管理 / 治理流程的关键环节包括但不限于：数据管理 / 治理计划的撰写、 CRF/ 数据采集表的设计、数据库的设计及构建、数据采集及录入、数据核查及核查管理、医学编码、数据审核、数据库锁定、数据存储与传输、质量控制等。此外，数据治理的主要流程还包括：个人信息保护及数据安全性的处理，通用数据模型的建立，数据提取、转化等。具体的数据管理 / 治理流程，可参见《药物临床试验数据管理工作技术指南》和《用于产生真实世界证据的真实世界数据指导原则（试行）。

数据质量控制是确保研究数据完整性、准确性和透明性的关键。针对疾病登记数据的特点，建议在数据质量控制时考虑以下几点原则：一是建立质量控制标准操作规程（ standard operating procedure ， SOP ）；二是制定完善的质量控制计划，明确质量控制工作的范围、频率、流程及质量标准；三是在疾病登记计划中明确数据采集的时间点和实施顺序；四是针对相关人员进行数据采集的培训和指导，包括数据填写及录入规则、相关数据标准及通用数据模型，数据填写、存储、传输的方式和要求等；五是保证数据处理过程记录的完整性；六是针对可能发生的脱落，积极采取措施控制，尽量将脱落率控制在可接受范围以内。

（五）数据库成熟

疾病登记在数据库建成后，随着数据的不断收集和沉淀，数据库逐渐成熟。数据库成熟是指数据库中已经生成的数据可以支持供监管决策的产生真实世界证据的统计分析，具体而言应至少具备以下四点：一是完成设计规定的随访期限的病例数达到了最小样本量的要求；二是数据质量可以支持后续的分析，即满足 ALCOA+CCEA 原则（ ALCOA 包括：可归因性、易读性、同时性、原始性、准确性； CCEA 包括：完整性、一致性、持久性、可获得性）；三是数据应可以衍生为符合监管递交标准的数据格式，可参见《药物临床试验数据递交指导原则（试行）》；四是最终可用于衍生为满足不同分析需要的分析数据库。

（六）数据库融合与扩展

在疾病登记的建设过程中，除了自身数据库的建设外，还可以融合其它数据，包括既往已有的数据和其它登记数据库。此外，还可以根据新的研究需求或新条件的产生扩展疾病登记。

1.数据库融合

如果登记系统不能从内部所掌握的数据源获取完整的登记研究所需的信息，就需要从其它数据源补充，例如，在以死亡为主要终点的肿瘤研究中，以医院管理信息系统为主要数据源的疾病登记往往难以包含完整的死亡事件，需要从其它数据源（如国家 CDC 的死亡登记系统）融合这一信息。在与其它数据源进行融合时，应确保链接数据系统的互操作性和准确、一致、完整的数据传输。当与其它登记数据库的融合时，由于数据库结构和数据标准不完全相同，需要考虑使用或研发通用数据模型并就融合的可行性进行评估，包括关键变量的匹配程度、数据的适用性和可追溯性等。与既往已有的数据融合时还需要考虑，应按照前瞻性设计的随访计划一并跟踪观察融合的既往数据的病例，特别是随访期未达计划要求的病例。如果既往数据的质量不佳，如关键变量缺失率太高、记录不准确等，或目标人群、关键变量的定义和测量与本疾病登记无法取得一致，即使数据可获取，也不宜将其融合。

2.数据库扩展

随着科学研究进展和数据获取的可能，疾病登记也可能以不同方式扩展。

•疾病种类增加：例如，出于共病研究的需要，在原有的糖尿病登记队列中加入慢性肾病登记队列；考虑同类病种的便利性，在冠心病登记队列增加心衰登记队列。

•队列随访期限延伸：对于某些随访期较短的疾病登记，由于原研究计划的局限（如因为随访期太短而不足以估计中位生存时间）或研究条件的改善（如获得充足的经费支持），可能会修改原研究计划将随访期显著延长，因为随访期越长，队列研究的价值越高。

•变量增多：随着科学研究的进展，伴随着新的诊断方法和预后因子（如新的生物标记物）的产生，新的终点评价方法的出现，新的分类标准的提出等，疾病登记应及时加入相应的新的变量，以紧跟科学前沿的需要。

（七）数据安全

应高度重视疾病登记的安全问题。用于分析的疾病登记数据应是经匿名化处理的数据，且不包含敏感个人信息，如姓名、证件号码、联系电话、所属单位、家庭住址、办公地址等。疾病登记数据管理的操作端和数据经处理后最终形成的分析数据库，患者的识别码是研究编号，通常在数据产生端（如原始病历或 HIS 系统）将患者个人信息通过编码转化而成。如果已有的疾病登记未经匿名化处理，则需经匿名化处理后才具备数据共享条件，否则会涉及个人信息安全的法律问题。有关数据安全的具体措施，可参见《用于产生真实世界证据的真实世界数据指导原则（试行）》。

（八）早期融入 PFDD 理念

患者参与的疾病登记具有积极意义。例如，在确定研究终点、关键变量及评估标准时，征求患者的意见和需求，可以更好地反映患者关心的问题，如生活质量、满意度和治疗依从性等。在登记的设计中，还可以考虑疾病管理功能，例如，提供线上的用药和监测指导、心理支持、康复训练等，帮助患者更好地管理自己的疾病，使其在药物研发过程中获益。基于 PFDD 的理念，疾病登记系统可以为患者提供关于所患疾病、治疗选择和参与研究的机会的信息，帮助患者提高对自身疾病的认识。同时通过患者组织或直接向患者提供疾病登记的各种信息，也利于更全面的招募合格患者，提高入组人群的代表性和减少选择偏倚。将 PFDD 的理念融入疾病登记及其研究，有助于提高患者满意度、改善临床实践及药物研发的质量和效率。

五、从临床研究角度对疾病登记数据的评估

只有经评估后适用的真实世界数据才有可能产生支持监管决策的真实世界证据，对疾病登记数据的适用性评估可参阅《用于产生真实世界证据的真实世界数据指导原则（试行）》。以下主要针对疾病登记数据阐述评估的要点。

（一）研究目的的实现

首先需要评估疾病登记数据是否支持拟开展项目的研究目的的实现，即基于这些数据经分析后所产生的 RWE 是否能够回答研究所要回答的临床或科学问题。可以根据对一些关键信息的评估做出初步判断，例如，疾病的诊断方法是否可靠，病例的选择是否与研究目的一致，研究组和对照组（若有）的治疗信息是否详尽，重要临床结局的测量是否可信，重要临床结局的随访期是否够长，关键变量的记录是否完整，病例数是否满足样本量需要，被重点关注的安全性信息是否记录，实施中的质量保证措施是否得力，数据的使用有无障碍，数据是否可追溯等。

（二）疾病登记建设的规范性

规范进行疾病登记建设是对研究的科学性和高效性的有力保障。规范性应体现在首先有周密的计划和设计，然后有严格的执行和质控。具体还要看，是否采用了行业的通用标准，是否在队列中保持统一的规范 / 标准，是否有专门的变量词典、操作手册、 SOP ，是否具备知情同意及患者隐私的保护基础，数据安全是否有保障，执行环节的记录是否完整，数据管理与使用的角色和权限是否清晰，组织和沟通的机制是否顺畅，等等。

（三）登记数据库人群代表性

根据研究方案所制定的病例入选 / 排除标准，评估来源于登记数据库的人群对于目标人群的代表性。如果该人群与目标人群有较大差异，应考虑研究结论的偏倚和适用范围。对于来自不同数据源的融合，应评估研究人群的一致性，如进行基线特征的比较。

（四）随访期、随访间隔和时间窗

疾病登记的重要结局变量的随访期一定要足够长，否则无法做出准确可靠的估计，例如，当研究的主要终点为生存时间，如果随访期太短不足以估计事件的中位时间，则难以对疗效做出客观判断。但从另一方面看，如果感兴趣的结局事件需要特别长的随访期，例如，有关慢性淋巴细胞性白血病的生存时间较长且高度可变，随访期可能需要 20 余年甚至更长时间，在不具备开展该项目研究的条件（如经费、研究团队等）下，选择这样的研究问题是欠妥的。随访间隔的设计应合理，间隔太长不利于了解疾病的变化规律，会降低时间依赖型事件的效应估计精度；间隔太短会增加研究的负担和实操的难度，从而有可能影响研究的质量。虽然疾病登记的时间窗相对随机对照试验可以放宽，但要适度，否则同样会影响研究的质量。

（五）数据质量及其控制

数据质量的评估在《用于产生真实世界证据的真实世界数据指导原则（试行）》的指南中有详尽阐述。由于疾病登记通常持续时间较长，其日常的运行和维护显得非常重要，因此，应特别关注其质量控制计划和具体执行情况。例如，是否有详细的质量控制计划，是否安排专职质控人员，是否制定相应的 SOP ，是否有系统的培训计划以及相应的活动记录等。此外，疾病登记数据的可追溯性尤为被关注，对于融合的外部数据亦要保证其可追溯性。

六、疾病登记数据的递交及与审评机构的沟通交流

（一）疾病登记数据的递交

用于支持注册申请的疾病登记数据应符合《用于产生真实世界证据的真实世界数据指导原则（试行）》、《药物临床试验数据递交指导原则（试行）》要求。

（二）与审评机构的沟通交流

为保证疾病登记数据的质量符合监管要求，使用登记数据开展真实世界研究作为关键证据支持监管注册的，需与药审中心及时沟通交流并达成共识。在真实世界研究正式开始前，应就研究目的、适用性、疾病登记数据能否满足监管对RWD 的适用性要求进行交流，包括疾病登记的计划与设计、运行与维护、病例的规模和队列的时间跨度、重要的变量、数据的完整度、拟开展的数据治理及其计划等。沟通交流的具体时间节点及注意事项参见《真实世界证据支持药物注册申请的沟通交流指导原则（试行）》。

附录：词汇表

中文术语	定义
产品登记（Product Registry）	针对某一种产品或多种产品所做的登记。
单臂临床试验（Single-arm/One-arm Trial）	是一种只设置试验组的非随机临床试验，通常采用外部对照，如历史对照或平行对照。
登记（Registry）	是指根据事先确定的登记目的，有组织地、系统地、根据所定义的随访 / 观察时限和时间点标准化收集与人口学、疾病、暴露、诊疗、结局等相关的患者个人层面的纵向数据所形成的数据库。
登记研究（Registry-based Study）	基于登记所产生的数据开展的研究。
电子病历（ Electronic Medical Record ， EMR)	由医疗机构中授权的临床专业人员创建、收集、管理和访问的个体患者的健康相关信息电子记录。
观察性研究（Observational Study）	根据特定研究问题，不施加主动干预的、以自然人群或临床人群为对象的、探索暴露/治疗与结局因果关系的研究。
患者报告结局(Patient-reported Outcome, PRO）	为任何来自患者直接报告且不被他人修改或解读的对自身疾病和相应治疗感受的评估结局。
患者为中心的药物研发（Patient-focused Drug Development ，PFDD)	指一套系统的方法，在药物全生命周期中，该法有助于确保患者的体验、观点、需求和优先顺序能够被捕获并有效地融入到药物的研发和评估中。
患者体验数据（Patient Experience Data，PED/ Patient Input）	任何人自愿提供的有关患者对于疾病和状态的体验的信息，此类信息包括患者的体验、观点、需求和喜好，但不限于症状及其疾病自然史，状态对其功能和生存质量的影响，治疗体验，结局对患者的重要性，患者对结局和治疗的偏好，以及其它患者关注的重要信息。
回顾性观察性研究（Retrospective Observational Study）	在研究开始时确定目标人群、并根据历史数据（研究开始前生成的数据）开展的观察性研究。
临床试验（Clinical Trial）	属于干预性临床研究，是将一种或多种干预（可能包括安慰剂或其它对照）前瞻性地分配给人类受试者，以评估这些干预对健康相关的生物医学或行为结局的影响。
疾病登记（Disease Registry）	针对某一种疾病，或某一类疾病，或多类疾病所做的登记。
前瞻性观察性研究（Prospective Observational Study）	在研究开始时确定目标人群、并在研究开始前确定收集暴露/治疗和结局数据的观察性研究。
数据标准（Data Standard）	是关于如何在计算机系统之间构建、定义、格式化或交换特定类型数据的一系列规则。数据标准可使递交的资料具有可预测性和一致性，且具有信息技术系统或科学工具可以使用的形式。
数据融合（Data Linkage)	将多来源的数据和信息加以合并、关联及组合，形成统一的数据集。
数据元素（Data Element）	临床研究中记录的受试者的单一观察值，例如，出生日期，白细胞计数，疼痛严重程度，以及其它临床观察值。
数据治理（Data Curation)	针对特定临床研究问题，为达到适用于统计分析而对原始数据所进行的治理，其内容至少包括数据提取（含多个数据源）、数据安全性处理、数据清洗（逻辑核查及异常数据处理、数据完整性处理）、数据转化（通用数据模型、归一化、自然语言处理、医学编码、衍生变量计算）、数据质量控制、数据传输和存储等若干环节。
通用数据模型（Common Data Model，CDM）	是多学科合作模式下对多源异构数据进行快速集中和标准化处理的数据系统，其主要功能是将不同数据标准的源数据转换为统一的结构、格式和术语，以便跨数据库/数据集进行数据整合。
外部对照（External Control）	在临床试验中，以试验对象以外的数据为对照，以评价所研究的干预效果。外部对照可以是历史数据，也可以是平行观测所获得的数据，还可以是目标值。
源数据（Source Data）	临床研究中记录的临床症状、观测值和用于重建和评估该研究的其他活动的原始记录和核证副本上的所有信息。源数据包含在源文件中（包括原始记录或其有效副本）。
真实世界数据（Real-World Data，RWD）	来源于日常所收集的各种与患者健康状况和/或诊疗及保健有关的数据。并非所有的真实世界数据经分析后都能成为真实世界证据，只有满足适用性的真实世界数据才有可能产生真实世界证据。
真实世界研究（Real-World Research/Study，RWR/RWS）	针对预设的临床问题，在真实世界环境下收集与研究对象健康状况和/或诊疗及保健有关的数据（真实世界数据）或基于这些数据衍生的汇总数据，通过分析，获得药物的使用情况及潜在获益-风险的临床证据（真实世界证据）的研究过程。其主要研究类型是观察性研究，也可是实用临床试验等。
真实世界证据（Real-World Evidence，RWE）	通过对适用的真实世界数据进行恰当和充分的分析所获得的关于药物的使用情况和潜在获益-风险的临床证据。

附录：中英文词汇对照

中文	英文
标准操作规程	Standard Operating Procedure, SOP
病例登记	Patient Registry
单臂临床试验	Single-arm/One-arm Trial
登记	Registry
登记研究	Registry-based Study
电子病历	Electronic Medical Record, EMR
观察性研究	Observational Study
患者报告结局	Patient Reported Outcome, PRO
患者为中心的药物研发	Patient-focused Drug Development, PFDD
患者体验数据	Patient Experience Data/ Patient Input
回顾性观察性研究	Retrospective Observational Study
疾病登记	Disease Registry
基于登记的随机对照临床试验	Registry-based/Register-based RCT
前瞻性观察性研究	Prospective Observational Study
数据标准	Data Standard
数据融合	Data Linkage
数据元素	Data Element
数据治理	Data Curation
通用数据模型	Common Data Model, CDM
外部对照	External Control
源数据	Source Data
卫生信息系统	Health Information System, HIS
健康服务登记	Health Service Registries
医疗产品登记	Product Registry
真实世界数据	Real World Data, RWD
真实世界研究	Real World Research/Study, RWR/RWS
真实世界证据	Real World Evidence, RWE
质量控制	Quality Control, QC
药物注册	Drug Registration
可归因性	Attributable
易读性	Legible
同时性	Contemporaneous
原始性	Original
准确性	Accurate
完整性	Complete
一致性	Consistent
持久性	Enduring
可获得性	Available When Needed

参考文献

[1] 国家药品监督管理局 . 真实世界证据支持药物研发与审评的指导原则（试行） . 2020.1

[2] 国家药品监督管理局 . 用于产生真实世界证据的真实世界数据指导原则（试行） . 2021.4

[3] 国家药品监督管理局 . 患者报告结局在药物临床研发中应用的指导原则（试行） . 2021.12

[4] AHRQ. Registries for Evaluating Patient Outcomes A User's Guide. 4th Edition. 2020.9

[5] EMA. Guideline on Registry-based Studies. 2021.12

[6] FDA. Real-World Data: Assessing Registries to Support Regulatory Decision-Making for Drug and Biological Products. 2023.12

[7] 国家药品监督管理局 . 真实世界研究支持儿童药物研发与审评的技术指导原则（试行） 2020.8

[8] 国家药品监督管理局 . 罕见疾病药物临床研发技术指导原则（试行） 2022.1

[9] 国家药品监督管理局 . 罕见疾病药物临床研究统计学指导原则（试行） 2022.6

[10] 国家药品监督管理局 . 单臂临床试验设计用于支持抗肿瘤药上市申请的适用性技术指导原则（试行） 2023.3

[11] FDA. Considerations for the Design and Conduct of Externally Controlled Trials for Drug and Biological Products (Draft). 2023.2

[12] 国家药品监督管理局 . 药物真实世界研究设计与方案框架指导原则（试行） . 2023.2

[13] 国家药品监督管理局 . 临床试验的电子数据采集技术指导原则 . 2016.7

[14] 国家药品监督管理局 . 药物临床试验数据递交指导原则（试行） . 2020.7

[15] 国家药品监督管理局 . 药物临床试验数据管理工作技术指南 . 2016.7

[16] 国家药品监督管理局 . 真实世界证据支持药物注册申请的沟通交流指导原则（试行） . 2023.2

NMPA

疫苗临床试验统计学指导原则（试行）

一、概述

疫苗是为预防、控制疾病的发生、流行，用于人体免疫接种的预防性生物制品。与药物临床试验相比，疫苗临床试验有其特殊性，例如，①疫苗产品具有独特的作用机制；②疫苗临床试验选择的受试者大都为暴露于危险因素的未患病人群；③使用规模相对较大；④有效性评价一般从免疫原性和保护效力两个方面进行考虑；⑤有更加严格的安全性要求。

本指导原则主要针对疫苗临床试验中的关键统计学问题进行阐述，旨在为申办者在疫苗临床试验的设计、实施、分析和评价方面提供指导性建议。本指导原则适用于以支持疫苗注册上市为目的的确证性临床试验。本指导原则仅代表当前的观点和认识，随着研究和认识的深入将予以修订完善。

二、评价指标

疫苗临床试验中的主要终点评价指标包括免疫原性、保护效力和安全性，申办者应根据具体情况选择合适的主要终点评价指标。

（一）免疫原性

免疫原性评价指标是指评估免疫应答的强度和持久性的相关指标，方案中应根据研究目的明确免疫原性评价指标的评价时点。目前常用的免疫原性评价指标为体液免疫相关指标，包括抗体滴度/浓度、血清阳转、血清保护等。

抗体滴度/浓度评价指标的数据多呈近似对数正态分布，群体层面汇总一般使用几何均数，组间比较统计量为试验组与对照组组间的几何均数比值等；通常，还需要提供标准差以及最大值、最小值、中位数、四分位数等。对于低于定量下限（LLOQ）或高于定量上限（ULOQ）的情形，需在方案或统计分析计划中说明赋值方式及合理性。血清阳转/保护的群体层面汇总可表示为血清阳转/保护的受试者占总受试者的比例，即血清阳转/保护率；组间比较统计量为试验组与对照组组间的率差等。

（二）保护效力

疫苗保护效力是评价疫苗有效性的直接证据，是指疫苗对受试者的临床保护力，临床保护是指预防临床疾病、疾病进展或病原体感染的发生。当对照组接种另一种与目标疾病不相关的疫苗或安慰剂时，此时获得的是绝对保护效力；当对照组接种对目标疾病具有保护效力的上市疫苗进行头对头研究时，此时获得的是相对保护效力。

基于个体随机设计的疫苗临床试验，可以评价疫苗的直接保护作用。疫苗保护效力的群体层面汇总为发病率、风险率等。发病率通常为人时发病率或累积发病率。人时发病率也称发病密度，表示单位时间内的平均发病率，其分子为随访期内的发病例数，分母为各受试者的暴露时间之和；应在方案或统计分析计划中明确受试者随访的开始时间、结束时间和暴露的开始时间、结束时间。累积发病率也称为危险度或罹患率，是指在特定期间内，总发病人数占试验总人数的比例。

保护效力=（1-试验组发病率/对照组发病率）×100%。

若基于风险率，可使用生存分析的方法计算试验组与对照组的风险比（HR），再通过1-HR计算出疫苗的保护效力，反映了与对照组相比疫苗降低的风险。

在计算保护效力时，需要明确终点病例计数的时间区间。根据研究目的，起始评估时间为接种第一剂疫苗时的时间或完成完整的接种程序的时间等其他时间。结束评估时间为最后一名受试者达到了接种后预先设定的随访时间或累积至预定的终点病例数（当对照组的发病率不太确定时，可考虑使用这种基于事件驱动的方法）等方案中规定的其他时间。

（三）安全性

在进行临床试验时，可根据疫苗特性、受试者人群特征和疾病危害程度确定安全性评价指标，具体参见疫苗临床试验相关指导原则。安全性评价指标的群体层面汇总可表示为发生安全性事件的受试者占总受试者的比例。

三、一般统计学考虑

（一）估计目标

申办者应根据试验目的确定估计目标，并在试验方案中描述。参考ICH E9 (R1)，每个估计目标应包括人群、治疗（疫苗临床试验中被称为接种）、变量（终点）、伴发事件及其处理策略和群体层面汇总五个属性。其中，变量和群体层面汇总在前面章节已经介绍，本节主要介绍人群、接种和伴发事件。

1. 人群

估计目标中的“人群”定义应与试验的免疫目标人群一致，通过入排标准定义的人群应与疫苗接种的目标人群一致，通常要考虑的因素包括适用人群的年龄、健康状况、免疫功能水平、病史和用药史等。某些疫苗的有效性可能需要在未感染目标病原体的人群中进行科学评估，需在目标人群的定义中明确未感染的定义，例如基线血清学抗体为阴性（-）和/或基线生物样本病原体检测为阴性（-）。此外，一些伴发事件的处理策略应体现在估计目标的人群属性中。

2. 接种

估计目标中的接种应在方案中明确规定，例如研究疫苗的接种程序（包括接种剂次、每剂接种时间窗口等）。如果试验目的旨在评价同种接种程序的替代接种途径（如皮下注射代替肌肉注射），方案中还需明确接种途径。对于伴随接种（例如试验时伴随接种免疫规划疫苗），通常还需要明确接种是联合接种或非联合接种。

3. 伴发事件及其处理策略

在进行试验设计时，需考虑可能影响终点评价的伴发事件，例如合并禁用药物、合并接种非研究疫苗等；对于影响终点评价的不良事件，也应考虑将其作为伴发事件；视研究目的，有时还需考虑对疫苗接种程序的不依从等。另外，伴发事件也会影响估计目标的其他属性（例如人群、接种和变量）的定义。建议尽量收集发生伴发事件后的数据。

伴发事件的处理策略需要反映所研究的科学问题，科学问题应反映临床所关心的问题和试验的目的。若科学问题旨在评估对疫苗接种程序依从的人群中的有效性，与疫苗接种程序依从性相关的伴发事件的处理可采用主层策略，对潜在疫苗接种程序依从的受试者进行分析；该策略限定无论分配到试验组还是对照组，都会以疫苗接种程序依从的受试者作为目标人群；此时，疫苗接种的目标人群是会遵守疫苗接种程序的受试者，接种为方案中定义的完整接种程序。在保护效力试验中，如果研究进一步关注在未感染的人群中的有效性时，伴发事件还应考虑未产生保护前的早期感染；对应的保护效力终点通常被定义为发生在完全接种并产生预期免疫力后开始的事件。需要注意的是，需事先明确终点事件的时间窗口，受试者从接种疫苗到观察终点有可能会持续数周甚至数月，这期间由于易感性可能在疫苗提供保护前感染目标病原体，这类早期感染若作为伴发事件，可采用主层策略，即限定目标人群为潜在不会发生早期感染的受试者。

安全性评估可能为主要目标，对估计目标的定义，应考虑特定安全性所关注的人群、接种和终点，并识别对应的伴发事件以及采用合理的处理策略。例如，当安全性主要关注的是疫苗接种后某特定时间内的不良事件时，对可能发生的伴发事件（如未完成预定的免疫接种程序），可考虑采用在治策略。此时，对于未完成预定的免疫接种程序的伴发事件，其相应的终点定义为发生在已接种剂次及其安全性评估时间窗内的征集性不良事件。对于其他干扰试验的伴发事件（例如接受禁用的伴随药物或非研究疫苗），可考虑疗法策略。

（二）比较类型

对于优效性试验，应根据临床获益确定达到优效的判断标准；对于等效/非劣效设计，应设置合理的等效/非劣效界值，非劣效界值的制定建议参考《药物临床试验非劣效设计指导原则》。

（三）样本量

应在方案及相关文件中阐述样本量估计方法（包括所涉及的参数及其依据）以及样本量调整计划（若有）。确定的样本量应至少确保对主要估计目标的评价具有足够的检验效能。

在样本量估计时应考虑的因素包括比较类型及界值（例如非劣效界值）、估计目标、临床上认为有意义的差异、随机化类型（个体还是群体随机）、随机分配方法、检验统计量、统计假设、统计分析方法、Ⅰ类错误率、检验效能、发病率、暴露因素、多重性以及脱落率等。还应考虑例如免前阴性人群所占比例以及样本量估计所依据的人口学和社会特征等。

当一个临床试验中包含多个主要试验目的时，例如同时考虑多个保护效力的终点指标、免疫原性指标，需谨慎设计并说明其合理性，确定的样本量应满足所有主要终点指标的评估。

疫苗临床试验在样本量估算时可能还需考虑 II 类错误膨胀问题，例如多联疫苗、多价疫苗的临床试验以及批间一致性临床试验通常涉及多个假设检验，此时需关注多个假设同时达到可能导致的 II 类错误膨胀，建议试验整体的检验效能仍能达到常规确证性试验的水平。

当以几何平均滴度/几何平均浓度为终点计算样本量时，需考虑对滴度/浓度数据进行转换。

对于保护效力试验，在计算样本量时，需要对对照组的发病率进行预估。当观察期固定时，对照组发病率越低，所需要的样本量越大；反之，则需要的样本量相对越小，试验所用的时间也越短。

对于安全性终点（特别是罕见的严重不良事件），样本量应足够大以确保对其进行充分评价。如需对安全性终点进行统计学假设检验，样本量需符合统计学要求，通过计算不良事件的率差（绝对风险差异）或率比（相对风险比），按照是否超过预先设定的界值来确定样本量。

（四）盲法与随机

盲法是为了控制在临床试验的过程中，以及对结果的解释时产生有意或无意的偏倚。疫苗临床试验一般为双盲试验，盲法通常由多种设盲措施构成，常见的设盲措施包括分配隐藏、治疗模拟、药物编码、研究参与人员的盲态保持、盲态数据审核和独立评价等。应制定详细的盲法监控计划对盲法实施情况进行全程监控。应按计划开展监控并进行记录以确保监控过程可追溯。在制定临床试验方案的过程中，对拟采用的盲法和选择的设盲措施应与审评机构沟通。

与盲法合用，随机化有助于避免在病例的选择和分组时因处理分配的可预测性而导致可能的偏倚。在疫苗临床试验中，随机对照试验仍然是金标准。随机单位为个体或群体。大部分疫苗临床试验主要基于个体随机。当免疫原性人群是试验人群的一部分时，需在方案中明确免疫原性人群的抽取规则。在临床试验结束后应评估临床试验过程中是否发生随机化错误，若有，应评估其对主要终点的影响。

（五）多重性调整

如果试验存在多重性问题，应在方案中预先制定相应的多重性调整策略，阐明控制总I类错误率的策略与方法，并在样本量计算和统计分析时进行考虑。

如有期中分析，建议在方案中明确期中分析目的，并注意盲态保持、I类错误膨胀及试验完整性等问题。

（六）分析集

应根据不同研究目的描述分析集的定义并明确主要分析集。需要注意的是，当将符合方案集（PPS）作为主要分析集时，需说明合理性并评估可能的偏倚影响。安全性分析集应与关注的安全性问题对应的人群一致，通常为至少接种了一剂疫苗的受试人群。

（七）统计分析

申办者应根据研究目的、试验设计和估计目标等选择合理的统计分析方法并在研究方案中进行简要描述。相对于临床试验方案中对统计分析的阐述，统计分析计划是具有更多技术性和实际操作细节的一份独立文件，包括针对估计目标及其他数据进行统计分析的详细内容。确证性证据必须是在统计分析计划中事先规定的统计分析内容，其他的分析内容只能是支持性或探索性的。如果涉及期中分析，相应的统计分析计划应最迟在每次期中分析前确定。应给出不同类型资料的描述及统计推断方法（必要时需提供参考文献并说明合理性），明确采用的单/双侧检验及其检验水准，并说明所采用的统计软件及版本号。

还需在方案中明确缺失数据处理对应的缺失机制和处理方法。为了表明结果的稳健性，建议针对主要估计目标进行充分的敏感性分析和亚组分析。还需考虑补充分析，以提供对疫苗有效性更全面的了解，包括使用不同策略处理伴发事件的分析、基于主要分析集之外的其他分析集的分析等。

主层策略是对潜在主层受试者进行分析，由于一般临床试验无法在随机化前识别出主层人群，无法直接观察到受试者是否属于主层，往往需依赖因果推断的方法基于特定假设估计主层人群的疗效，因此需描述潜在主层所基于的假设及其合理性，且由于大部分假设无法检验，故针对假设的敏感性分析也十分重要。

安全性终点一般使用描述性分析。如果有统计学假设，统计分析的考虑与有效性相同。

值得注意的是，统计学分析应建立在真实、准确、完整和可靠的临床试验数据基础上，申办者需要考虑估计目标所涉及伴发事件的处理策略，收集与既定估计目标相关的必要数据。

四、其他

（一）群随机设计

针对特殊群体、突发传染性疾病（例如传染病大暴发期间）等的疫苗保护效力临床试验，在通过个体随机评价保护效力难以实现时，基于科学性和可行性，可考虑采用群随机设计。主要包括两阶段群随机设计、平行群随机设计和阶梯群随机设计等。

1. 保护效力

基于群随机设计，可以计算直接保护效力、间接保护效力、总保护效力和整体保护效力。群随机试验的主要终点通常采用总保护效力。

2. 样本量

基于群随机设计的样本量，由于同一群体中个体之间存在相似性，需设定群内相关系数，可基于既往相关试验或外部数据对其进行估计。不能直接使用基于个体随机的样本量估算方法，否则会导致样本量低估，从而降低试验的效率。由于群内相关系数的估计存在一定的不确定性，建议申办者在方案设计时与监管机构进行沟通。

3. 统计分析

基于群随机设计的统计分析，主要有基于群水平分析和校正群体水平的个体水平分析，在统计分析时应考虑群水平及群内相关系数的校正，否则可能导致I类错误膨胀。

（二）与监管机构的沟通

由于疫苗临床试验在研究设计、实施、分析和报告的特殊性，鼓励申办者与监管机构就方案设计及实施中的关键统计学问题进行及时沟通。进行沟通前，申办者应该向监管机构预先提供方案及关键统计学问题的详细资料。

词汇表

中文	英文
伴发事件	Intercurrent Event
发病密度	Incidence Density
风险比	Hazard Ratio
符合方案集	Per Protocol Set
估计目标	Estimand
几何均数	Geometric Mean
阶梯群随机	Stepped Wedge Cluster Randomization
累积发病率	Cumulative Incidence
两阶段群随机	Two-stage Cluster Randomization
疗法策略	Treatment Policy Strategy
免疫原性	Immunogenicity
平行群随机	Parallel Cluster Randomization
群随机	Cluster Randomization
人时发病率	Person-time Incidence Rate
血清保护	Seroprotection
血清阳转	Seroconversion
疫苗保护效力	Vaccine Efficacy
在治策略	While on Treatment Strategy
征集性不良事件	Solicited Adverse Event
主层策略	Principal Stratum Strategy

参考文献

[1]. 《中华人民共和国疫苗管理法》.2019.

[2]. 国家药品监督管理局.《预防用疫苗临床可比性研究技术指导原则》.2019.

[3]. 国家药品监督管理局.《非劣效设计临床试验指导原则》.2019.

[4]. 国家药品监督管理局.《药物临床试验亚组分析指导原则》.2020.

[5]. 国家药品监督管理局.《药物临床试验多重性问题指导原则（试行）》.2020.

[6]. 国家药品监督管理局.《药物临床试验协变量校正指导原则》.2020.

[7]. 国家药品监督管理局.《药物临床试验随机分配指导原则》.2022.

[8]. 国家药品监督管理局.《药物临床试验盲法指导原则》.2023.

[9]. 国家药品监督管理局.《药物临床试验数据管理与统计分析计划指导原则》.2022.

[10]. ICH E9(R1). Addendum on Estimands and Sensitivity Analysis in Clinical Trials to the Guideline on Statistical Principles for Clinical Trials. 2019.

NMPA

药物临床试验样本量估计指导原则（试行）

一、概述

样本量估计，又称样本量确定，是药物临床试验设计的重要组成部分，也是确保研究具有合理性、准确性、可靠性、完整性和科学性的重要手段。通常，临床试验的样本要有充分的代表性，纳入的样本量必须足够大，以可靠地回答研究假设所针对的目标人群的临床问题。

对于药物临床试验，当样本量估计相关参数设置缺乏依据或依据不充分时，会为样本量估计带来不确定性，增大试验失败的风险等。另外，若试验中样本量调整的方法不当或操作不当则会导致总 I类错误率（FWER）膨胀、破坏试验完整性及引入偏倚等方面的问题。

为指导申办者进行科学合理的样本量估计，本指导原则主要阐述基于统计假设进行样本量估计时的参数设置和样本量调整等的基本考虑。本指导原则适用于以注册为目的的确证性临床试验。

二、样本量估计的主要考虑

对于临床试验所要回答的科学问题，统计学主要根据估计目标对应的研究假设提出统计假设，通过假设检验进行推断。样本量估计一般依据主要估计目标，原则上应保证整体检验在控制 FWER 的同时并具有足够的检验效能。某些情况下，可能需要对关键次要估计目标进行样本量估计，此时同样需要考虑 FWER 的控制。不同的假设检验方法有不同的样本量估计方法。正确的样本量估计应基于与估计目标相一致的试验设计和恰当合理的统计分析方法。应在方案中描述计算样本量的方法，以及在计算时使用的相关参数及其依据。

样本量估计需考虑的因素众多，一般包括：①试验设计；②检验水准和检验效能；③统计分析方法；④预期治疗效应及变异等。

(一) 试验设计

试验设计是样本量估计时需考虑的重要因素，通常包括但不限于比较类型、设计类型、变量类型、伴发事件及其处理策略、多重性调整策略、组间分配比例及随机化方法等。

对于优效设计，试验组效应估计值应优于对照组，且应根据临床获益确定达到优效的判断标准，并据此明确统计学假设。在非劣效性和等效性试验中，阳性对照药疗效以及相应的非劣效界值和等效界值是样本量估计中的关键参数；在制定非劣效界值和等效界值时，应考虑所采用历史研究的估计目标与当前研究的差异，非劣效界值的确定方法建议参考《药物临床试验非劣效设计指导原则》。

当单臂设计采用目标值对照时，目标值的设定应基于专业领域具有共识或认可程度较高的标准，当采用历史对照或基于历史数据确定目标值时，应选择可靠的历史数据。

对于时间-事件类型的变量，最终决定检验效能的主要是随访中观测到的结局事件数，因此结局事件发生率、入组速度、入组时长、随访时长、脱落率等因素也会进一步影响最终样本量。

样本量估计需要考虑估计目标中伴发事件及其处理策略对治疗效应及变异参数的影响。疗法策略将伴发事件作为治疗（处理）的一部分，其对样本量估计的影响主要体现在治疗（处理）中伴发事件对治疗效应和变异的影响。在治策略与复合变量策略，直接影响结局变量的定义，进而影响治疗效应和变异。假想策略设想一种没有发生伴发事件的情景，通常伴随着一定的假设，相应的假设会直接影响治疗效应和变异。主层策略体现在估计目标人群属性的定义中，该策略下主层人群的识别方法、主层人群所占比例及相应人群预期的治疗效应和变异会影响最终的样本量估计。

若存在多重性问题，可能会涉及调整检验水准、调整检验效能及调整统计分析方法等方面，在样本量计算时应考虑这些调整。例如若设置了期中分析，则在样本量估计时需考虑 FWER 的控制；确证性亚组的样本量估计应结合多重性策略加以考虑。

组间样本量的分配比例是样本量估计中需考虑的参数，药物临床试验常采用平衡设计，即各组样本量相同。当出于伦理考虑或其他合理理由需要降低某组或某些组的样本量的分配比例时，可采用非平衡设计。样本量在各组的分配比例直接影响最终样本量估计，研究方案中须明确说明。采用分层随机化时可能需考虑各层比例与目标人群保持一致以及分层因素可能导致的某个或某些层受试者例数稀疏等问题。

(二) 检验水准及检验效能

检验水准和检验效能是样本量估计中考虑的基本参数，须在方案中明确。

设置合适的检验水准可以达到控制 FWER 的目的。对于确证性试验，FWER 通常要求控制在单侧 0.025、双侧0.05 以内。当涉及多重性问题时，名义检验水准的设置可参考《药物临床试验多重性问题指导原则（试行）》。

对于检验效能，通常设定不低于 80%，当涉及多重性问题时，需考虑其对检验效能的影响。对于析因设计，当研究目的包含交互作用的检验时，若基于检验主效应计算样本量，则交互作用的检验效能可能不足。对于多中心试验，样本量和检验效能的计算通常基于各中心的组间治疗差异是相同的无偏估计的假设，因此，制定共同研究方案并给予实施很重要，同时试验的实施流程应该尽可能标准化。

(三) 统计分析方法

恰当合理的统计分析方法，是科学的样本量估计的基础和前提，样本量估计前须确保所选择的统计分析方法与研究设计相匹配。例如，统计分析方法应适合研究设计的设计类型、比较类型、随机化方法、变量类型等。方案中需明确给出样本量估计所基于的统计分析方法，且原则上应与主分析方法相一致，否则需有合理的理由认为所依据的方法能满足主要估计目标所需的样本量，不会导致样本量低估。方案中应明确样本量估计的具体计算方法、工具，当采用统计模拟估计样本量时，模拟的参数设置、模拟方法、种子数以及模拟代码等应在相关文件中详细描述并在与监管机构沟通时递交。

需要注意的是，每种统计分析方法均有其相对应的假设，在选择统计分析方法时需充分评估所选择方法违背其假设时的风险，以及违背假设对样本量估计可能产生的影响。统计分析方法中常见的假设有关于数据分布的假设和关于统计分析模型的假设等。

1. 数据分布假设

统计分析常需要对数据的分布进行假设，例如，连续变量的数据服从正态分布假设，时间-事件变量的数据服从指数分布假设等。需评估偏离数据分布假设的可能性，一方面当偏离风险较大时应采用对分布假设更稳健的分析方法或不依赖于分布假设的分析方法，另一方面在参数设置时，也应考虑偏离分布假设带来的治疗效应高估或变异低估的可能性。当采用非参数或半参数方法分析时，样本量估计基于方便计算的考虑可能会依赖一定的参数假设，例如生存分析log-rank检验，样本量估计时可能会假设生存数据服从指数分布，在应用时需考虑偏离假设所带来的风险。

当数据存在相关性并影响治疗效应或变异估计时，若忽略相关性，则可能对样本量估计和分析带来影响，以及带来 FWER 膨胀的风险。因此在样本量估计时需评估数据间相关性，并在方案中明确描述其大小和依据；在统计分析时也应考虑相关性。

2. 统计分析模型假设

统计分析模型通常会基于一系列假设，需关注模型的适用性，对模型假设是否成立应进行预先判断并进行事后验证。若统计分析模型的假设存在不成立的风险，建议在计算样本量时，将此风险纳入考虑。此外，协变量会影响治疗效应及变异的估计，样本量估计时应考虑是否调整协变量。关于协变量调整可参考《药物临床试验协变量校正指导原则》。另外，对于分层随机，若存在某些层的样本量较少等情况时，校正分层因素或采用分层分析可能存在降低检验效能的风险，在设计时应进行考虑。

(四) 预期治疗效应及变异

在基于给定的统计分析方法进行样本量估计时，需在原假设和备择假设分别成立的情况下对各参数进行合理设置，主要包括对影响预期治疗效应及变异的相关参数设置。

参数设置须有充分依据，一般应基于历史数据（前期研究结果或已发表的数据等），并注意其临床意义与合理性。不建议出于减少样本量的目的，设置激进的参数。当参数设置无依据（无历史数据）或参数设置依据不充分（历史数据过少）时，建议先开展探索性试验获得所需参数。

对于所参考的历史数据，应充分评估当前拟开展研究的估计目标与历史数据相关研究估计目标之间的差异。当历史数据的相关研究与当前研究的估计目标相同或相近时，所提供的参数较为可靠；当差异在可接受范围时，建议基于合理假设设置参数；当差异较大时，建议进一步开展探索性试验。由于人群、治疗（处理）或变量（终点）的定义会与伴发事件处理策略相关，因此应考虑伴发事件的处理策略对预期治疗效应及变异估计的影响，参数设置时，若假定的参数或参考的历史数据未能反映伴发事件的影响，则建议评估伴发事件的发生比例及其处理策略和可能带来的疗效损失，尽可能降低样本量低估的风险。此外，若当前拟开展研究与历史数据相关研究的统计分析方法之间存在差异，也需评估其对参数估计的影响。

样本量估计还应考虑缺失数据的影响，该影响可在治疗效应和变异的参数假设中考虑，也可采用对计算所得样本量增加一定比例等方法进行处理。

三、样本量调整

样本量调整是指临床试验期间对初始设计的样本量所做的调整。样本量调整一般不建议减小样本量。应在方案中说明样本量调整的必要性和合理性，以及为保持盲态和试验完整性所采取的措施。

(一) 样本量调整的原则

只有合理的样本量调整才能达到提高试验效率的目的。应充分评估进行样本量调整的必要性、合理性、可行性，并确保试验的完整性，通常基于可行性及最小临床意义差别或可接受的最大方差设置最大可接受样本量。

1. 必要性

不应无根据地随意调整样本量，需充分评估样本量调整的必要性。当历史数据过少导致参数设置的依据不足时，可通过开展探索试验获得所需的数据；如果历史数据较充分可靠，相比样本量重新估计设计，固定样本量设计可在保证检验效能的情况下，具有节省期中分析成本、避免期中分析可能带来试验完整性破坏的风险、效率更高等优点。对于非劣效性和等效性试验，阳性对照药参数较明确，缺乏调整的必要性且样本量调整可能存在I类错误率膨胀的问题，建议谨慎考虑样本量调整。

2. 合理性

样本量调整应以控制 FWER 和保证试验完整性为前提，保证调整的合理性并根据调整方法制定正确的统计分析方法。与样本量计算的原则一致，调整后的样本量应避免有统计学意义但没有临床意义的情形。如果根据试验本身累积的数据进行样本量重新估计，建议选择合理的调整时间节点，不建议过早或过晚进行样本量调整。过早进行调整，可能会面临由于数据较少导致调整所基于的参数可靠性不足；过晚进行调整，可能面临入组结束等试验实施方面的问题。

3. 可行性

样本量调整需要考虑可行性。多次调整会增加设计和实施的复杂性，并存在引入操作偏倚的风险，一般不建议进行多次样本量调整；入组结束后的样本量调整会给临床试验实施带来挑战，因此样本量调整需要评估试验入组进度，以及数据收集和数据清理的进度和速度。另外，如果试验终点的观测需要随访的时间较长，还需要评估样本量调整对试验整体时间的影响。

4. 完整性

样本量调整应避免引入操作偏倚并保持试验的完整性。当根据试验累积数据进行样本量重新估计时应严格按照方案、统计分析计划和/或包含样本量调整的期中分析计划中预先设定的规则进行调整。

对于不使用试验分组信息且在双盲试验中进行的盲态样本量重新估计一般不会引入操作偏倚，可由申办者或数据监查委员会（DMC）及其独立统计团队完成；其他情况下的盲态样本量重新估计建议由DMC及其独立统计团队完成，以保持试验的完整性。

非盲态的样本量重新估计需由DMC及其独立统计团队完成。由于涉及非盲的数据和结果，期中分析的执行应是一个完全保密的过程。参与试验实施的所有人员（包括研究者、申办者项目组成员和申办者所雇佣的人员等）及受试者应当对这些分析结果保持盲态，否则可能会导致招募患者的特征改变、患者依从性降低、入组速度降低及产生治疗组间比较的偏倚等方面的问题。研究者应仅被告知继续或终止试验的决定，或实施修订试验方案的决定。DMC向申办者提出的建议中也应避免提供可以反推疗效的相关内容，以保证试验的完整性。

单臂试验一般不建议进行样本量调整。单盲试验和开放试验的样本量重新估计，建议由 DMC及其独立统计团队完成，并注意试验完整性以及盲态保持。

(二) 样本量调整的情形

常见样本量调整的情形包括基于外部数据的调整和基于内部数据的调整。

1. 基于外部数据的调整

指基于外部试验（非本试验）的数据修订初始设计的样本量估计相关参数（例如影响治疗效应和变异的参数），进而调整相应的样本量。此类调整应充分考虑外部数据的可靠性。

2. 基于内部数据的调整

又叫样本量重新估计，指依据方案预先设定的期中分析计划，利用本试验累积的数据重新计算样本量，以保证最终的统计检验能达到预先设定的目标或修改后的目标，并同时能够控制FWER。

应在方案中明确样本量重估的时间节点、样本量重估的决策规则、最大可接受样本量、样本量重估的方法、FWER控制方法以及调整后各组点估计及区间估计的计算方法，组间差异的点估计和区间估计的计算方法以及组间比较时统计量及P值的计算方法。

建议在期中分析计划中明确样本量重估的具体决策规则和期中分析报告应包含的内容，并在相关文件中明确期中分析报告的接触权限，期中分析数据的传输。若期中分析计划涉及样本量重估中反推疗效的细节，建议对期中分析计划设置访问权限，避免非必要人员知晓相关内容，例如可限定仅撰写样本量重新估计计划和审批的统计师、DMC及其独立统计团队有访问权限。建议在DMC章程中明确DMC向申请人提出样本量重估时应遵循的程序。

相比盲态样本量重新估计，非盲态样本量重新估计可能引入的偏倚、FWER膨胀、及破坏试验完整性的风险更高，在设计和实施时更需谨慎。是否采用非盲态样本量重新估计需要考虑多种因素。例如，若有比较可靠的前期数据，非盲态下样本量重新估计是否必要；采用非盲态样本量重估所付的代价（例如检验水准调整）与初始设计时略微放大样本量相比，是否获益；期中分析能否很快完成，是否可能因为入组较快而导致没有充足时间用来调整试验；期中分析的时间节点和推断方法是否合理；现有数据能否支持进行计划内的期中分析等。因此，应根据试验本身的特点，仔细考虑各种因素，然后做出合适的决策。

（1）盲态样本量重新估计

对于盲态样本量重新估计，针对样本量重新估计的期中分析不对数据揭盲，不使用实际试验分组信息，或未做任何涉及组间疗效比较。通常是在假定初始设定的组间差异不变的情况下对其他参数（例如事件发生率、变异等）进行重新估计来调整样本量。期中分析时因不涉及组间疗效比较，一般不会导致FWER膨胀。

（2）非盲态样本量重新估计

对于非盲态样本量重新估计，针对样本量重新估计的期中分析使用试验分组信息，分析内容涉及组间疗效比较。通常根据试验累积数据以及分组信息，计算样本量的重要参数（例如预期治疗效应），然后对样本量进行重估，因期中分析涉及组间疗效比较，通常导致FWER膨胀，需要对I类错误率进行控制。

常见的样本量调整决策规则有：①基于条件检验效能或试验成功率，当条件检验效能或试验成功率落在某个区间时对样本量进行重新估计，否则不对样本量进行调整；②基于期中分析的组间治疗效应差异，当差异落在某个区间时对样本量进行重新估计，否则不对样本量进行调整。

与常用调整决策规则相对应的计算调整后样本量的方法通常有：①基于条件检验效能或试验成功率，使得根据调整后的样本量计算所得条件检验效能或试验成功率达到预先设定的要求；②基于期中分析得到的治疗效应与方案初始设计的治疗效应的比值调整样本量。

四、其他

(一) 试验实施过程中的考虑

申办者应按照计划的样本量完成临床试验，除了出于伦理原因提前终止或出于检验效能不再可接受而放弃外，原则上不得随意终止试验。试验过程中不得随意增加或减少样本量，样本量调整也需在方案中明确并按照方案进行实施。

申办者应评估样本量重新估计中是否存在反推疗效、破坏试验完整性的风险，若存在须采取必要措施和方法加以防范。

(二) 基于贝叶斯方法的样本量估计

基于贝叶斯方法的样本量估计除先验分布的设置外，其余考虑因素与传统样本量估计考虑的因素一致。设计时应在全面严谨的模拟研究基础上，充分评估先验信息的合理性，确定合理的拒绝原假设的决策规则，使方法满足控制 FWER 的要求。同时可使用其他合理的先验信息进行敏感性计算。建议就参数设置、FWER控制及模型等与监管机构进行沟通。

(三) 基于其他目的的样本量估计

样本量一般基于主要估计目标来估计，如果由其他因素确定（例如，根据安全性评价或重要的次要估计目标确定样本量），应在方案中说明理由，并详细描述估计方法。最终所确定的样本量不能比基于主要估计目标所需样本量小。

(四) 样本量的敏感性计算

样本量估计时需考虑的因素众多，而历史数据通常相对有限，申办者一般需要进行各种偏离假设的计算，即敏感性计算，使各参数在一定合理范围内取值，或使参数取值来自某一分布，提供偏离假设的样本量范围，以在一定程度上降低样本量估计的不确定性。基于敏感性计算结果结合保守原则，用以指导确定合理的样本量，是一种谨慎和较稳妥的做法。

(五) 样本量重新估计与其他适应性设计的结合

当样本量重新估计与其他适应性设计相结合或与其他多重性问题相结合时，由于设计的复杂性，尤其需要考虑较高的破坏试验完整性的风险等问题，通常需要严谨的理论及模拟确定调整的时间点和决策规则及其他运行特性，以证明这些规则满足样本量调整所需满足和达到的要求，例如控制FWER、达到检验效能、避免过早或者过晚（例如入组结束后）进行样本量调整等。需要慎重考虑是否有必要进行多重适应性调整，并在确认必要性后，严格遵守适应性设计的合理性、完整性和可行性的原则进行设计和执行，并与监管机构进行全面细致的沟通。

(六) 与监管机构的沟通

鼓励申办者在研究开始前，与监管机构就关键性临床试验中的样本量进行沟通，方案中应明确样本量计算时使用的所有参数及相应依据。建议申办者在沟通时对试验设计、检验水准及要达到的检验效能、统计分析方法、预期效应及变异参数设置和样本量计算方法等进行详细说明。如采用模拟的方法进行样本量估计，建议递交模拟代码和模拟方法的详细说明，包括但不限于模拟参数的假设及依据、模拟的种子数、模拟次数等。

涉及样本量调整的方案应在相关方案确定后尽快与监管机构沟通并提供调整依据，建议在沟通方案时一并递交（单独的）样本量调整计划，包括但不限于样本量计算或模拟代码及结果， FWER控制策略，调整后各组点估计及区间估计的具体计算过程，组间差异的点估计和区间估计的具体计算过程以及组间比较假设检验统计量及P值的具体计算过程等。

参考文献

[1] 国家药品监督管理局药品审评中心. 药物临床试验多重性问题指导原则（试行）. 2020

[2] 国家药品监督管理局药品审评中心. 药物临床试验非劣效设计指导原则. 2020

[3] 国家药品监督管理局药品审评中心. 药物临床试验盲法指导原则（试行）. 2022

[4] 国家药品监督管理局药品审评中心. 药物临床试验随机分配指导原则（试行）. 2022

[5] 国家药品监督管理局药品审评中心. 药物临床试验适应性设计指导原则（试行）. 2021

[6] 国家药品监督管理局药品审评中心. 药物临床试验数据管理与统计分析计划指导原则. 2021

[7] 国家药品监督管理局药品审评中心. 药物临床试验协变量校正指导原则（试行）. 2020

[8] 国家药品监督管理局药品审评中心. 药物真实世界研究设计与方案框架指导原则（试行）. 2023

[9] ICH E1a: The Extent of Population Exposure to Assess Clinical Safety: For Drugs Intended for Long-term Treatment of Non-Life-Threatening Conditions. 1995.

[10] ICH E8(R1): General Considerations for Clinical Trials. 2022.

[11] ICH E9: Statistical Principles for Clinical Trials. 1998.

[12] ICH E9(R1): Addendum on Estimands and Sensitivity Analysis in Clinical Trials to the Guideline on Statistical Principles for Clinical Trials. 2019.

[13] U.S. Food and Drug Administration. Adaptive Designs for Clinical Trials of Drugs and Biologics. 2019.

PMDA

Invalid

化学药物和生物制品临床试验的生物统计学技术指导原则（无效）

无效说明

已于2016年无效，请参考药物临床试验的生物统计学指导原则。

一、概述

新药经临床前研究后，其有效性和安全性的评价需要由临床试验加以确认。由于临床试验通常是根据研究的目的，通过足够数量的受试者（样本）来研究药物对疾病进程、预后等方面的作用，因此，临床试验设计必须应用统计学原理对试验相关的因素做出合理的、有效的安排，并最大限度地控制试验误差、提高试验质量以及对试验结果进行科学合理的分析，在保证试验结果科学、可信的同时，尽可能做到高效、快速、经济。因此，统计学在临床试验中有着不可缺少的重要作用。

本指导原则以临床试验的基本要求和统计学原理为重点，包含了对临床试验的总体考虑以及试验设计、试验过程和结果分析时的统计学问题，旨在为药品注册申请人和临床试验的研究者在整个临床试验中如何进行设计、实施、分析和评价提供指导，以期保证药物临床试验科学、严谨和规范。

本指导原则主要适用于临床试验的后期（确证性试验），但应尽可能用于临床试验的各个阶段。

二、整个临床试验的基本考虑

（一）探索性试验和确证性试验

药物临床试验的主要目标是寻找是否存在其风险/效益比可接受的安全有效的药物，同时也要确定可能由该药受益的特定对象、使用适应症及适宜的用法与用量。为达到以上总体目标，需要设计一系列的临床试验，而每一个临床试验都有其特定的目的，其设计、执行和拟采用的分析方法等细节均应在试验方案中予以明确。

临床试验的早期，需要进行一系列的探索性试验，这些试验也应有清晰和明确的目标。探索性试验有时需要更为灵活可变的方法进行设计并对数据进行分析，以便根据逐渐积累的结果对后期的确证性试验设计提供相应的信息。虽然探索性试验对有效性的确证有参考价值，但不能作为证明有效性的正式依据。

临床试验的后期，需要经过确证性试验为评价药物的有效性和安全性提供有力证据。确证性试验是一种事先提出假设并对其进行检验的随机对照试验，以说明所开发的药物对临床是有益的。因此，对涉及药物有效性和安全性的每一个关键性的问题都需要通过确证性试验予以充分的回答。

（二）观察指标

观察指标是指能反映临床试验中药物有效性和安全性的观察项目。统计学中常将观察指标称为变量。观察指标分为测量指标和分类指标。

观察指标必须在设计方案中有明确的定义和可靠的依据，不允许随意修改。

1、主要指标和次要指标

主要指标又称主要终点,是与试验目的有本质联系的，能确切反映药物有效性或安全性的观察指标。通常主要指标只有一个，如果存在多个主要指标时，应该在设计方案中，考虑控制Ⅰ类错误的方法。主要指标应根据试验目的选择易于量化、客观性强、重复性高，并在相关研究领域已有公认的标准。主要指标必须在临床试验前确定，并用于试验样本量的估计。

次要指标是指与试验目的相关的辅助性指标。在试验方案中，也需明确次要指标的定义，并对这些指标在解释试验结果时的作用以及相对重要性加以说明。次要指标数目也应当是有限的，并且能回答与试验目的相关的问题。

2、复合指标

当难以确定单一的主要指标时，可按预先确定的计算方法，将多个指标组合构成一个复合指标。如临床上采用的量表就是一种复合指标。复合指标被用作主要指标时，组成这个复合指标的单个指标如果有临床意义，也可以同时单独进行分析。

3、全局评价指标

全局评价指标是将客观指标和研究者对受试者疗效的总印象有机结合的综合指标，它通常是有序等级指标。用全局评价指标来评价某个治疗的总体有效性或安全性，一般都有一定的主观成份。如果必须将其定义为主要指标时，应在试验方案中有明确判断等级的依据和理由。全局评价指标中的客观指标一般应该同时单独作为主要指标进行分析。

4、替代指标

替代指标是指在直接测定临床效果不可能时，用于间接反映临床效果的观察指标。替代指标所提供的用于临床效果评价的证据的强度取决于：1）替代指标与试验目的在生物学上相关性的大小；2）在流行病学研究中替代指标对临床试验结果的预测价值；3）从临床试验中获得的药物对替代指标的影响程度与药物对临床试验结果的影响程度相一致的证据。

5、测量指标转换为分类指标

根据临床评价的需要，有时需将测量指标转换为二分类或多分类的分类指标，如：根据一个测量指标改变程度等于或超过某一数值时作为分类的定义。分类指标的定义应在试验方案中明确规定。由测量指标转换为分类指标通常会丧失部分信息，由此导致检验效能的降低应当在估计样本量时加以考虑。

（三）偏倚的控制

偏倚又称偏性，是指在设计临床试验方案、执行临床试验、分析评价临床试验结果时，有关影响因素所致的系统误差，致使疗效或安全性评价偏离真值。偏倚会干扰临床试验得出正确的结论，在临床试验的全过程中均须防范其发生。随机化和盲法是控制偏倚的重要措施。

1、随机化

随机化是使临床试验中的受试者有同等的机会被分配到试验组或对照组中，而不受研究者和/或受试者主观意愿的影响，可以使各处理组的各种影响因素（包括已知和未知的因素）分布趋于相似。随机化包括分组随机和试验顺序随机，与盲法合用，有助于避免因处理分配的可预测，在受试者的选择和分组时可能导致的偏倚。

临床试验中可采用分层、区组随机化方法。分层随机化有助于保持层内的均衡性，特别在多中心临床试验中，中心就是一个分层因素。另外为了使各层趋于均衡，避免产生混杂偏倚，按照基线资料中的重要预后因素（如病症的严重程度）等进行分层，对促使层内的均衡安排是很有价值的。区组随机化有助于减少季节、疾病流行等因素对疗效的影响。区组的大小要适当，太大易造成组间不均衡，太小则易造成同一区组内受试者分组的可猜测性。研究者及其有关人员应对区组的大小保持盲态。

当样本量、分层因素及区组大小决定后，由试验统计学专业人员在计算机上使用统计软件产生随机分配表。临床试验的随机分配表就是用文件形式写出对受试者的处理安排，即处理（或在交叉试验中的处理顺序）的序列表。随机分配表必须有可以重新产生的能力，即当产生随机数的初值、分层、区组决定后能使这组随机数重新产生。

试验用药物应根据试验统计学专业人员产生的随机分配表进行编码，以达到随机化的要求，受试者应严格按照试验用药物编号的顺序入组，不得随意变动，否则会破坏随机化效果。随机化的方法和过程应在试验方案中阐明，但使人容易猜测分组的随机化的细节（如区组长度等）不应包含在试验方案中。

2、盲法

盲法是为了控制临床试验过程中和解释结果时产生偏倚的措施之一。这些偏倚可能来自于多个方面，如由于对治疗的了解而对受试者的分组进行选择、受试者对治疗的态度、研究者对安全有效性的评价、对脱落病例的处理以及在结果分析中剔除的数据等。

根据设盲程度的不同，盲法分为双盲、单盲和非盲。如条件许可，应尽可能采用双盲试验，尤其在试验的主要变量易受主观因素干扰时。如果双盲不可行，则应优先考虑单盲试验。在某些特殊情况下，由于一些原因而无法进行盲法试验时，可考虑进行非盲的临床试验。无论是采用单盲或非盲的临床试验，均应制订相应的控制试验偏倚的措施，使已知的偏倚来源达到最小。例如，主要指标应尽可能客观，采用信封随机法入选受试者，参与疗效与安全性评价的研究者在试验过程中尽量处于盲态。采用不同设盲方法的理由，以及通过其它方法使偏倚达到最小的措施，均应在试验方案中说明。

盲法的原则应自始至终地贯彻于整个试验之中。双盲临床试验中，从随机数的产生、试验用药物的编码、受试者入组用药、试验结果的记录和评价、试验过程的监查、数据管理直至统计分析，都必须保持盲态。监查员必须自始至终保持盲态。如果发生了任何非规定情况所致的盲底泄露，并影响了该试验结果的客观性，则该试验将被视作无效。

为使双盲临床试验得以顺利实施，还必须注意以下几个问题。

安慰剂：在双盲临床试验中，应保证所提供的安慰剂与所模拟的药物在剂型、外观、气味等方面完全一致，并不含有任何有效成份。

双模拟技术：临床试验中，当试验药和对照药外观不一致时，可为试验药和对照药各准备一种安慰剂，以达到试验组与对照组在用药的外观与给药方法上的一致。这一技术有时也会使用药计划较难实施，以至影响受试者的依从性。

胶囊技术：为达到双盲的目的，可将试验用药（包括试验药、对照药、安慰剂）分别装入外观相同的胶囊。但应首先证明药物在装入胶囊后与原剂型药物生物等效。

药物编盲与盲底保存：由不参与临床试验的人员根据已产生的随机分配表对试验用药物进行分配编码的过程称为药物编盲。随机数、产生随机数的参数及试验用药物编码统称为双盲临床试验的盲底。用于编盲的随机数产生时间应尽量接近于药物分配包装的时间，编盲过程应有相应的监督措施和详细的编盲记录，完成编盲后的盲底应一式二份密封，交临床试验负责单位和药品注册申请人分别保存。

应急信件与紧急揭盲：从医学伦理学方面考虑，双盲试验应为每一个编盲号设置一份应急信件，信件内容为该编号的受试者所分入的组别及用药情况。应急信件应密封，随相应编号的试验用药物发往各临床试验单位，由该单位负责保存，非必要时不得拆阅。在发生紧急情况或病人需要抢救必须知道该病人接受的是何种处理时，由研究人员按试验方案规定的程序拆阅。一旦被拆阅，该编号病例将中止试验，研究者应将中止原因记录在病例报告表中。所有应急信件在试验结束后随病例报告表一起收回, 以便试验结束后盲态审核。

试验方案中要对严重不良事件以及意外情况的处理作出规定，包括如何紧急揭盲、如何报告等。试验结束时应对破盲的原因、范围和时间作出分析，作为对疗效及安全性评价的参考。

揭盲规定：试验方案中，当试验组与对照组按1：1设计时，一般采用两次揭盲法。两次揭盲都由保存盲底的有关人员执行。数据文件经过盲态审核并认定可靠无误后将被锁定，进行第一次揭盲。此次揭盲只列出每个病例所属的处理组别（如A组或B组）而并不标明哪一个为试验组或对照组。第一次揭盲的结果交由试验统计学专业人员输入计算机，与数据文件进行联接后，进行统计分析。当统计分析结束后进行第二次揭盲，以明确各组所接受的治疗。

三、试验设计中的基本考虑

(一) 试验设计的类型

1、平行组设计

平行组设计是最常用的临床试验设计类型，可为试验药设置一个或多个对照组，试验药也可设多个剂量组。对照组可分为阳性或阴性对照。阳性对照一般采用按所选适应症的当前公认的有效药物，阴性对照一般采用安慰剂，但必须符合伦理学要求。试验药设一个或多个剂量组完全取决于试验方案。

2、交叉设计

交叉设计是按事先设计好的试验次序，在各个时期对受试者逐一实施各种处理，以比较各处理组间的差异。交叉设计是将自身比较和组间比较设计思路综合应用的一种设计方法，它可以控制个体间的差异，同时减少受试者人数。

最简单的交叉设计是 2×2 形式，对每个受试者安排两个试验阶段，分别接受两种试验用药物，而第一阶段接受何种试验用药物是随机确定的，第二阶段必须接受与第一阶段不同的另一种试验用药物。每个受试者需经历如下几个试验过程，即准备阶段、第一试验阶段、洗脱期和第二试验阶段。

每个试验阶段的用药对后一阶段的延滞作用称为延滞效应。采用交叉设计时应避免延滞效应，资料分析时需检测是否有延滞效应存在。因此，每个试验阶段后需安排足够长的洗脱期或有效的洗脱手段，以消除其延滞效应。

交叉设计应尽量避免受试者的失访。

3、析因设计

析因设计是通过试验用药物剂量的不同组合，对两个或多个试验用药物同时进行评价，不仅可检验每个试验用药物各剂量间的差异，而且可以检验各试验用药物间是否存在交互作用，或探索两种药物不同剂量的适当组合。

如果试验的样本量是基于检验主效应而计算的，则在估计交互作用时，检验效能将降低。

4、成组序贯设计

成组序贯设计常用于下列两种情况：（1）试验药与对照药的疗效相差较大，但病例稀少且临床观察时间较长。（2）怀疑试验药物有较高的不良反应发生率，采用成组序贯设计可以较早终止试验。

成组序贯设计是把整个试验分成若干个连贯的分析段，每个分析段病例数相等，且试验组与对照组的病例数比例与总样本中的比例相同。每完成一个分析段，即对主要指标（包括有效性和安全性）进行分析，一旦可以做出结论（拒绝无效假设，差异有统计学意义）即停止试验，否则继续进行。如果到最后一个分析段仍不拒绝无效假设，则作为差异无统计学意义而结束试验。其优点是当处理间确实存在差异时，可较早地得到结论，从而缩短试验周期。

成组序贯设计的盲底要求一次产生，分批揭盲。由于多次重复进行假设检验会使I类错误增加，故需对每次检验的名义水准进行调整，以控制总的I类错误不超过预先设定的水准（比如α=0.05）。试验设计中需写明α消耗函数的计算方法。

(二) 多中心试验

多中心试验系指由一个单位的主要研究者总负责，多个单位的研究者合作，按同一个试验方案同时进行的临床试验。多中心试验可以在较短的时间内入选所需的病例数，且入选的病例范围广，临床试验的结果更具代表性。但影响因素亦随之更趋复杂。

多中心试验必须在统一的组织领导下，遵循一个共同制定的试验方案完成整个试验。各中心试验组和对照组病例数的比例应与总样本的比例相同，以保证各中心齐同可比。多中心试验要求各中心的研究人员采用相同的试验方法，试验前对人员统一培训，试验过程要有监控措施。当主要指标可能受主观影响时，需进行统一培训和一致性检验。当主要指标在各中心的实验室的检验结果有较大差异或参考值范围不同时，应采取相应的措施，如：统一由中心实验室检验。

在双盲多中心临床试验中，盲底是一次产生的，应按中心分层随机；当中心数较多且每个中心的病例数较少时，可统一进行随机，不按中心分层。

(三) 比较的类型

临床试验中比较的类型，按统计学中的假设检验可分为优效性检验、等效性检验和非劣效性检验。优效性检验的目的是显示试验药的治疗效果优于对照药，包括：试验药是否优于安慰剂；试验药是否优于阳性对照药；或剂量间效应的比较。等效性检验的目的是确认两种或多种治疗的效果差别大小在临床上并无重要意义，即试验药与阳性对照药在疗效上相当。而非劣效性检验目的是显示试验药的治疗效果在临床上不劣于阳性对照药。在显示后两种目的试验设计中，阳性对照药的选择要慎重。所选阳性对照药需是已广泛应用的、对相应适应症的疗效和用量已被证实，使用它可以有把握地期望在阳性对照试验中表现出相似的效果；阳性对照药原有的用法与用量不得任意改动。

进行等效性检验或非劣效性检验时，需预先确定一个等效界值（上限和下限）或非劣效界值（下限），这个界值应不超过临床上能接受的最大差别范围，并且应当小于阳性对照药对安慰剂的优效性试验所观察到的差异。等效界值或非劣效界值的确定需要由主要研究者从临床上认可，而不是依赖于试验统计学专业人员。试验中所选择的比较类型，应从临床角度考虑，并在制定试验方案时确定下来。通常以阳性为对照的临床试验中，如果要说明试验药物的效果不低于阳性对照药时，多倾向于进行非劣效性检验。

等效性或非劣效性的统计学检验常用可信区间法。等效性检验采用双侧可信区间，当可信区间完全落在等效界值之内，则推断为等效；非劣效性检验应采用单侧可信区间，如果可信区间的下界大于非劣效性检验的下限，则推断为非劣效。

(四) 样本量

每个临床试验的样本量应符合统计学要求。

临床试验中所需的样本量应足够大，以确保对所提出的问题给予一个可靠的回答。样本的大小通常以试验的主要指标来确定。同时应考虑试验设计类型、比较类型等。

样本量的确定与以下因素有关，即设计的类型、主要指标的性质（测量指标或分类指标）、临床上认为有意义的差值、检验统计量、检验假设、Ⅰ类和Ⅱ类错误的概率等。样本量的具体计算方法以及计算过程中所需用到的统计量的估计值及其依据应在临床试验方案中列出，同时需要提供这些估计值的来源依据。在确证性试验中，样本量的确定主要依据已发表的资料或预试验的结果来估算。Ⅰ类错误概率常用0.05，Ⅱ类错误概率应不大于0.2。

(五) 资料的收集

临床试验数据的收集和传送，可采用多种形式，目前较为常用的形式为病例报告表。

从试验数据的收集到数据库的完成，均应符合《药物临床试验质量管理规范》（GCP）的规定，尤其是及时的数据记录、错误更正、补遗等。这些步骤均是建立高质量数据库、完成试验计划并达到试验目的所必需的。

四、试验进行中的基本考虑

(一) 期中分析

某些临床试验需要进行期中分析。期中分析是指正式完成临床试验前，按事先制订的分析计划，比较处理组间的有效性和安全性所作的分析。期中分析的日程、安排、所采用的α消耗函数等应当事先制订计划并在试验方案中阐明。期中分析的结果可能会对后续试验产生影响，因此，一个临床试验的期中分析次数应严格控制。如果一个期中分析是为了决定是否终止试验而设计的，则常采用成组序贯设计。

期中分析包含了已揭盲的数据及结果，因此进行期中分析的人员应该是不直接参加临床试验的人员，分析结果必须保持盲态。研究者仅仅会被告知是否继续试验或需要对试验方案进行修改。

设计不良的期中分析可能使结果有误，所得结论缺乏可靠性。如进行了计划外的期中分析，在研究报告中应解释其必要性、破盲的必要性，提供可能导致的偏倚的严重程度以及对结果解释的影响。

(二)试验方案的修改

试验方案确定并经伦理委员会批准后，其研究设计一般情况下不宜更改。但在以下两种情况可以考虑修改：

在试验进行过程中，如发现按原入选/排除标准难以选到合格的病例时，需分析原因并采取相应措施，在不破盲的条件下修改原入选/排除标准。

当原设计的样本含量是在不确切信息的假设条件下估计的，而期中分析结果表明指标的估计与期望值不符时，应修改假设条件，重新计算样本含量。

对试验方案的任何修改都应在修订方案中写明。修订方案需重新得到伦理委员会的批准。

五、数据管理

数据的正确性对保证临床试验的质量极为重要，因此必须十分重视。认真进行监查及数据管理能及早地发现问题，并可尽量避免问题的发生和再现。

研究者应根据受试者的原始观察记录，保证将数据正确、完整、清晰、及时地载入病例报告表。监查员须监查试验的进行是否遵循试验方案（如检查有无不符合入选/排除标准的病例等），确认所有病例报告表填写正确完整，与原始资料一致，如有错误和遗漏，及时要求研究者改正。修改时需保持原有记录清晰可见，改正处需经研究者签名并注明日期。

经过监查员检查后的病例报告表，需及时送交临床试验的数据管理员。对于完成的病例报告表在研究者、监查员、数据管理员之间的传送应有专门的记录并妥善保存。

应根据病例报告表和统计分析计划书的要求制订数据管理计划，并在第一份病例报告表送到以前，由数据管理员建立数据库，并保证其完整、正确和安全。数据管理员还应对每一份病例报告表进行初步审核，再交由两名操作人员独立地输入数据库中，并用软件对两份输入结果进行比较。如果有不一致，需查出原因，加以更正。数据管理员按病例报告表中各指标数值的范围和相互关系拟定数据检查，如范围检查和逻辑检查等。所有错误内容及修改结果应有详细记录并妥善保存。如有必要，可再次对数据库中的指标（特别是主要指标）进行全部或抽样的人工检查，并与病例报告表进行核对。

数据管理中发现任何问题时，应及时通知监查员，要求研究者作出回答。他们之间的各种疑问及解答的交换应当使用疑问表，疑问表应保存备查。

上述工作完成后，由主要研究者、药品注册申请人、试验统计学专业人员和数据管理员进行盲态审核。盲态审核中确定每个病例所属分析集、缺失值的处理及离群值的判断等。以上任何决定都需用文件形式记录下来。盲态审核下所作的决定不应该在揭盲后被修改。经盲态审核认为所建立的数据库正确无误后，对数据库进行锁定。此后，对数据库的任何改动只有在以上几方人员均同意（可以书面形式）的情况下才能进行。

数据库锁定后需妥善保存备查，并进行第一次揭盲，同时将盲底和数据库交试验统计学专业人员进行统计分析。

六、统计分析

(一) 统计分析计划书

统计分析计划书由试验统计学专业人员起草，并与主要研究者商定，其内容应比试验方案中所规定的要求更为具体。

统计分析计划书上应列出统计分析集的选择、主要指标、次要指标、统计分析方法、疗效及安全性评价方法等，按预期的统计分析结果列出统计分析表备用。

统计分析计划书应形成于试验方案和病例报告表确定之后。在临床试验进行过程中，可以修改、补充和完善。但是在第一次揭盲之前必须以文件形式予以确认，此后不能再作变动。

(二) 统计分析集

用于统计的分析集需在试验方案的统计部分中明确定义，并在盲态审核时确认每位受试者所属的分析集。在定义分析数据集时，需遵循以下两个原则：①使偏倚达到最小；②控制I类错误的增加。

根据意向性分析（简称ITT）的基本原则，主要分析应包括所有随机化的受试者。即需要完整地随访所有随机化对象的研究结果，但实际操作中往往难以达到。因此，常采用全分析集进行分析。全分析集（简称 FAS）是指尽可能接近符合意向性分析原则的理想的受试者集。该数据集是从所有随机化的受试者中，以最少的和合理的方法剔除受试者后得出的。在选择全分析集进行统计分析时，对主要指标缺失值的估计，可以采用最接近的一次观察值进行结转。

受试者的“符合方案集” （简称PPS），亦称为 “可评价病例”样本。它是全分析集的一个子集，这些受试者对方案更具依从性，依从性包括以下一些考虑，如所接受的治疗、主要指标测量的可行性以及未对试验方案有大的违反等。将受试者排除在符合方案集之外的理由应在盲态审核时阐明，并在揭盲之前用文件写明。

在确证性试验的药物有效性评价时，宜同时用全分析集和符合方案集进行统计分析。当以上两种数据集的分析结论一致时，可以增强试验结果的可信性。当不一致时，应对其差异进行清楚的讨论和解释。如果符合方案集中被排除的受试者比例太大，则会影响试验的有效性分析。

在很多的临床试验中，全分析集方法是保守的，但更接近药物上市后的疗效。应用符合方案集可以显示试验药物按规定的方案使用的效果，但可能较以后实践中的疗效偏大。

对安全性评价的数据集选择应在方案中明确定义，通常安全性数据集应包括所有随机化后至少接受一次治疗的受试者。

(三) 缺失值及离群值

离群值问题的处理，应当从医学和统计学专业两方面去判断，尤其应当从医学专业知识判断。离群值的处理应在盲态检查时进行，如果试验方案未预先指定处理方法，则应在实际资料分析时，进行包括和不包括离群值的两种结果比较，研究它们对结果是否不一致以及不一致的直接原因。

(四) 数据变换

(五) 统计分析方法

临床试验中数据分析所采用的统计分析方法和统计分析软件应是国内外公认的，统计分析应建立在正确、完整的数据基础上，采用的统计模型应根据研究目的、试验方案和观察指标选择，一般可概括为以下几个方面：

1、描述性统计分析

一般多用于人口学资料、基线资料和安全性资料，包括对主要指标和次要指标的统计描述。

2、参数估计、可信区间和假设检验

参数估计、可信区间和假设检验是对主要指标及次要指标进行评价和估计的必不可少的手段。试验方案中，应当说明要检验的假设和待估计的处理效应、统计分析方法以及所涉及的统计模型。处理效应的估计应同时给出可信区间，并说明估计方法。假设检验应明确说明所采用的是单侧还是双侧，如果采用单侧检验，应说明理由。

3、协变量分析

评价药物有效性的主要指标除药物作用以外，常常还有其它因素的影响，如受试者的基线情况、不同治疗中心受试者之间差异等因素，这些因素在统计学中可作为协变量处理。在试验前应认真识别可能对主要指标有重要影响的协变量及如何进行分析以提高估计的精度，补偿处理组间由于协变量不均衡所产生的影响。

在多中心临床试验中，如果中心间处理效应是齐性的，则在模型中常规地包含交互作用项将会降低主效应检验的效能。因此对主要指标的分析如采用一个考虑到中心间差异的统计模型来研究处理的主效应时，不应包含中心与处理的交互作用项。如中心间处理效应是非齐性的，则对处理效应的解释将很复杂。

(六) 安全性评价

临床试验中，安全性评价是非常重要的一个方面。在临床试验的早期，这一评价主要是探索性的，且只能发现常见的不良反应；在后期，一般可通过较大的样本进一步了解药物的安全性。后期的对照试验是一个重要的以无偏倚的方式探索任何新的潜在的药物不良反应的方法。

为了说明在安全性和耐受性方面与其他药物或该药物的其他剂量比较的优效性或等效性，可设计某些试验。这种评价需要相应的确证性试验的支持，这与相应的有效性的评价要求是相同的。

药物安全性评价的常用统计指标为不良事件发生率和不良反应发生率。当试验时间较长、有较大的退出治疗比例或死亡比例时，需用生存分析计算累计不良事件发生率。用于评价药物安全性和耐受性的方法以及度量准则依赖于非临床研究和早期临床研究的信息、该药物的药效学和药代动力学特性、服药方法、受试者类型以及试验的持续时间等。而构成安全性评价的资料则主要来源于不良事件的临床表现、实验室检查等。

从受试者中收集的安全性和耐受性变量应尽可能全面，包括受试者出现的所有不良事件的类型、发生时间、严重程度、处理措施、持续的时间、转归以及药物剂量与试验用药物的关系。

所有的安全性指标在评价中都需十分重视，其主要分析方法需在研究方案中指明。无论是否认为与处理有关，所有的不良事件均需列出。在安全性评价中，研究人群的所有可用资料均需考虑。实验室应提供检查指标的度量单位以及参考值范围，毒性等级也必须事先确定，并说明其正确性。

在大多数的试验中，对安全性与耐受性的评价常采用描述性统计方法对数据进行分析，必要时辅以可信区间以利于说明。

七、统计分析报告

试验统计学专业人员写出的统计分析报告是提供给主要研究者作为撰写临床试验总结报告的素材。

试验统计学专业人员根据确认的统计分析计划书完成统计分析工作，在统计分析报告中首先简单描述临床试验的目的、研究设计、随机化、盲法及盲态审核过程、主要指标和次要指标的定义、统计分析集的规定等。其次对统计分析报告中涉及的统计模型，应准确而完整地予以描述，如选用的统计分析软件、统计描述的内容、对检验水准的规定、以及进行假设检验和建立可信区间的统计学方法。如果统计分析过程中进行了数据变换，应同时提供数据变换的基本原理以及变换数据的理由和依据。统计分析结论应使用精确的统计学术语予以阐述。最后，应按照统计分析计划书设计的统计分析格式详细给出统计分析结果。

对药物有效性评价应给出每个观察时间点的统计描述结果。列出检验统计量、P值。例如，两个样本的t检验的结果中应包括每个样本的数量、均值和标准差、中位数，最小和最大值、两样本比较的t值和P值；用方差分析进行主要指标有效性分析时，应考虑治疗、中心和分析指标基线值的影响，进行协方差分析。对于交叉设计资料的分析，应包括治疗顺序资料、每个阶段开始时的基线值、洗脱期及洗脱期长度、每个阶段中的脱落情况、还有用于分析治疗、阶段、治疗与阶段的交互作用方差分析表。

药物的安全性评价主要以统计描述为主，包括用药情况（用药持续时间、剂量、药物浓度）、不良事件发生率及不良事件的具体描述（包括不良事件的类型、严重程度、发生及持续时间、与试验药物的关系）；实验室检验结果在试验前后的变化情况；发生的异常改变及其与试验用药物的关系及随访结果。

名词解释

术语	内容
Ⅰ类错误（The Type I error）	错误的拒绝无效假设，常用α表示。
Ⅱ类错误（The Type II error）：	错误的不拒绝无效假设，常用β表示。
安全性数据集：	安全性与耐受性评价时，用于汇总的受试者集称为安全性数据集。安全性数据集应包括所有随机化后至少接受一次治疗的受试者。
等效性试验（Equivalence Trial）：	是确认两种或多种治疗效果的差别大小在临床上并无重要意义的试验。通常显示真正的处理差异是在临床上可以接受的等效性的上下限之间。
多中心试验（Multicentre Trial）：	多中心试验系指由一个单位的主要研究者总负责，多个单位的研究者合作，按同一个试验方案同时进行的临床试验。
非劣效性试验（Non-Inferiority Trial）：	是显示试验药的治疗效果在临床上不劣于对照药的试验。
符合方案集（Per Protocol Set）：	又称有效病例、有效样本、可评价病例样本。是由充分依从于试验方案的病例子集所产生的数据集，是全分析集的一个子集。依从性包括以下一些考虑，如：所接受的治疗、主要指标测量的可行性以及未对试验方案有大的违反等。
交互作用（Interaction）：	是指处理间的对比（如研究产品与对照之间的差异）依赖于另一因素（如中心）的情况。定量的交互作用是指对比差异的大小在因素的不同水平时不同；定性交互作用是指对比差异的方向至少在因素的一个水平上不同。
结转（last observation carried forward）：	是对临床试验中有效性指标缺失值的一种估计方法，即采用缺失值之前最接近一次的观察数据来代替缺失值。
盲态审核（Blind Review）：	次揭盲之前对数据保持盲态的预分析审核，以便对统计分析计划作最后的决定。
偏倚（Bias）：	是指在设计临床试验方案、执行临床试验、分析评价临床试验结果时，有关影响因素所致的系统误差，致使疗效或安全性评价偏离真值。
期中分析（Interim Analysis）：	是指正式完成临床试验前，按事先制订的分析计划，比较处理组间的有效性和安全性所作的分析。
全分析集（Full Analysis Set）：	是指尽可能接近符合意向性治疗原则的理想的受试者集。该数据集是从所有随机化的受试者中以最少的和合理的方法剔除受试者后得出的。
全局评价指标（Global Assessment Variable）：	为单一变量，是将客观指标和研究者对病人的病情及其改变总的印象综合起来所设定的指标，它通常是有序分类指标（scale of ordered categorical ratings）。
试验统计学专业人员（Trial Statistician）：	是指接受过专门培训且有经验，可以执行本指导原则的生物统计学专业人员。
双模拟（Double-Dummy）：	：是在临床试验中，当两种处理（如药物的剂型、给药方法等）不能做到相同时，使试验保持双盲的一种技术。即为试验药与对照药各准备一种安慰剂，以达到试验组与对照组在用药的外观与给药方法上的一致。
替代指标（Surrogate Variable）:	是指在直接测定临床效果不可能或不实际时，用于间接反映临床效果的观察指标。
统计分析计划（Statistical Analysis Plan）：	是包括比方案中描述的主要分析特征更加技术性和更多详细细节的文件，并且包括了对主要和次要变量及其他数据进行统计分析的详细过程。
脱落（Drop out）：	是指由于任何原因不能继续按试验方案进行到所要求的最后一次随访的受试者。
意向性分析原则（Intention To Treat Principle）：	是指基于有治疗意向的受试者（即计划好的治疗）而不是实际给予治疗的受试者进行评价的处理策略。是可以对结果做出评定的最好原则。其结果是随机到每一个处理组的病人即应作为该组的成员被随访、评价和分析，无论他们是否依从计划的处理过程。
优效性试验（Superiority Trial）：	：是显示试验药的治疗效果优于对照药（安慰剂或阳性对照药）的试验。

参考文献

[1]．FDA：Guideline for the Format and Content of The Clinical and Statistical Sections of an Application 1988

[2]．EMEA：Biostatistical Methodology in Clinical Trials 1993

[3]．MHLW：Guideline for the Statistical Analysis of Clinical Trial 1992

[4]．ICH E9：STATISTICAL PRINCIPLES FOR CLINICAL TRIALS 1998

附录

Invalid

药物临床试验数据管理与统计分析计划指导原则（无效）

无效说明

已于2021年无效，请参考药物临床试验数据管理与统计分析计划指导原则。

一、前言

规范的数据管理计划有助于获得真实、准确、完整和可靠的高质量数据；而详细的统计分析计划则有助于保证统计分析结论正确和令人信服。为保证临床试验数据的质量和科学评价药物的有效性与安全性，必须事先对数据管理工作和统计学分析原则制定详细的计划书。在试验完成时，对试验中的数据管理和统计分析工作进行全面完整的总结至关重要，通过数据管理报告真实反映临床试验过程中的数据质量和试验样本特征，通过统计分析报告为临床试验总结报告的内容和研究结论提供主要依据。因此，在药物上市注册时，监管部门将数据管理计划和报告与统计分析计划和报告视为评价临床试验结果的重要文件和依据。

虽然我国《药物临床试验质量管理规范》（Good Clinical Practice，GCP）中对药物临床试验数据管理与统计分析进行了原则要求，且国家食品药品监督管理总局已发布的有关药物临床试验及其统计学的相应技术指南也涉及数据管理和统计分析工作的主要环节，但针对数据管理计划和报告、统计分析计划和报告却没有详细的技术规范和指导性建议。因此，本技术指导原则对此进行了较为详细的介绍和阐述，并提出具体要求，旨在为临床试验的数据管理和统计分析人员提供技术指导，帮助其更好地完成相关工作以达到监管要求。

二、数据管理的计划和报告

（一）一般考虑

数据管理计划（Data Management Plan, DMP）是由数据管理人员依据临床试验方案书写的一份动态文件，它详细、全面地规定并记录某一特定临床试验的数据管理任务，包括人员角色、工作内容、操作规范等。数据管理计划应在试验方案确定之后、第一位受试者筛选之前定稿，经批准后方可执行。通常数据管理计划需要根据实际操作及时更新与修订。

数据管理工作涉及多个单位或业务部门，包括数据管理、临床研究者、统计分析、医学事务、临床监查、临床稽查等单位或部门。数据管理的职责可分为负责、参与、审核、批准、告知等，各单位/部门在数据管理各步骤的职责不尽相同。数据管理计划需明确参与数据管理的相关组织及人员职责。数据管理各步骤需建立并遵循相应的标准操作规程（Standard Operation Procedure，SOP），数据管理计划应列出项目所遵循的SOP清单。

数据管理报告是在临床研究结束后，数据管理人员撰写的研究项目数据管理全过程的工作总结，是数据管理执行过程、操作规范及管理质量的重要呈现手段。通常以定性和定量的参数来表达，如数据量、疑问数等，并与数据管理计划一起作为药物注册上市的申请材料提交给监管部门用于对临床试验结果的评价。

（二）数据管理计划的基本内容

数据管理计划应全面且详细地描述数据管理流程、数据采集与管理所使用的系统、数据管理各步骤及任务，以及数据管理的质量保障措施。

1. 试验概述

简要描述试验方案中与数据管理相关的内容，一般包括研究目的和总体设计，如随机化方法及其实施、盲法及设盲措施、受试者数量、评估指标、试验的关键时间节点、重要的数据分析安排及对应的数据要求等。

2. 数据管理流程及数据流程

列出数据管理的工作流程以及试验数据的流程，便于明确各环节的管理，可采用图示方式。

数据管理的工作流程应包含数据采集/管理系统建立、病例报告表（Case Report Form，CRF）及数据库的设计、数据接收与录入、数据核查与质疑、医学编码、外部数据管理、盲态审核、数据库锁定、解锁及再锁定、数据导出及传输、数据及数据管理文档的归档等数据管理过程。

数据流程应包含临床试验中所有类型数据的生成、采集、传输、导入、导出、存档等的位置、负责单位/人、期限等。详细列出每一种类型的试验数据流程，便于明确各种类型和介质的数据的管理，如CRF数据、中心实验室检测数据、药代动力学检测数据、电子的患者报告结果（Electronic Patient Reported Outcome, ePRO）数据、影像学数据等。

3. 采集/管理系统

列出采集试验数据的方法，如纸质或电子的CRF、采用的数据采集/管理系统的名称及版本。描述系统用户的权限控制计划，或者以附件形式提供相应信息，包含权限定义、分配、监控及防止未经授权操作的措施或方法、权限撤销等。

数据采集/管理系统应具备稽查轨迹、安全管理、权限控制及数据备份的功能，并通过完整的系统验证。

4. 数据管理步骤与任务

（1）CRF及数据库的设计

CRF的设计必须保证收集试验方案所规定并满足统计分析需求的所有数据。

不论是何种数据记录方式，均需对相应CRF填写指南的建立和管理有所阐述。

数据库的设计通常按既定的注释CRF和/或数据库设计说明执行，建立逻辑核查，经用户接受测试（User Acceptance Testing, UAT）合格后方可上线使用。数据管理计划中对此过程应进行简要描述和说明。

（2）数据的接收与录入

数据管理计划应明确阐述数据采集、接收和录入的方式和过程。

临床试验研究者或临床研究协调员（Clinical Research Coordinator，CRC）应依照CRF填写指南，准确、及时、完整、规范地填写CRF。在数据录入前需制定数据录入说明，确定数据录入的要求及方式。纸质CRF常用双人双份录入，电子CRF由临床研究者或由其指定的CRC直接录入。纸质CRF表还需定义完成CRF的发送、转运、接收方式，如传真、邮寄、监查员收集等。同时定义收集频率及记录文件接收的格式等。

（3）数据核查与质疑

在进行数据核查之前，应制定详细的数据核查计划（Data Validation Plan, DVP），明确数据核查内容、方式与核查要求。数据核查通常需要数据管理人员、监查员、医学人员及统计师等共同完成。

（4）医学编码

医学编码是把从CRF上收集的不良事件、医学诊断、合并用药、既往用药、既往病史等的描述与标准字典中的术语进行匹配的过程。如采用医学编码，数据管理计划需详细描述编码流程、编码工具、编码字典及版本，以及执行编码的相关标准文件。

（5）外部数据管理

临床试验外部数据包括实验室数据、电子日志、ePRO、随机化数据等。针对外部数据的管理，数据管理计划中应列出数据传输协议，包括数据类别、数据提供者、数据格式、传输方式、传输频率等，以及对外部数据进行质控的措施，如传输测试、一致性核查等。对于盲态的外部数据，如血液样品中的药物浓度或某些关键数据等，需描述此类数据的管理流程。

（6）盲态审核

列出数据盲态审核的要求，并在计划中描述盲态审核操作的具体流程。一般地，数据盲态审核时应对所有数据质疑、脱落和方案偏离的病例、合并用药和不良事件的发生情况以及分析数据集的划分进行最终确认。

（7）数据库锁定、解锁及再锁定

数据管理计划应详细说明数据库锁定的流程、负责人及执行的SOP文件。

数据库锁定后的解锁和再锁定，应事先规定并详细说明其条件和流程。

（8）数据导出及传输

描述数据的导出和传输的文件格式、导出内容（数据库、变量名及变量值编码）、提交程序及传输介质，传输介质应符合国家法规和监管部门要求。

（9）数据及数据管理文档的归档要求

试验数据及录入/导入数据库的时间、录入者、数据稽查轨迹及数据管理过程形成的文档都需要完整保存。数据管理过程形成的数据通常包括但不限于：临床试验数据、外部数据、数据库元数据信息、实验室检测参考值范围、逻辑检验及衍生数据变更控制列表、数据质疑表和程序代码等。数据管理过程形成的文件通常包括但不限于：数据管理计划、空白CRF、CRF填写指南、完成CRF的PDF格式文件、注释CRF、数据库设计说明、数据库录入说明、数据核查计划、数据质控核查报告等。

数据管理计划中应明确需要存档的试验数据、管理文件、介质、归档方式及时限。

5. 质量控制

数据管理计划需确定数据及数据管理操作过程的质控项目、质控方式（如质控频率、样本选取方式及样本量等）、质量要求及达标标准、对未达到预期质量标准的补救措施等。

（三）数据管理报告的基本内容

数据管理报告应全面且详细陈述与数据管理执行过程、操作规范及管理质量相关的内容，包括参与单位/部门及职责、主要时间节点、CRF及数据库设计、数据核查和清理、医学编码、外部数据管理、数据质量保障、重要节点时的数据传输记录、关键文件的版本变更记录，并描述与数据管理计划的偏离。

1. 参与单位/部门及职责

数据管理报告应列出数据管理涉及的所有单位/部门及其在数据管理各步骤的职责。

2. 数据管理的主要时间节点

数据管理各步骤的时间节点可体现数据管理工作的时效性及数据质量，数据录入与数据清理不及时可能有损数据质量。可采用列表方式描述各主要时间节点的起止时间，包括数据录入、数据清理、外部数据管理、数据质控、数据锁库、数据传输、文档归档等主要步骤。

3.CRF及数据库设计

描述CRF及数据库设计各主要步骤的执行情况及具体工作内容/方法，包括CRF设计、编制CRF填写指南和注释CRF、形成数据库设计说明以及数据录入说明、数据库建库及数据标准、数据库测试情况等。

4. 数据核查和清理

数据管理报告应描述数据质疑的总体情况，并按照疑问类型进行归类汇总。为体现质疑的及时性，数据管理报告应描述质疑生成到答疑的时长（中位天数及其范围）。针对质疑管理中的主要异常问题，数据管理报告应描述出现问题的原因或说明，如质疑数量过高/过低的临床中心/研究者、答疑时间过长等。

数据管理报告应描述是否有不同于临床数据库的严重不良事件数据库，如有则应描述一致性核查情况，包括试验严重不良事件（Serious Adverse Event, SAE）总数、被核查的SAE数量及SAE核查频率等，对未核查的SAE以及经核查不一致的SAE应当详细说明其不一致点和修正情况。

5. 医学编码

对所采用的医学编码，数据管理报告应描述各项内容编码采用的字典名称及其版本号，并列出各项内容的编码数量。

6. 外部数据管理

描述外部数据的种类，并描述各类外部数据的来源单位、数据传输协议、数据传输起止日期、传输频率及方式，以及是否执行外部数据的一致性核查和核查结果等。对盲态的外部数据需重点描述维持其盲态的措施。

7. 数据管理的质量评估

在数据库锁定前进行数据质量评估，评估并报告的内容应包含计划与实际发生的临床数据录入天数（针对纸质CFR）、质控过程发现并纠正的问题的数量等。

描述数据管理过程中进行数据质控核查的次数，每一次质控核查需描述核查时受试者总例数、关键指标错误率、非关键指标的抽样例数、抽样比例及依据和错误率。

数据管理应当严格按照数据管理计划执行，如实际操作中有任何不一致，报告中需详细描述其发生原因，并进一步阐述对数据质量的影响。如数据管理接受稽查或视察，应当描述稽查承担单位、稽查时间、稽查发现的主要问题、采取的纠正和预防措施等。

8. 重要节点时的数据传输记录

试验数据管理过程中可能需要多次数据传输，数据管理报告应描述重要节点的传输记录，包括期中分析的数据传输、数据锁定后向统计分析单位或申办者的传输、以及向药品监管部门的提交等。描述内容应当包含传输的数据集名称、传输日期、接收单位、传输格式、以及原数据集的储存/备份地点、责任单位/人。

9. 关键文件的版本变更记录

数据管理报告应详细列出与数据管理相关的重要文档的版本变更记录，包括试验方案、CRF、数据库（包括eCRF与逻辑检验程序）及数据管理计划的版本变更记录，并描述各版本执行日期、修正内容及修正原因等。

10. 报告附件

以下报告附件作为关键性文件，应视为数据管理报告不可缺少的内容。

（1）空白CRF

（2）注释CRF （可提交电子版）

（3）数据库锁定清单及批准文件

（4）数据核查计划DVP（可提交电子版）

三、统计分析的计划和报告

（一）一般考虑

统计分析计划（Statistical Analysis Plan，SAP）是比试验方案中描述的分析要点更加技术性和有更多实际操作细节的一份独立文件，包括对主要和次要评价指标及其他数据进行统计分析的详细过程。临床试验的统计分析有其特殊性，统计分析计划应当由具有参与临床试验经验的统计学专业人员起草，要求全面而详细地陈述临床试验数据的分析方法和表达方式，以及对预期的统计分析结果的解释。统计分析计划初稿应形成于试验方案和CRF确定之后，在临床试验进行过程中以及数据盲态审核时，可以进行修改、补充和完善，不同时点的统计分析计划应标注版本及日期，正式文件在数据锁定和揭盲之前完成并予以签署。如果试验过程中试验方案有修订，则统计分析计划也应作相应的调整。如果涉及期中分析，则相应的统计分析计划应在期中分析前确定。

统计分析报告（Statistical Analysis Report，SAR）是根据统计分析计划，对试验数据进行统计分析后形成的报告，是临床试验结果的重要呈现手段，是撰写临床研究报告（Clinical Study Report，CSR）的重要依据，并与统计分析计划一起作为药物注册上市的申请材料提交给监管部门用于对临床试验结果的评价。

（二）统计分析计划的基本内容

统计分析计划的基本内容涵盖了设计的类型、比较的类型、随机化与盲法、主要指标和次要指标的定义与测量、检验假设、数据集的定义、疗效及安全性评价和统计分析的详细计划。确证性试验要求提供主要指标的分析原则及预期分析方法。探索性试验通常描述概括性的原则和方法。

1. 试验概述

试验概述是试验方案中与统计学相关的部分，常可直接摘录。一般包括以下主要内容：

（1）研究目的：临床试验的主要目的和次要目的。

（2）设计类型：如平行设计、交叉设计、析因设计、成组序贯设计等。

（3）对照的类型：如安慰剂对照、阳性对照、剂量组对照等，需说明试验选择的对照类型及理由。

（4）随机化方法及其实施：明确随机化方法，如区组随机、分层随机及其分层因素等。

（5）盲法及设盲措施：说明是单盲还是双盲，设盲措施是双盲单模拟、双盲双模拟等，以及保持盲态下执行统计分析的措施。若采用开放设计，需充分说明无法实施盲法的理由。

（6）样本量：计划入组的受试者数量及其计算依据。若采用成组序贯设计应说明不同阶段的样本量。

2. 评价指标

统计分析计划中应清晰描述主要指标和次要指标的定义，包括具体观察和测量的方法、观察时点、指标属性。如果主要指标需要通过计算得到，则需给出相应的计算公式。

3. 分析数据集

根据不同研究目的，在统计分析计划中需明确描述数据集的定义。临床试验的分析数据集一般包括ITT/全分析集（Full Analysis Set，FAS）、符合方案集（Per Protocol Set，PPS）、安全性数据集（Safety Set, SS）。在定义分析数据集时，需遵循两个原则：①尽可能地减小偏倚；②控制I 类错误的增加。

4. 缺失数据和离群值的处理

缺失值和离群值是临床试验中潜在的偏倚来源之一，但在实际的临床试验中往往难以避免。因此，一方面在试验的计划、执行过程中应有必要的措施尽量避免其发生，另一方面在统计分析计划中应预先说明主要疗效指标缺失值的填补方法及理由，离群值的处理方法应当从医学和统计学两方面去考虑，并在统计分析计划中明确描述。

5. 统计分析方法

统计分析应建立在真实、准确、完整和可靠的数据基础上，应根据研究目的、试验方案和观察指标的类型选择国内外公认的统计分析方法。应给出不同类型资料的描述及统计推断方法，明确采用的单双侧检验及其水准，并说明所采用的统计软件及版本号。

（1）比较类型和检验假设

明确临床试验的比较类型，如优效性检验、非劣效性/等效性检验及其界值等。写出主要指标进行统计学检验的原假设和备择假设及其检验水准等。

要注意多个主要指标、多个比较组、多个时间点的比较、期中分析、亚组分析等情况的多重性问题，说明控制Ⅰ类错误率的措施。

（2）人口学资料和基线特征分析

说明对于人口学等基线资料根据数据性质进行描述统计分析的具体方式。

（3）依从性和合并用药分析

对于依从性和合并用药的分析，说明所采用描述性统计分析的具体方式，并说明对依从性差、具有合并用药的受试者具体情况的描述方式。

（4）主要指标的分析

说明主要指标分析采用的统计分析方法和统计分析模型。分析模型的选择要注意考虑指标的性质及数据分布的特性。处理效应的估计应尽量给出效应大小、置信区间和假设检验结果。有些基线特征变量在统计分析中可作为协变量处理，但必须在统计分析计划中事先说明。

在确证性试验中，只有统计分析计划中事先规定的统计分析内容才可以作为确证性试验的证据，其他的分析结果只能是探索性的。

（5）次要指标的分析

对于次要指标的统计分析，处理效应的估计也需要尽量给出效应大小、置信区间和假设检验方法。

（6）安全性分析

安全性分析的资料主要来源于受试者的主诉、症状、体征以及实验室检查结果等，所有的安全性指标在分析中都需要高度重视，应考虑对不良事件采用统一的编码词典进行编码。对于安全性数据的分析需说明所采用的统计学分析方法。

对不良事件的分析，应按事件发生的频数、频次和发生率描述，必要时进行组间发生率的比较。分析计划中需说明各种不良事件/反应的分类和汇总方式，以及所采用的具体不良事件编码词典名称及其版本号。

（7）其他分析

除以上的分析之外，有时还考虑期中分析、亚组分析、敏感性分析等。

期中分析的时点（包括日历时点或信息时点）、具体实施方式和所采用的α消耗函数等应当事先制订计划并在试验方案中阐明。对于确证性临床试验，原则上不得进行计划外期中分析，如由于特别情况进行了计划外的期中分析，则在研究报告中应解释其必要性以及破盲的程度和必要性，并提供可能导致偏倚的严重程度以及对结果解释的影响。

当涉及亚组分析时，需要对亚组给出明确定义。对于非预先规定的缺失数据的填补、离群值、亚组分析、不同数据集的分析、不同协变量的调整等，可进行敏感性分析，考察对试验结果的影响。

6. 图表模板

统计分析结果通常以统计分析表或图的形式呈现，计划中应该以简明的格式、精炼的文字描述所有相关信息。

（三）统计分析报告的基本内容

统计分析报告是对临床试验的统计设计、分析、结果的总结，是临床试验报告的基础和依据，其基本内容包括：试验概述、统计分析方法、统计分析的结果与结论，一般采用统计表和统计图表示。统计分析报告中的所有结论应使用准确的统计学术语阐述。

1. 试验概述

统计分析报告中的试验概述应与统计分析计划一致。

2. 统计分析方法

统计分析报告中的统计分析方法应与统计分析计划一致。

3. 统计分析结果

（1）受试者的分布

统计分析报告中应写明所有入组的受试者的分布情况，包括筛选例数、筛选失败例数及原因、参与随机化的例数、各组脱落或剔除受试者的例数、百分比等，以及方案偏离情况、各分析数据集的分布。除文字、表格描述外，应采用流程图的方式描述受试者的分布情况（流程图参见附录）。

详细描述每一位因脱落/剔除等原因未进入各分析数据集的受试者的情况，如受试者编号、中心、入组时间、脱落或剔除原因及时间等。

（2）人口学资料和基线特征分析

对于人口学资料、既往病史、家族史、药物过敏史以及疗效指标的基线值等数据常采用统计描述的方式进行可比性分析。计量资料一般用均数、中位数、标准差、四分位数、最大值和最小值等进行描述；计数及等级资料一般用频数和百分比描述。

（3）依从性和合并用药分析

根据依从性定义，报告各受试者完成试验的情况，包括研究时间、药物暴露时间、药物使用量等情况，列表描述依从性差的受试者、依从性差的具体原因及进入分析数据集情况。

对于合并用药分析，需列出合并药物的详细情况，如受试者编号、中心、组别、合并药物名称、使用原因、开始时间、结束时间等，进行组间合并用药的比较。

（4）疗效分析

对于主要和次要疗效指标，需根据事先确定的统计分析方法进行统计描述和统计推断，可能包括指标基线情况、治疗后各访视点的测量值及前后变化情况，以及变化值组间差异的描述统计量、置信区间和组间比较的检验统计量及P值等。

对于主要指标，应报告效应大小、置信区间和假设检验结果，根据事先确定的标准，从统计学角度判断主要指标的优效性/非劣效性/等效性的假设是否成立。

（5）安全性分析

安全性分析应按统计分析计划给出统计分析结果。需要分类汇总各种不良事件/反应，包括一般的和严重不良事件/反应、重要不良事件、导致脱落的不良事件/反应的发生率、严重程度及可能进行的组间比较。并列表描述每位受试者每项不良事件/不良反应发生的详细情况，包括不良事件/反应的类型、严重程度、发生和持续时间、结局以及与试验药物及药物剂量的关系等。

对实验室指标的比较和评价，主要关注治疗前正常而治疗后异常的发生情况，以及治疗前异常但在治疗后加重的受试者，需列表描述上述两种情况。生命体征、心电图、体格检查以及其他安全性相关指标的分析与实验室检查指标的分析类似。必要时，进行实验室指标前后变化及组间比较。

4. 统计学结论

根据主要指标的统计分析结果，结合研究的设计类型、样本量、试验实施情况、次要指标及敏感性分析结果等阐述证据的充分性和结果的稳健性，并给出统计学结论：明确针对主要指标的统计假设是否成立，并简要描述安全性的主要统计结果。

5. 报告附件

以下报告附件作为关键性文件，应视为统计分析报告不可缺少的内容。

（1）原始数据库、分析数据库及相应的变量说明文件（数据库应为SAS XPORT 传输格式，xpt格式）

（2）受试者分布流程图

（3）随机化方案（含随机分配表）

（4）盲态审核决议

（5）补充正文的统计附图和附表

（6）SAS分析代码（必要时）

（7）统计方法的发表文献（必要时）

四、名词解释

名词	解释
稽查轨迹（Audit Trail）	是计算机系统（如数据管理系统）的基本功能。是指系统采用安全的和计算机产生的带有时间烙印的电子记录，以便能够独立追溯系统用户输入、修改或删除每一条电子数据记录的日期、时间，以及修改原因，以便日后数据的重现。任何记录的改变都不会使过去的记录被掩盖或消失。只要受试者的电子记录保存不变，这类稽查轨迹文档记录就应当始终保留，并可供监管视察或稽查员审阅和复制。
系统验证（SystemValidation）	是指建立计算机化系统生命周期管理的文档化证据，以确保计算机化系统的开发、实施、操作以及维护等环节自始至终都能够高度满足其预设的各种系统技术标准、使用目的和质量属性，和处于监控的质量管理规程中，并能在其投入应用直至退役过程中都能高度再现和维护系统的标准和功能符合监管要求。
权限控制（Access Control）	是指按照临床试验电子系统的用户身份及其归属的某项定义组的身份来允许、限制或禁止其对系统的登录或使用，或对系统中某项信息资源项的访问、输入、修改、浏览能力的技术控制。
注释CRF（Annotated CRF）	是对空白的CRF的标注，记录CRF各数据项的位置及其在相对应的数据库中的变量名和编码。
逻辑核查（EditCheck）	是指临床试验数据输入计算机系统后对数据有效性的检查。这种核查可以通过系统的程序逻辑，子程序和数学方程式等方法实现，主要评价输入的数据域与其预期的数值逻辑、数值范围或数值属性等方面是否存在错误。
用户接受测试（User Acceptance Testing，UAT）	用户接受测试是由临床数据管理系统的用户进行的一种检测方式，检测记录可用以证明所设计系统经过了相关的验证过程。用户应全面检测所有正确和错误数据组合，记录检测结果。全面的检测文档应包括验证方案、测试细则记录、测试总结报告和验证总结报告等。
数据核查计划（Data Validation Plan,DVP）	也称逻辑核查计划，是由数据管理员为检查数据的逻辑性，依据临床试验方案以及系统功能而撰写的系统设置文件。
盲态审核（Blind Review）	是指在试验结束（最后一位受试者最后一次观察）到揭盲之前对数据进行的核对和评估，以便最终确定统计分析计划。
方案偏离（Protocol Deviation）	是指任何有意或无意偏离和不遵循未经IRB批准的试验方案规定的治疗规程，检查或数据收集程序的行为。一般来说，这种偏离只是逻辑的或管理性的偏离试验方案，不会对受试者的安全和获益产生实质性的作用，也不会影响所收集数据的价值。
期中分析（Interim Analysis）	是指在正式完成临床试验前，按事先制订的分析计划，对处理组间的有效性和安全性进行比较的分析。
缺失数据（Missing Data）	是指按照研究方案要求收集但未观测到的数据。
离群值（Outliers）	是指严重偏离平均水平的观测数据。离群值可能由于变量的变异较大所致，也有可能由过失误差引起；若是后者，应说明原因后作为缺失数据处理。
亚组分析（Subgroup Analysis）	是指对整体中根据某种因素分层的部分数据进行分析。
敏感性分析（Sensitivity Analysis）	是指对非预先规定的试验中可能出现的各种情况进行分析，如缺失数据的填补、亚组分析、不同数据集分析、不同协变量的调整等，并将分析结果作为参考，与事先确定的分析结果进行比较，考察所得结果的一致性和稳定性。敏感性分析可以作为主要分析的附加支持，但不能作为结论的主要依据。
重要不良事件（Significant Adverse Event）	指的是除严重不良事件外，发生的任何导致采用针对性医疗措施（如停药、降低剂量和对症治疗）的不良事件和血液学或其他实验室检查明显异常。

五、参考文献

1. CFDA：药物临床试验质量管理规范（GCP）。2003

2. CFDA：药物临床试验的生物统计学指导原则。2016

3. CFDA：临床试验数据管理工作技术指南。2016

4. CFDA：化学药物临床试验报告的结构与内容技术指导原则。2005

5. ICH E3: Structure and Content Of Clinical Study Reports. 1995

6. ICH E6: Guideline for Good Clinical Practice. 1996

7. ICH E9: Statistical Principles for ClinicalTrials. 1998

8. 中国临床试验数据管理学组（CDMC）：数据管理计划的结构和内容。药学学报，2015，50（11）：1388-1392

9. 中国临床试验数据管理学组（CDMC）：数据管理总结报告。药学学报，2015，50（11）：附录