临床试验如何监查？《临床试验基本原理（第五版）》新书抢先看

时间:2024-02-27 19:23 来源:未知作者:admin 点击:次

　　它是Springer经典图书，从第一版面世至今已有42年历史；它是美国研究生课程的经典参考书目，被誉为“全面了解临床试验并迅速上手”的第一选择；它由5位NIH一线位中国优秀科研工作者翻译；全书22章500+页内容，覆盖从确定科学问题到结果报告的方方面面；穿插60多个经典研究范例，以实践为媒将临床试验的原理娓娓道来。这就是AME即将推出的大部头译著——。现AME科研时间将精选部分图书内容进行连载，以便令读者进一步了解本书。今天我们分享监查委员会的结构和功能。

　　研究者在试验过程中需要承担监查受试者安全和临床获益的责任。如果试验中期的数据表明干预措施对受试者有害，则应考虑提前终止试验。如果试验数据表明干预措施明确有效，试验也可能提前终止，因为继续试验对于对照组的受试者是不符合伦理原则的。此外，如果试验组和对照组在主要结局指标或可能在次要结局指标之间的差异太小，导致难以得出明确的结果，那么继续为试验投入时间、金钱和努力可能就不合理了。同样，对结局指标的监查可以确定是否需要收集额外的数据以明确试验过程中可能出现的获益或毒性反应问题。最后，监查可能会揭露需要及时解决的逻辑问题或涉及数据质量的问题。因此，对试验进行中期评估具有伦理、科学和经济方面的理由[1-3]。为了实现监查功能，必须在试验过程中及时收集和处理数据。如果只在收集了全部或大部分数据后才进行数据监查，那么数据监查的价值是有限的。与监查的招募、执行和质量控制有关的具体问题在其他章节详述，这里不再讨论。之前章节已对监查委员会的工作程序进行了详细描述[4]，包括一些案例研究，这些案例代表了因试验获益、意外伤害或试验无效而终止的试验[5]。最早关于数据监查基本原理的讨论出现在一份委员会的报告中，该委员会由Bernard Greenberg主持，是应当时的国家心脏研究所委员会顾问的要求发起的[3]。本报告概述了图16-1所示的临床试验模型，其变体已被美国国立卫生研究院（NIH）的研究机构广泛采用。模型的关键组成部分包括指导委员会、统计和数据协调中心、临床中心和数据监查委员会（Data Monitoring Committee，DMC）。后来，制药和医疗器械行业[6]采用了该NIH模型的修改版本，如图16-2所示，主要修改是将统计数据协调中心拆分为统计分析中心和数据协调中心。

　　许多早期经验已经被描述记录并形成了当前实践的基础[7-34]，特别是在心血管疾病的试验中[35-37]。尤其是在过去的十年里，DMC的数量急剧增加[38]。2013年，在ClinicalTrials.gov上注册的超过12万的试验中，有超过1.3万项是干预性试验，其中40%的试验使用了DMC。这表明在这段时间内有或曾经存在过5 000多个DMC。DMC使用率最高的是心血管和肿瘤方向的试验。在NIH赞助的630个试验中，74%的试验有DMC；而55%由行业赞助的试验中，约1/3拥有DMC。在 NIH和美国食品药品监督管理局（FDA）的书面政策或指南中存在一些差异。监查长办公室于1998年发表了一份报告，审查了机构审查委员会（IRB）在临床试验中的监查是否充分，并建议NIH和FDA就何时需要一个更具有针对性的监查委员会提供指导意见。作为回应，NIH发表了一份政策声明，该声明与他们在许多研究机构长期以来的做法一致，即他们资助的所有Ⅲ期随机试验都有一个独立的DMC[39]。不久之后，FDA开始制定指导文件，该文件于2001年以草案形式发布，并于2006年定稿[40]。FDA的指南建议DMC用于受试者为高风险患者的试验或高风险/新型干预措施的试验，而不是由行业进行的Ⅲ期试验或Ⅳ期试验。

　　在2000年之前，公众一般不清楚数据监查委员会长期以来的做法，特别是对Ⅲ期试验进行监查。然而，一例基因移植患者的死亡事件发生在了一个处于领先地位的研究机构，这个事件改变了这一情况[41]。虽然该患者没有参加Ⅲ期试验，但围绕该病例的问题引起了人们的注意，即谁负责监查试验，以及应向谁或哪家机构报告此类监查。这一事件发生时间与NIH和FDA的指导方针制定时间很接近，这无疑提高了公众的认识，而DMC的活动也受到了各种利益相关方的越来越多的关注。美国卫生和人力资源部部长得知了这些事件，并重申了NIH和FDA的政策和做法[39-40,42]。此外，在大型多中心试验中，单个的IRB经常会收到很多来自赞助者的分散的严重不良事件（serious adverse event，SAE）报告，导致无法根据试验中不同治疗（通常是盲法试验）积累的数据来确定是否有令人信服的风险或益处。因此，只有DMC才能在确保患者安全方面发挥关键作用。

　　虽然所有的试验都需要某种程度的监查，但许多试验，如早期试验、单中心试验、非常简单的干预试验或不涉及的试验，可能不需要外部监查委员会。使用独立委员会进行的外部监查主要用于可能导致临床实践发生变化的后期阶段的试验或需要特殊专业知识的试验。由DAMOCLES小组进行的一项关于监查实践的调查发现，监查委员会的作用在不同试验、赞助者和地区之间存在很大差异。虽然人们对需要建立正式监查委员会的试验类型达成了普遍共识，但对于其职能没有统一的实践方法或政策[43]。外部监查委员会的名称多种多样，如数据和安全监查董事会（Data and Safety Monitoring Board，DSMB）、数据和安全监查委员会（Data and Safety Monitoring Committee，DSMC）或简单的DMC。在本文中，我们更倾向于使用DMC，因为它不单聚焦于试验的安全性，事实上DMC的挑战在于审查新型干预措施的风险和益处。

　　在这本书中表达的原则和基本原理来自于作者自20世纪70年代早期以来监查众多试验的经验。

　　在试验过程中，需要对结局指标进行监查，以发现早期显现的、显著的益处，潜在的有害影响或无效性。监查应由独立于研究者的个人或团体进行。

　　数据监查需要牢记科学、伦理和经济的基本原理，数据和安全性监查并不是简单看一看主要结局指标统计分析的表格或结果。相反，它是一个积极主动的过程，在这个过程中，需要制作附加的表格并进行分析，还要在审查过程中不断对其进行修订。监查还涉及负责整理、制表和分析数据的人员之间的合作。对于单中心研究，监查的责任原则上可以由研究者承担。然而，研究者可能会发现自己处境艰难。在审查数据时，研究者可能会发现在受试者仍在招募登记和/或接受治疗时，试验结果会朝一个或另一个方向发展。研究者招募受试者是基于研究者既不倾向于支持干预措施也不倾向于支持对照措施的前提，这是一种临床平衡[44]的状态。在研究者得知研究结果的趋势所在后便难以继续招募受试者，同时也很难以公正的方式随访、评估和治疗受试者。此外，如果由一个独立的个人来监查结局指标数据，而不是由研究人员来监查，则试验的可信度也会提高。基于这些考虑，我们建议在后期阶段的试验中，监查临床试验的个人应该和受试者或研究者都不相关，尽管有些人不同意这种做法[11,19-20]。

　　对于早期或晚期阶段的小型短期研究来说，一两个知识渊博的人就可以满足监查的要求。除此之外，结局指标数据的监查责任通常由一个独立的具有不同学科专业知识背景的小组来承担[4–6]。这种独立性能够使监查委员会的成员在决策过程中不受研究者、受试者以及联邦政府或行业赞助者的影响。该委员会通常包括相关临床领域或专业的专家、具有实施临床试验经验的个人、流行病学家以及擅长设计和分析的生物统计学家，在NIH资助的试验中通常还有生物伦理学家或受试者代表。虽然我们将在第十七章中描述有助于评估中期结果的统计程序，但关于继续试验、提前终止试验或修改试验设计的决策过程总是复杂的，没有单一的统计程序足以处理所有的复杂问题。此外，没有一个人可能拥有处理这些问题的所有经验和专业知识。因此，正如Greenberg Report[3]所写，“我们建议独立的监查委员会由多学科的成员组成”。

　　监查委员会的首要任务必须是确保试验受试者的安全。其次，监查委员会需要对研究者、机构审查委员会或伦理委员会负责，这些机构信任监查委员会既能保护受试者不受伤害，又能确保试验的完整性。再次，监查委员会须对试验的赞助者负责，无论是联邦政府的还是私人的赞助者。最后，监查委员会需要为药物或设备管理机构提供服务，特别是在使用仍处于研究状态的药物、生物制品或设备的试验中。

　　虽然监查委员会的会议形式多种多样，但我们建议采用能够允许所有相关各方交换信息，并允许适当的保密和独立审查的会议形式[4,13]。会议形式包括公开会议、非公开会议和执行会议。公开会议使研究者代表（如研究的主要研究者、赞助者、统计中心工作人员、相关行业受试者和监查委员会委员）能够进行互动。监管机构参加公开会议并不常见，但却是被允许的。在这种会议中，有关受试者招募、数据质量、一般依从性、毒性问题以及其他任何可能影响试验进行或结果的逻辑问题都将被以一种盲审的方式进行考量。在经过充分的讨论之后，监查委员会将与DMC成员和统计报告统计员或小组举行一次非公开会议，在会议上审查对机密结果数据的分析结果。这项审查将包括不同干预组之间的基线变量、主要或次要结局变量、安全性或不良反应变量、整个组的依从性以及任何相关亚组结果的比较。审查之后，监查委员会可以决定与DMC成员进入执行会议阶段，决定是否继续试验、终止试验或修改试验方案。在非公开会议中完成DMC审查后，他们可以与赞助者或研究者领导层的代表会面，分享他们的建议，这些建议通常会以信函形式跟进。不管正式程度如何，大多数监查委员会会议都有这样的流程。一种不同的做法是，DMC会议以一个非公开会议开始，允许成员在随后的公开会议上与研究者和赞助商讨论他们想提出的任何问题。这一讨论也有助于确定第二次非公开会议的中心议题。因此，这个会议顺序是非公开——公开——非公开，最后以开放的汇报会议结束。举例来说，这种特殊的模式在NIH赞助的艾滋病试验中被广泛使用[13]。

　　在开始试验和安排第一次监查委员会会议之前，必须具体决定出席上述各个会议的人员名单。一般而言，出席者应限于对适当监查至关重要的人员。如前所述，研究的主要研究者和赞助者代表通常会出席第一次公开会议。如果主要研究者不为受试者提供治疗，则有时会参加非公开会议，但是这种做法是不被推荐的。如果研究是由行业赞助的，那么最好不要让行业参加非公开会议，这样才能更好地体现研究的独立性和可信度。

　　若由行业赞助的试验也由行业进行管理和分析，则需要来自赞助者并负责准备监查报告的生物统计学家参加。在这种情况下，必须有一道“防火墙”将统计人员与公司其他成员隔开，这很难实现而且难以令外界信服。然而，对于行业赞助的关键Ⅲ期试验，通常的做法是由一个独立的统计分析中心提供中期分析并向独立的监查委员会[6]报告。这种做法降低了行业赞助商或研究小组获知中期结果的可能性。监管机构代表通常不参加非公开会议，因为如果产品需要提交后续审批，参与监查决策可能会影响他们的监管作用。

　　执行会议应仅由监查委员会中有表决权的成员参加，但提供数据报告的独立统计员也可参加。该会议的执行大纲有许多不同的变体，包括将非公开会议和执行会议合并，因为出席会议的人员可能相同。

　　大多数监查委员会只评估一项或两项临床试验。试验结束后，监查委员会解散。然而，以癌症和艾滋病为例，临床中心网络同时进行许多试验[11,13,18-20,23]。癌症试验合作小组可以在任何给定的时间进行多个癌种的试验，如乳腺癌、结肠癌、肺癌或头颈部肿瘤，甚至根据癌症的分期或其他危险因素对某一特定癌种进行多次试验。同样，美国的艾滋病试验网络也对处于不同疾病阶段的艾滋病患者同时进行了多项试验。在这些领域中，监查委员会可以跟踪若干试验的进展情况。这种情况下，严格的议程和标准化的数据报告格式可以提高审查的效率。如果有一个研究项目需要对一种新药进行多个试验评估，那么一个通用的DMC的优势在于能够监查更大范围的联合试验，从而提供更精确的安全性和有效性评估。不管采用哪种模型，数据监查的目标和程序都是相似的。

　　一个需要在试验开始前解决的问题是如何将干预或治疗比较的结果提交给监查委员会。在一些试验中，监查委员会知道报告中每个图表中的干预措施。在其他试验中，对于两种干预措施，表格可能被标记为A和B，A和B的标识保持盲性，直到DMC在“需要知道”的情况下才会揭盲。

　　因此如果没有出现有利或有害的趋势，特别是在试验的早期阶段，监查委员会没有绝对的理由需要知道A和B的意义。而当任一趋势开始出现时，监查委员会应该充分了解各组的具体意义[45]。

　　在一些试验中，监查委员会在整个中期监查过程中是被设盲的。为了实现这一点，数据报告有复杂的标记方案，例如基线表的A与B、主要结局指标的C与D、毒性的E和F、各种实验室结果的G和H。虽然这种程度的盲性可能会增强客观性，但它可能与监查委员会保护受试者不受伤害或避免不必要的试验的主要目的相冲突。正如Whitehead[46]指出的，这种设盲的方法的目的是让DMC无法完整地了解中期数据。然而为了评估试验的进展，必须充分了解干预措施的危害和好处，权衡可能的利弊。如果每一组表格都用不同的代码标注，委员会就不能轻而易举地评估干预措施的总体损益情况，因此可能会把受试者置于不必要的风险中，或者在获益大于风险的情况下继续进行试验。这种复杂的编码方案也增加了标记错误的机会。这种设盲的做法并不常见，也不推荐使用。

　　关于监查委员会举行会议的频率，没有简单的指导准则。会议频率可能因试验阶段的不同而不同[2,4-5,47]。受试者招募、随访和结束阶段需要不同频率的活动。鉴于召开一次委员会所需的时间和费用，会议不应过于频繁，以免造成在短期内几乎没有积累新的数据进行报告。如果其中一种干预措施的潜在毒性在试验期间成为一个问题，可能需要召开特别会议。在许多长期临床试验中，监查委员会每隔4~6个月开一次会，必要时还会召开额外的会议。在某些情况下，年度审查可能就足够了。然而，不建议减少检查频率，因为在发现严重的不良影响之前可能会经过很长时间。如后文所述，另一种策略是在观察到10%、25%、50%、75%和100%的主要结局时安排监查委员会会议，或采用类似的模式安排会议。因此，可能需要进行早期分析，以检查是否存在严重的直接不良影响，随后再进行分析以评估干预措施是否有益或有害。如果试验出现明显的但还没达到统计学差异的趋势，可以用其他方法提供额外的中间分析。在委员会会议的间期，负责整理、制表和分析数据的人员负有监查异常情况的责任，而这些异常情况可能需要提醒监查委员会注意。

　　监查委员会通常在数据文件关闭之前对数据进行最后一次审查，除非数据在发表出版物中出现，否则可能永远看不到完整的数据分析。关于监查委员会是否需要开会审查最终完整的数据集，目前没有一致的做法。从一方面来看，试验已经结束，委员会没有必要开会，因为无需决定是否提前终止试验或修改试验方案。从另一方面来看，委员会已经非常熟悉试验数据，其中包括可能引起关注的问题，因此可以与研究者和赞助商分享见解。所以一些试验安排了最后一次会议，以便监查委员会在研究结果被提交到科学会议或发表在出版物之前看到最终结果。

　　根据我们的经验，我们强烈建议采用后一种方法。审查会议成本不高但却能够为试验和研究者带来大量利益。因为还有其他遗留问题仍有待解决。

　　例如，如果一个令人担忧的安全趋势或重大发现没有在主要出版物中明确报告或根本没有报告，那么基于科学、道德和法律方面的义务，监查委员会是否需要对未报告的内容进行评论？假设委员会与研究者在对主要结局数据或安全性方面的结果解释上存在很大差异，如何解决委员会与研究者或赞助商之间的分歧？这些都是重要的问题，答案无法一言以蔽之，但却与科学和伦理问题息息相关。

　　在关于样本量的讨论中（见第八章），作者提出了若干假设的检验问题，称为“多重检验”问题。同样，累积数据的重复显著性检验对数据监查至关重要，具有统计学上的重要意义[48-54]。这些问题将在第十七章中更详细地讨论，这里讲一下重复检验的概念。如果两组之间没有差异的无效假设H0是正确的，而事实上使用累积的数据在相同的显著性水平上对该假设进行重复检验，那么在某个时候，该检验因偶然得到显著性结果的概率将大于在样本量计算中设定的显著性水平数值。也就是说，错误地拒绝无效假设或出现假阳性错误的机率将大于通常认为可以接受的机率。实验结果的趋势可能会出现或消失，尤其是在试验初期，所以必须谨慎行事。

　　在一项临床试验中，受试者的结局数据在入组后相对较短的时间内就可以知道了，随着更多受试者的加入和试验的继续，两组之间的比率差异可能会被反复比较。比较两种比例的常用统计检验方法是卡方检验或等效正态性检验。无效假设即试验组和对照组真实的结局变量发生率或比例是相等的。如果选择了5%的显著性水平，并且只对无效假设H0进行一次检验，那么根据定义，H0假设成立但被拒绝的概率为5%。然而，如果对H0假设进行两次检验，第一次是当一半的数据已知时，然后是当所有数据都已知时，错误拒绝H0的概率则从5%增加到8%[50]。如果假设被检验五次，在每两次检验之间增加1/5的受试者数据，若使用常用的显著性水平5%，那么得到显著结果的概率就变成了14%。进行10次检验，这个概率几乎是20%。

　　在一项以长期生存经历为主要结果的临床试验中，随着更多关于入组受试者的信息被了解，可能会进行重复检验。Canner[10]对这样一个临床试验结果进行了计算机模拟，在研究结束时，对照组和干预组的事件发生率都假定为30%。他对这个模拟实验进行了2 000次重复，他发现，如果在一次试验中进行20次显著性检验，则超过5%显著性水平界限（即Z=±1.96）的概率平均为35%。

　　因此，无论是为了比较比例还是为了比较时间事件数据而进行检验统计，在不考虑检验次数的情况下，重复检验累积数据会增加错误拒绝H0假设却得到干预措施有显著意义的概率。如果重复检验无限次数地进行下去，那么最终肯定会否定无效假设。虽然不太可能进行大量的重复检验，但如果忽略多次检验问题，即使只是5次或10次重复检验也会造成对试验结果的误判。

　　CDP试验中氯贝特与安慰剂死亡率的比较提供了一个典型的重复检验问题的例子，如图16-3所示[10,54]。该图显示了在试验的随访时间或日历时间的标准化死亡率比较。两条水平线表示检验统计量的常规值，对应双侧0.05的显著性水平，用于判断只进行一次比较的研究是否具有统计学显著性。显然，整个过程中，这种比较结果的趋势在出现后逐渐减弱，在五次检验的情况下接近或超过常规临界值。然而，如图16-4所示，试验结束时的死亡率曲线所示试验结束时非常小的标准化统计量相对应。该试验的监查委员会考虑到重复检验的问题，所以并没有因为超过常规临界值而提前终止试验。

　　出于伦理、科学和经济方面的原因，必须对所有试验进行监查，以免使受试者经历不必要的伤害，浪费宝贵的财力和人力资源，或错过纠正试验设计缺陷的机会[2–5]。然而，在评估中期结果以履行这些职责的过程中，对主要、次要结局变量或不良反应结果中已出现或未出现的趋势反应过度，可能会得出错误的结论。一般来说，多重检验的解决方法是调整每次分析中使用的显著性临界值，使试验的总体显著性水平保持在预期水平。有人建议，除非组间差异非常显著，否则不应过早终止试验[2,4-5,55]。下一章（第十七章）将正式讨论数据监查技术方面的问题，包括成组序贯设计，随机缩减抽样或条件检验效能。

　　至于提前终止试验的决定、扩大试验的决定以及加速审批模式，您将在书中看到更多详细内容。

相关文章推荐:: 好买基金报告：偏股型基金指数超额收益探源; 这“一束光”能否破解中国新型显示产业锁喉之痛？; 编码赋能四新驱动工程及物料编码管理子系统助力工程建设领域数; 编码赋能助力工程建设领域数字化转型; 安泰科技董秘回复：铌合金主要可以制成薄板和外形复杂的零件可; 包钢股份：公司铌资源的提取与应用尚处于工业试验阶段

利来国际

临床试验如何监查？《临床试验基本原理（第五版）》新书抢先看