前瞻性诊断准确性试验设计要点
尽管受到了⼀些质疑,循证医学理论体系仍然是现代医学不可动摇的基⽯之⼀。循证医学⾦字塔(图1)对于临床指南的制定具有不可忽视的影响⼒,其核⼼可以简单概括为:对于疾病的治疗,⼲预性研究的说服⼒强于观察性研究,临床研究的说服⼒强于基础研究,数据的说服⼒强于个⼈经验。值得注意的是,循证医学⾦字塔其实是侧重于对疾病治疗措施的证据进⾏分级。
图1 循证医学⾦字塔
然⽽,在临床研究的版图(图2)上,除了疾病治疗类研究外,还存在⼀类特殊的研究,即诊断准确性试验。诊断准确性试验与治疗类研究的观察重点不同,前者侧重于评分某⼀⼿段诊断疾病的准确性,后者则侧重于评价某⼀⼲预措施的疗效和安全性。在临床实践中,没有明确的诊断就⽆法进⾏规范化的治疗。因此,诊断准确性试验也是⼀类⼗分重要的临床研究类型。
图2 临床研究版图
根据数据收集类型或研究对象招募⽅式,诊断准确性试验可以分为前瞻性设计、回顾性设计和双向性设计。
•前瞻性设计是指预先制定纳⼊排除标准,招募将来的研究对象进⼊研究;
•回顾性设计则是指通过回溯既往病例的⽅式进⾏研究;
•双向性设计则可以简单理解成针对同⼀问题的前瞻性设计和回顾性设计的组合。
回顾性研究的设计要点在本书中已有相关论述,笔者就不再赘述了。在本⽂中,笔者以⼀篇刊登在J Intern Med上的论⽂为例[1],浅析如何设计⼀项严谨的前瞻性诊断准确性试验。
例⽂简介
1.研究背景介绍
呼吸困难是患者就诊于急诊室的主要原因之⼀。当急诊科医师接诊到呼吸困难患者以后,⾸先要明确诊断,找出导致呼吸困难的原因,然后才能有针对性地制定相应的治疗措施。导致呼吸困难的疾病很多,包括⼼衰(HF)、肺炎、急性冠状动脉综合征(ACS)、肺栓塞(PE)、哮喘、慢性阻塞性肺病(COPD)等。
其中,诊断⼼衰是⼀个⽐较棘⼿的问题,因为影像学检查和体格检查、病史、体征等提供的信息量有限,不能满⾜临床需求。因此⼈们⼀直试图找出对⼼衰具有较⾼诊断价值的实验室标志物。利钠肽类标志物的发现,极⼤地提⾼了⼼衰的诊断准确性。
⽬前,B型利钠肽(BNP)和N末端B型利钠肽(NT-proBNP)是诊断⼼衰最常⽤的标志物。然⽽,由于BNP和NT-proBNP的诊断效能并⾮完美⽆缺,因此仍然有必要继续寻找新的⼼衰标志物,弥补BNP和NT-proBNP的不⾜,或者将其取⽽代之。
众所周知,⼼衰患者⾎流动⼒学紊乱,⼼房和⼼室都会受到物理性的牵拉。⼼室细胞受到牵拉时会释放B型利钠肽前体(proBNP),proBNP在外周⾎进⼀步降解会形成NT-proBNP和BNP,这也是NT-proBNP和BNP可以⽤于⼼衰诊断和预后评估的病⽣基础。利钠肽类家族还有另外⼀个成员叫A型利钠肽,其主要表达于⼼房细胞。当⼼房细胞受到物理牵拉时,A型利钠肽前体(proANP)释放⼊⾎。
proANP共包含126个氨基酸,其在外周⾎中降解为两个⽚段:第1⾄98个氨基酸组成了N末端proANP(NT-proANP),第99⾄126个氨基酸则组成了成熟的ANP。由于NT-proANP的半衰期较长,因此理论上讲是较好的⼼衰标记物。遗憾的是,NT-proANP的检测技术发展缓慢,以前建⽴的⽅法都不是很稳定,很难满⾜临床需要。
2004年,性能可靠的NT-proANP⾃动化⽅法才得以建⽴[2]。该法主要是基于电化学发光原理,由于捕
获抗体和标记抗体针对的表位都位于NT-proANP的中段,因此⼈们将这种⽅法检测到的蛋⽩称为中段A型利钠肽,即MR-proANP。理论上讲,当⼼脏受到牵拉时,proANP的释放量是proBNP的10⾄50倍,因此MR-proANP在⼼衰诊断⽅⾯的价值可能要优于传统的BNP和NT-proBNP。J Intern Med上的这篇论⽂的研究⽬的就是⽐较MR-proANP和NT-proBNP诊断兴衰的能⼒。
2.研究设计以及结果简介
研究者⾸先前瞻性、连续性招募了287名因不明原因呼吸困难⽽就诊于急诊室的患者,这些患者进⼊就诊后,研究者就嘱其签署了知情同意书,并收集了其⾎清标本,即基线⾎清标本。随后,研究者根据患者的诊疗需要对患者进⾏体格检查、病史采集和各种检查,包括⼼电图、胸⽚、⾎清BNP等,⽬的就是为了明确诊断。同时,接诊医师根据这些资料给出⼀个“⼼衰概率评分”:0分表⽰确定不是⼼衰,100分表⽰确定是⼼衰。这⼀评分实际上反映了临床医师根据已有资料诊断⼼衰的准确性,也可以简单理解为常规资料提供的诊断信息。
圣诞节的英语单词待所有患者出院以后,研究者邀请两名⼼⾎管病专家独⽴地阅读患者的病历,结合检查结果、治疗反应性等,分析呼吸困难是否是由⼼衰引起的。最终,专家发现287名不明原因呼吸困难的患者中,⼼衰患者为154名,余下的133为⾮⼼衰患者。
研究对象的招募完成后,研究者取出患者的基线⾎清,⽐较了⼼衰患者和⾮⼼衰的⾎清NT-proBNP和
MR-proANP,发现⼼衰患者的这两项指标明显⾼于⾮⼼衰患者。受试者⼯作特征(ROC)曲线表明,NT-proBNP和MR-proANP诊断⼼衰的曲线下⾯积(AUC)均为0.92,说明⼆者均为⼗分优秀的⼼衰诊断标记物,且总体诊断效率相似。Spearman分析发现NT-proBNP和MR-proANP的相关系数⾼达0.89。研究者进⼀步⽐较了MR-proANP与⼼衰概率评分的曲线下⾯积,发现“⼼衰概率评分”的曲线下⾯积为0.90。如果MR-proANP与“⼼衰概率评分”联合使⽤,曲线下⾯积则为0.96,显著⾼
于“⼼衰概率评分”本⾝(P=0.016)。这⼀结果说明,MR-proANP可以改善“⼼衰概率评分”的诊断准确性。
变化快
由于AUC仅仅是⼀个统计学量化指标,没有较为直接的临床解释。因此研究者⼜进⼀步采⽤最⼤准确性来分析和⽐较NT-proBNP、MR-proANP以及“⼼衰概率评分”的诊断准确性,结果发现,NT-proBNP的最佳诊断界值是1560pg/ml,此时的准确性为85%;MR-proANP的最佳诊断界值为206 pg/ml,此时的诊断准确性为84%;相⽐之下,“⼼衰概率评
分”的最佳诊断界值是80分,其准确性只有79%。如果MR-proANP和“⼼衰概率评分”⼀起使⽤,诊断准确性可以提⾼到88%。
这⼀结果同样说明,MR-proANP如果和“⼼衰概率评分”⼀起使⽤,可以在⼀定程度上改善“⼼衰概率评分”的诊断价值。这⾥⾯牵涉到⼀些诊断准确性试验的基本指标的统计学原理,限于篇幅所限,笔者在
此不再赘述,感兴趣的读者可以参与笔者此前发表的相关⽂章[3-4]。
当然,研究者还采⽤logistic回归分析了NT-proBNP和MR-proANP与⼼衰的关系,结果发现,如果分别以206 pg/ml和1560pg/ml作为界值来将MR-proANP、NT-proBNP转化为两分类变量,⼆者均与⼼衰独⽴相关。
1560pg/ml作为界值来将MR-proANP、NT-proBNP转化为两分类变量,⼆者均与⼼衰独⽴相关。
最后,作者进⾏⼀些亚组分析,主要是采⽤logistic回归分析了在⼀些特殊病例中,MR-proANP与HF的关系是否独⽴于BNP以及NT-prBNP。这些特殊病例包括:BNP处于灰区(100 pg/ml⾄500pg/ml)的病例、eGFR⼩于60ml/min的病例、BMI⼤于30kg/m2的病例。最终证实:在BNP处于灰区的受试对象中,即便校正BNP和NT-proBNP,MR-proANP仍然与⼼衰独⽴相关,但NT-proBNP并不与⼼衰独⽴相关。⽽且,研究者还发现,在⼼衰患者中,NT-proBNP受BMI影响,但是MR-proANP不受影响。
研究的⼤致内容就是这些,总体⽽⾔,这是⼀项⼗分出⾊的诊断准确性试验,作者想要传递的学术观点概括起来就是:
1.在不明原因的呼吸困难患者中,MR-proANP是⼀个⼗分优秀的⼼衰诊断指标,其诊断价值可以完全和NT-proBNP媲
美;
2.和NT-proANP⼀样,MR-proANP可以提供常规临床信息所不能提供的诊断信息。换句话说,在不明原因呼吸困难患
者中,将NT-proANP和MR-proANP引⼊临床,可以改善⼼衰的诊断准确性;
3.在⼀些特定的患者中,MR-proANP⽐NT-proBNP更具有诊断优势。
如何设计良好的前瞻性诊断准确性试验:这项研究给我们的启⽰
1.只有前瞻性前瞻连续招募
才能保证研究对象的代表性
作者在描述研究对象招募时,研究者写道::We prospectively enrolled 287 concutive patients prenting to the ED of the University Hospital Bal with dyspnoea as the most prominent symptom from April 2006 to March 2007。在这句话中,prospective和concutive是两个极为关键的词。可以毫不夸张地说,这两个词极⼤地提升了⽂章的档次。Prospective表⽰该研究为前瞻性研究,其说服⼒要强于回顾性研究。Concutive则表⽰研究对象是连续招募的,或者说招募到的对象是来⾃真实世界的对象,因此研究结论具有较强的外推性。
募集到真实世界的研究对象对于诊断试验来说⾄关重要,我们举⼀个例⼦进⾏说明:假定在真实世界中,每招募到1000个呼吸困难的患者,就会有200个患者是⼼衰,800个为⾮⼼衰,即⼼衰在呼吸困难⼈群中的患病率为20%。再假定MR-proANP在某⼀界值下诊断⼼衰的敏感性是0.85,特异性是0.90,则我们可以得到如下四格表(表1)。
表1 MR-proANP诊断⼼衰的价值(前瞻性研究)
根据表1可以计算出很多诊断性能指标,包括:敏感性、特异性、阳/阴性预测值、阳/阴性似然⽐、诊断⽐数⽐等。在临床实践中,由于敏感性、特异性这两个指标的临床解释较为繁琐,临床医师更喜欢阳性预测值和阴性预测值这两个指标,因为这两个指标直接告诉临床医师:当MR-proANP阳(阴)性时,患者患⼼衰(未患⼼衰)的概率是多少。假定⼀个患者的MR-proANP为阳性,根据表1的结果,我们可以推测中,患者患⼼衰的概率是170/(170+80)=0.68。这个0.68是基于真实世界⼈群得出的数据,所以可以在临床上推⼴。
但如果⼀项研究是回顾性研究,由于真实世界已经⼀去不复返了,研究者去确定⼼衰发病率就会困难重重。由于部分患者在就诊期间可能没有接受MR-proANP检查,即便研究者采⽤“连续回顾”的⽅式回溯过去⼀段时间内所有因呼吸困难⽽就诊的患者的资料,也⽆法得知⼼衰真实的发病率。假定⾮⼼衰患者中会有部分⼈群因数据不全⽽被排除出研究,很有可能得到以下数据(表2)。
表2 MR-proANP诊断⼼衰的价值(回顾性研究)
漫画侧脸由于敏感性和特异性不受发病率的影响,所以表2中MR-proANP的诊断敏感性仍然为0.85,特异性仍然为0.90。但如果再计算阳性预测值,则为170/(170+40)=0.81。也就是说,如果⼀个患者MR-proANP为阳性,其患⼼衰的可能性变成了81%。
在表1和表2中,敏感性和特异性均未发⽣变化,但是直接影响临床决策的阳性预测值却变化了。很显然,由表1中的阳性预测值要⽐表2中的阳性预测值可靠,因为表1中的样本代表性较好,⼼衰发病率的数据较为准确。
属马的命运
在诊断准确性试验中,前瞻性研究的论证强度要⾼于回顾性研究,原因之⼀就在于前瞻性研究:
①资料相对完整;
②可以连续招募病⼈确保研究对象具有代表性。
需要说明的是,在国内杂志上刊登的诊断准确性论⽂,很多设⽴了健康对照,这是⼀种⼗分不严谨的试验设计。健康个体和疾病之间仅凭症状、体征就可以⼤致鉴别出来,根本不需要任何诊断实验。
2.双盲设计⼗分重要
在材料和⽅法、摘要中,作者提到了⼀个⼗分重要的实验设计信息:患者在进⾏最终诊断时并未参考NT-proBNP和MR-proANP的检测结果;负责检测NT-proBNP和MR-ProANP的检验师(待评价⼿段的执⾏者)也不知晓患者的临床资料。这是⼀个⼗分重要的试验设计细节,我们将其称之为诊断试验中的“双盲设计”,其意义在于保证实验结果的准确性。
试想,如果坐诊医师在诊断疾病时参考了患者的NT-proBNP或MR-proANP检查结果,则很有可能会将⼀些“本不是⼼衰,但是NT-proBNP或MR-proANP⽔平较⾼”的受试对象误判为⼼衰;或者将⼀些本来是⼼衰,但是NT-proBNP或MR-proANP⽔平较低的患者误判为⾮⼼衰。这种设计会在⼀定程度上夸⼤NT-proBNP或MR-proANP的诊断价值。
如果待评价⼿段的实验室标志物,临床资料是否对待评价⼿段执⾏者(检验师)设盲可能对结果的影响不是很⼤,毕竟最终是靠仪器检测得出的客观结果,⽽不是靠待评价⼿段执⾏者的主观结论。但如果待评价实验室⼀些量表,或者需要主观判断的实验室测试(⽐如、免疫组化、免疫沉淀),那是否设盲的对结果的影响就⼗分⼤了。
以免疫组化为例,如果报告免疫组化结果的实验室检验师预先知悉了患者的临床资料,则在进⾏组化结果判断的时候⽆法做到客观公正,会有意⽆意地将结果往疾病或⽅疾病⽅向判读,最终夸⼤免疫组化的诊断性能。
总之,双盲设计是诊断试验设计中最为重要的⼀环。纵观国际上⾼⽔平的诊断准确性试验,不论待评价⼿段是主观检查还是客观检查,都采⽤了双盲的设计。
冬季抑郁
3.公平的⽐较环境才能得出可靠的结论鳊鱼的做法
在部分诊断准确性试验中,研究者的研究⽬的仅仅是⽐较两种或多种诊断⼿段的优劣。以本研究为例,其核⼼研究内容就是⽐较NT-proBNP和MR-proANP在呼吸困难⼈群中诊断⼼衰的性能。由于这是在同⼀队列⼈群中展开的⽐较,我们称之为 “头对头(head to head)”的⽐较,或者说直接⽐较。相应地,如果是在不同的⼈群中展开的⽐较,则为间接⽐较。
值得注意的是,在本研究中,除了检测NT-proBNP和MR-proANP以外,研究者还检测了另⼀个⼼衰指标BNP。但为何作者不拿BNP与NT-proBNP或MR-proANP⽐较呢?这⾥牵涉到⼀个实验设计的问题。BNP的检测并未对负责诊断的临床医师设盲,⽽NT-proBNP以及MR-proANP是对临床医师设盲的,如果直接⽐较BNP与NT-proBNP或MR-proANP,这就是⼀种不“公平”的⽐较,因为BNP会先⼊为主地影响临床医师的诊断,但是NT-proBNP或MR-proANP不会。当然,NT-proBNP和MR-proANP都是对临床医师设盲的,所以他们之间的⽐较是可以进⾏的。
两种诊断⼿段的⽐较类似于法庭上原告与被告的较量,⼀定要考虑“公平”,最核⼼的问题就是:原告或被告绝对不能先⼊为主地影响法官的判断,换⽽⾔之,如果是⽐较两种诊断⼿段,那么任何⼀种诊断⼿段都不能先⼊为主地影响临床医师的最终诊断。
⽐如,有研究⽐较了类风湿因⼦(RF)和抗波形蛋⽩抗体(抗MCV抗体)对类风湿关节炎的诊断价值。众所周知,RF是⼗分成熟的类风湿关节炎诊断标记物,且早已被列⼊类风湿关节炎诊断标准。相⽐之下,MCV并不是类风湿关节炎的诊断标准之⼀。在此⼤背景下,⽐较RF与抗MCV抗体的诊断价值显然有悖公平原则,结果当然也是不可靠的。
4.诊断试验不能满⾜于⽐较,
⽽应该满⾜于提供额外诊断价值
总体来说,诊断试验分为很多个层次[5-6]。第⼀层次是评价单个待评价实验的诊断价值,⽐如:评价MR-proANP在呼吸困难⼈群中诊断⼼衰的价值。这种实验设计最⼤的缺陷在于“就事论事”,没有考虑MR-proANP和其它成熟的⼿段相⽐是否还存在优势,因此研究结论的临床价值并不是很⾼。第⼆层次是⽐较⼏种诊断⼿段的优劣,确定临床实践中到底哪⼀种⽅法最好。⽐如:⽐较NT-proBNP和MR-proANP在呼吸困难⼈群中对⼼衰的诊断价值。这种实验设计虽然较第⼀层次有了⼀定的提⾼,但是仍然不能满⾜临床需要。
很显然,NT-proBNP和MR-proANP是完全可以同时检测的。因此,临床医师可能并不关⼼NT-proBNP和MR-proANP 孰优孰劣,⽽是关⼼⼆者联合诊断是否有助于提⾼总体诊断准确性。在联合诊断中,总体诊断效率并不是单个⼿段诊断效率的简单叠加。因为各种诊断所提供的诊断信息会有⼀定的重叠。如果我们分析NT-proBNP和MR-proANP的相关性就会发现,其实⼆者是正相关的。换⽽⾔之,他们所提供的诊断信息有部分是重叠的。⼀个极端的假设,如果NT-proBNP和MR-proANP完全正相关(相关系数为1),那⼆者提供的诊断信息就是完全重叠的,没有必要进⾏联合诊断。评价各个诊断⼿段能否互补,或者说明确多个⼿段的联合诊断效率,就是诊断实验的第三个层次。当然,第三层次还不是诊断实验的最⾼层次,因为其仅仅考虑了⼏个诊断⼿段。疾病的诊断往往是建⽴在症状、病史、体征以及诊断⼿段基础上的。⽐如同样是呼吸困难的患者,如果有的患者此前曾经患有下肢深静脉⾎栓,那医⽣可能会怀疑造成呼吸困难的原因是肺栓塞;如果有的患者有急性⼼肌梗死病史,那医⽣可能会认为患者发⽣急性冠状动脉综合征的概率会⾼⼀些。
楚才
因此,诊断实验的核⼼是评估某⼀诊断⼿段能否提供常规临床信息(病史、体征、体格检查结果)所不能提供的诊断信息。为了论证这⼀问题,常⽤的⽅法有两种:⼀种是利⽤已有的临床信息建⽴logistic回归⽅程,并利⽤c-statistics、净重分层指数(NRI)和综合改良区分度(IDI)等统计学⽅法进⾏论证[7];这种⽅法的缺点是所需要的样本量较⼤,且是将复杂多变的临床问题转化为⽣硬的统计学问题,结论在临床上难以推⼴。
另⼀种就是本⽂采⽤的诊断信⼼评分,也就是⽂章中提到的“⼼衰概率评分”。很显然,基于常规的资料也能对⼼衰进⾏诊断,且诊断效率还较⾼(曲线下⾯积为0.90),但本⽂作者证实了,如果在⼼衰概率评分的基础上再加MR-proANP,则曲线下⾯积可以达到0.96。换⽽⾔之,也就是证实了MR-proANP可以提供病史、体征、体格检查和BNP所不能提供的诊断信息。这个结论⼗分重要,因为这⼀结论直接告诉临床医师:在呼吸困难的患者中,如果引⼊MR-proANP诊断⼼衰,会提⾼总体诊断准确性。
诊断准确性试验还有更⾼的层次,即论证引⼊⼀个新的诊断⼿段能否改善患者预后[8]。这类研究在本质上属于随机对照试验,已经跳出了传统的诊断试验的范畴,在此就不展开赘述了。
结束语
本⽂以发表在J Intern Med上的⼀篇⽂章为例,浅析了如何设计严谨的诊断准确性试验。实际上,国
际上关于诊断准确性试验已经有了较为公认的质量评价⼯具,即QUADAS-2[9]。本⽂中所提及的⼀些实验设计问题在,在QUADAS-2中早有体现。对我们⽽⾔,只有深刻领会QUADAS-2⼯具中提及的试验设计要点,才可能设计出严谨的诊断实验,才可能发表⾼⽔平的诊断准确性论⽂。
与队列研究和多数随机对照试验相⽐,诊断准确性试验的特点是:
•容易上⼿:因此多数情况下不需要对患者进⾏随访,只需要知道最终的诊断结果;
•
容易量产:如果建⽴⼀个基线⾎清标本库的话,就可以发表系列论⽂了,因为基于这些⾎清可以检测很多新颖的⼼衰标记物,每个标记物的诊断价值都是⼀篇不错的论⽂。
参考⽂献:
1.Potocki M, Breidthardt T, Reichlin T, Hartwiger S, Morgenthaler NG, Bergmann A, et al. Comparison of midregional
解释的英语
pro-atrial natriuretic peptide with N-terminal pro-B-type natriuretic peptide in the diagnosis of heart failure. J Intern