中国循证医学杂志
2011,11(4):437
~
445
•437•
©2011
中国循证医学杂志编辑部
CJEBM
论著
•
方法学研究
GRADE指南:Ⅰ.导论——GRADE证据概要表
和结果总结表△
GRADEGuidelines:uctiontoGRADEEvidenceProfiles
andSummaryofFindingsTables△
GordonGuyatt,,ElieAkl,ReginaKunz,GunnVist,JanBrozek,
SusanNorris,YngveFalck-Ytter,PaulGlasziou,HansdeBeer,RomanJaeschke,
DavidRind,JoergMeerpohl,PhilippDahm,ünemann,
代表GRADE工作组*
摘要本文是GRADE(GradingofRecommendationsAsssment,Development,andEvaluation)系列文章的导
论。该系列文章为使用GRADE系统提供指导,介绍如何将该系统用于系统评价、卫生技术评估(HTAs)及临床实
践指南中备选方案的证据质量评价和推荐强度评级。GRADE方法始于提出一个明晰的问题,包括对所有重要结
果的详细说明。证据被收集和汇总后,GRADE提供了明确的标准来评价其质量,包括研究设计、偏倚风险、不精
确性、不一致性、间接性及效应量大小。
根据支撑证据质量及备选方案带来的预期和非预期结果间的平衡情况,推荐强度以强/弱(或表述为“有条件
的”/“任意的”)作为特征。GRADE建议用简洁、透明、信息量丰富的结果总结表来汇总证据(以显示证据质量及
每一重要结果的相对效应量和绝对效应量),和(或)以证据概要表形式额外提供证据质量评价理由的详细信息。
本系列的后续文章涉及如何采用GRADE方法明确构建问题、评价证据质量及形成推荐意见。
关键词GRADE;系统评价;临床实践指南;卫生技术评估;证据质量;推荐强度
1引言
作为介绍用于证据质量评价及推荐强度评级的
GRADE(GradingofRecommendationsAsssment,
Development,andEvaluation)方法系列文章的第
一篇,我们将简要概述什么是GRADE以及形成推
要点
•GRADE为卫生保健的系统评价及推荐意见提
供了一种总结证据并呈现结果的透明化结构化
方法,包括证据质量。
•GRADE为指南制定者提供了综合透明的框架
来实施形成推荐意见的各相关步骤。
•不论证据质量好坏,使用GRADE方法都恰当
且有帮助。
•尽管GRADE系统以一种系统透明的方式判断
证据质量及推荐强度,但仍不排除对不可避免
的主观判断的需要。
荐意见的GRADE过程,并展示GRADE证据总结
的最终结果:证据概要表(evidenceprofile,EP)和
结果总结表(thesummaryoffindingstable,SoFsta-
ble)。此外,我们还将给出对GRADE局限性的看法,
提出我们关于本系列文章的计划。
2什么是GRADE?
GRADE为系统评价和指南提供了一个证据质
量评价的体系,同时为指南中的推荐强度评级提供
了一种系统方法。该体系是为用以检测备选管理策
略或干预措施的系统评价和指南而设计,而这些备
选策略或干预措施可能没有任何干预,也可能有当
前最佳管理方案。开发GRADE时,我们考虑了广
泛的临床问题,包括诊断、筛检、预防及治疗。本系
列文章的大多数例子均为临床实例,但同样可用于
公共卫生和卫生体系方面的问题。
GRADE远非仅是一种评级系统,它为卫生保
健领域的系统评价和指南总结证据,并呈现其结果
及实施形成推荐意见的各个步骤,提供了一种透
明的结构化方法。GRADE详细说明了用一种方法
来构建问题,选择感兴趣的结局指标并评定其重要
性,评价证据,并将证据与对患者和社会两者的价
△原文见JClinEpidemiol.2011,64(4):383-943
*GRADE系统由GRADE工作组开发。所列作者撰写并修订了该文
章。在JournalofClinicalEpidemiology的网站上有该系列文章所有贡
献者的名录。
ChinJEvid-badMed2011,11(4):437-445
•438•
CJEBM
©2011EditorialBoardofChinJEvid-badMed
Methodology
值观和偏好的考虑相结合,以形成最终推荐意见,
还为临床医生和患者在临床实践中使用推荐意见,
以及为决策者制定卫生政策时应用该系统提供指
导。
通常,对指南的定义是“系统制定出来的文本,
用以支持执业者及患者在特定临床环境下对某卫生
保健问题作出恰当的决策”[1]。本系列文章将全面
描述制定指南及其它类似指导性文件时所采用的
GRADE综合方法。
GRADE方法的最佳应用有赖于就备选方案对
患者所有重要结局的影响进行系统评价。将来,随
着专业学会(如美国医师学会)、国家指南制定与卫
生技术评估机构(如英国国家卫生与临床卓越研究
所)、出版商(如BMJ)、出版物(如UpToDate)及国
际组织(如世界卫生组织、Cochrane协作网)集成资
源,高质量证据总结将变得越来越可及。因此,生产
当地所需推荐意见的指南制定专家组仅依靠有限资
源,也可用GRADE方法制定出高质量的指南[2]。
3本系列文章的目的
GRADE系列文章对以下三类人群最有用:一
是系统评价作者,二是卫生技术评估小组,三是指
南制定者。对系统评价和指南,GRADE建议评价
其证据质量的方法有所不同。根据指派给他们的任
务,卫生技术评估小组可决定采用哪种方法更切合
其目的。
不论相关证据质量高低,GRADE方法均能适
用。因此,所有致力于系统评价和卫生技术评估的
人员或指南制定小组成员,都会发现本系列文章有
益。系统评价和指南用户及批评者想要更深入地领
会所用证据及推荐意见,同样会发现本系列文章的
用处。
本系列文章将在系统评价和指南制定的全过程
中提供“怎样做”的指导,并利用实例解释相关概
念。我们不会从宽泛的GRADE概述开始,而是假
定读者们都已熟悉这些基本知识。对这些基本知识
不熟悉的读者,可从阅读该方法的简要概述着手[3]。
希望对GRADE整体有更详细了解的读者,可先细
读之前发表的有关GRADE方法的所有文章[4-9]。最
后,本系列文章的补充资料包括GRADE计算机软
件(GRADEpro)[10]及所附的帮助文件[11],该文件
有助于证据概要表和结果总结表的制作。
4GRADE步骤——定义问题、收集证据
制定推荐意见的GRADE步骤示意图见图1。
其中,无阴影的框是系统评价和指南制定通用的步
骤,有阴影的框专门针对指南。先从定义问题开始,
包括人群、备选方案(干预措施,可以是试验性的
或作为对照的,也可以是标准治疗方案)及患者的
所有重要结局(此例中是4种)[12]。对于指南,还需
将结局分为关键性的(图中的两项结局)或重要但
不是关键性的(2项结局)两类。系统检索纳入相关
研究(本图展示纳入了5项这样的研究)。
系统评价或指南作者利用一系列合格的单个研
究的数据得出每一患者重要结局的一个最佳效应
估计值及该估计值的不确定性指标(通常为可信区
间,CI)。
5GRADE步骤——证据质量评级
GRADE方法中,随机对照试验(RCTs)开始被
定为支持干预效果估计的高质量证据,观察性研究
定为低质量证据,五种因素可导致证据质量下降,
三种因素则可提升证据质量(图2)。最终,每一结
局相应的证据质量归属于从高到极低的四类之一。
决定推荐的方向(支持/反对)及分级强
度(强/弱*),考虑:
.证据质量
.利弊结果的平衡
.价值观与偏好
决定是否需修订方向或强度,考虑:
.资源使用
卫生保健问题(PICO)
系统评价
研究1研究5研究4研究3研究2
结果4结果3结果1结果2
形成对每个结果的效应估计
对每个结果进行证据质量分级,横贯各研究
RCT起始于高级别,观察性研究起始于低级别
降低级别:
.研究局限
.不精确
.结果不一致
.间接证据
.可能的发表偏倚
升高级别:
.效应量大
.剂量反应
.混杂因素使效应降到最低
每个结果最终以高、中、低或极低分级
证据总体质量评级
(关键结果中的最低质量)
研究
结果
重要结果关键结果
图1形成推荐的GRADE过程原理图
*也称为“有条件的”或“任意的”;RCT:随机对照试验
中国循证医学杂志
2011,11(4):437
~
445
•439•
©2011
中国循证医学杂志编辑部
CJEBM
论著
•
方法学研究
系统评价和指南作者用这种方法来评价所有研
究的每个结局指标的证据质量(即证据群的质量),
但并不意味着将每个研究作为单个单位进行评价。
相反,GRADE“以结果为中心”对每一结果作出评
价,而单个研究的不同结果间及证据群的不同结果
间的质量确实不同或可能不同。
如测量中风发生率和全死因死亡率的一系列非
盲随机对照试验,中风结局很可能因偏倚风险而会
降低评级——对中风的判断更易发生偏倚,而全死
因死亡率则不会。同样,随访丢失病人极少的死亡结
果及丢失很多的生存质量结果很可能导致对后一结
局作出质量更低的判断。在某一研究内或不同研究
间,间接性问题可能会导致对某一结果的质量评价
降低而对其他结果的评价不变,如当骨折率用替代
结局指标(如骨密度)测量而副作用是直接测量时。
6GRADE步骤——分级推荐
接下来,指南制定者(而非系统评价员)综合所
有信息做出最终判定,得出哪些结局是关键性的,
哪些结局是重要(而非关键性)的,然后做出证据
总体质量级别的最终决策。
撰写指南(而非系统评价)的作者还要考虑推
荐的方向及强度。期待和不期待结果间的平衡及患
者价值观与偏好等因素决定推荐的方向,再将所有
这些因素与证据质量相结合来决定推荐的强度。将
备选方案的资源利用情况纳入考虑后,原来的推荐
方向及强度可能被修正。
7GRADE步骤的最后一步
研究设计证据质量降低,假如升高,假如
随机试验
•
高
•
偏倚风险
–1
严重
–2
非常严重
•
不一致性
–1
严重
–2
非常严重
•
间接性
–1
严重
–2
非常严重
•不精确性
–1严重
–2非常严重
•发表偏倚
–1可能
–2非常可能
•
效应量大
+1
大
+2
非常大
•
剂量反应
+1
梯度证据
•
所有可能的混杂因素
+1
降低所展示的效应
+1
当研究结果显示无
效时意味着是一种假
效应
•
中
观察性研究
•
低
•极低
图2质量评价标准
系统评价和严格基于证据报告的卫生技术评估
的最后一步是证据总结,即对每一结局的质量分级
及效应量估计。就指南制定者及为决策者提供建议
的卫生技术评估报告而言,证据总结是通向推荐意
见的关键一步。
GRADE工作组已开发出一套专门方法来呈现
可得证据的质量、与质量评级有关的判断及备选方
案对所关注结局的影响。现在我们将总结这些方
法,并称这些方法为GRADE证据概要表和结果总
结表。我们采用“倒叙”的方法来组织本系列文章:
先介绍证据总结过程的结论,再详细描述得出最终
结论之前所需的每一个步骤。
8证据概要表与结果总结表有何区别?
证据概要表(见表1)除有结果总结表的内容外
还包含了详细的质量评价,即除有对每个结局的结
果总结外,还包含了对决定证据质量的每个因素的
清晰评价(见图2)。结果总结表(见表2)包含了对
每个结局的证据质量评价,但没有该评价所依托的
详细评判信息。
证据概要表和结果总结表分别服务于不同的
目的并为不同使用对象而设。证据概要表提供了系
统评价或指南作者所作判断的每个记录。它为系统
评价作者、结果总结表制作者及那些质疑评价质量
的人而准备,有助于结果总结表制作者确保其所作
出的判断系统透明,同时允许其他人来检查那些判
断。指南制定委员会成员应使用证据概要表来确保
他们对那些作为质量评价基础的判断达成一致意
见,并建立起记录于结果总结表中的相关判断。
ChinJEvid-badMed2011,11(4):437-445
•440•
CJEBM
©2011EditorialBoardofChinJEvid-badMed
Methodology
表2抗生素治疗儿童急性中耳炎的结果总结表
抗生素与安慰剂比较治疗儿童急性中耳炎
病人或人群:急性中耳炎患儿
背景:高、中收入国家
干预:抗生素
对照:安慰剂
结局指标
危险估计值(95%CI)
相对效应
[RR(95%CI)]
受试者人数
(研究数)
证据质量
(
GRADE
)
备注
对照危险*
(安慰剂)
(每千人)
干预危险
(抗生素)
(每千人)
24小时疼痛367330(286-382)0.9(0.78
,
1.04)1229(5)++++
高
–
2~7天疼痛257185(159-213)0.72(0.62
,
0.83)2791(10)++++
高
–
听力(从1个月异常鼓室
图这一替代结果推断)
350311(262-375)0.89(0.75
,
1.07)927(4)+++
中
#–
听力(从3个月异常鼓室
图这一替代结果推断)
234227(178-290)0.97(0.76
,
1.24)808(3)+++
中
#呕吐、腹泻或皮疹
113156(123-199)1.38(1.09
,
1.76)1401(5)+++
中△
理想情况下,来自相同年龄及药
物剂量的中耳炎试验(未获得)的
证据可能提高证据质量
CI:可信区间,RR:危险比
*对照危险基于各研究对照组的危险中位数。干预危险(及其95%CI)基于对照组中的对照危险及干预的相对效应(及其95%CI);
#因结果来自替代指标,为间接结果
△通常,GRADE标准会因相对效应的不一致性(此例中不存在)而降低证据级别,而此处的不一致是因绝对效应区间变动过大(介于
1%~56%之间)。下列因素解释了为何决定降低评级:抗生素间存在的可能变异以及绝大多数不良事件来源于某单个试验。考虑来源于探
讨儿童使用抗生素的其他试验(未开展)的间接证据将可能进一步为该问题提供信息。
表1抗生素治疗儿童急性中耳炎的GRADE证据概要表
质量评价结果总结
研究数量及
设计
局限性
不一致性间接性
不精
确性
发表
偏倚
病例数
相对危险度
(
95%CI
)
绝对危险
质量
安慰剂组抗生素组
对照组
危险度*
危险度差
(
95%CI
)
24
小时疼痛:
5
个
RCT
无严重
局限
无严重不
一致性
无严重
间接性
无严重
不精确
性
未发现
241/605223/6240.9
(
0.78
,
1.04
)
367/1 000
无统计学
意义
++++
高
2
~
7
天疼痛:
10
个
RCT
无严重
局限
无严重不
一致性
无严重
间接性
无严重
不精确
性
未发现
303/1 366228/1 4250.72
(
0.62
,
0.83
)
257/1 000
低于
72/1 000
(
44
,
98
)
++++
高
听力(从
1
个
月异常鼓室
图这一替代
结果推断):
4
个
RCT
无严重
局限
无严重不
一致性
有严重
间接性
(因结果
的间接
性)
无严重
不精确
性
未发现
168/460153/4670.89
(
0.75
,
1.07
)
350/1 000
无统计学
意义
+++
中
听力(从
3
个
月异常鼓室
图这一替代
结果推断):
3
个
RCT
无严重
局限
无严重不
一致性
有严重
间接性
(因结果
的间接
性)
无严重
不精确
性
未发现
96/39896/4100.97
(
0.76
,
1.24
)
234/1 000
无统计学
意义
+++
中
呕吐、腹泻
或皮疹:
5
个
RCT
无严重
局限
严重不一
致(因绝
对效应不
一致)
无严重
间接性
无严重
不精确
性
未发现
83/711110/6901.38
(
1.09
,
1.76
)
113/1 000
高于
43/1 000
(
10
,
86
)
+++
中
*对照组率基于各研究对照组的危险中位数;RCT:随机对照试验;CI:可信区间;RR:危险比。
结果总结表针对的对象更广,包括系统评价及
指南的终端用户。它为决策者提供了其所需关键信
息的简明总结,对指南而言,则提供了推荐意见所
基于关键信息的总结。GRADEpro计算机软件使证
中国循证医学杂志
2011,11(4):437
~
445
•441•
©2011
中国循证医学杂志编辑部
CJEBM
论著
•
方法学研究
据概要表和结果总结表的制作过程更容易[10]。
9一个推荐意见可能需要不止一个系统评价
图1说明了必须针对每一患者重要结局进行证
据总结——最理想地,这种总结应来源于制作最
规范的系统评价。每对方案的比较都应将所有结局
呈现于一个证据概要表或结果总结表里。与某卫生
保健问题相关的所有研究很可能不能提供关于每一
结果的证据。如图1显示,第一个研究为第一和第
二个结果提供了证据,第二个研究为前三个结果提
供了证据等。确实,为某一结果提供证据及为另一
结果提供证据的不同研究间可能不会有重叠。如,
RCT可能提供效益方面的证据,观察性研究则可能
提供罕见、严重不良反应方面的证据。
由于大多数已有系统评价未能充分探讨所有相
关结果(如很多仅限于RCT),GRADE过程可能需
要基于不止一个系统评价。理想地,今后的系统评
价将对某一相关问题的所有重要结果进行广泛的证
据总结。
10某单个系统评价可能需要不止一个结果
总结表
系统评价往往不止于着眼于一对比较,可能需
在两个完全不同的人群间评估某一干预,或评估不
止一种干预的效果。这类系统评价可能需要不止一
个结果总结表。如一个流感疫苗的系统评价,它可能
在不同人群中评价预防接种效果(如社区居民和机
构养老的老年患者),或评价不同种类疫苗的效果。
11证据概要表的例子
表1给出了一个高、中收入国家中耳炎患儿使
用抗生素利弊的GRADE证据概要表的实例。该表
中最难作出的是关于抗生素不良反应证据质量的评
判。从相对性指标来看,各试验显示的不良反应增
加相当一致,但各试验不良反应率却相差甚远(从
1%到56%)。而从这些试验以外的证据看,我们知
道不同药物的不良反应有差异(阿莫西林比青霉素
的不良反应多)。此外,使不良反应率增加的大多
数事件均来自某单个试验,且其在所有纳入试验中
偏倚风险最高。研究者发现,理想状态下他们可从
那些所使用药物剂量及患者年龄都相似的非中耳炎
试验中总结不良反应。最后,基于绝对效应不一致
的情况,研究者决定将质量等级从高(开始将其定
为高级是因为证据来自随机试验)降到中等级别。
研究者在评价不良反应证据质量时面临的两难
境地所突显的两个主题将重复地贯穿于本系列文章
中。首先,对评价证据时所需的很多结论性判断而
言,合格评价员之间意见不一致很常见。GRADE
允许争论存在,决策者可以就相关问题作出自己的
判断。
第二,GRADE要求系统评价作者和指南制定
者考虑用若干分级来评价证据质量,且基于每一分
级,下降或上调证据等级(见图2)。但若严格按照
这种方法实施则会忽略了这样的事实,即质量实际
上是连续的,且各分级局限性的叠加最终将促使降
低质量评级。最后,GRADE要求那些决定将质量级
别降低一级的作者指出最能影响其决定的某一原因
分类(本案例中即为绝对效应的不一致性),同时记
录好(见上一段落及表1、表2的注释)所有可能导
致降低质量评级的因素。
这些陈述及证据概要表(见表1)与结果总结表
(见表2)阐释了另一要点:尽管我们推荐基于预试、
用户测试及评价[13-16]的这种标准格式,对不同对
象,其他格式可能更合适。确实,本文中我们所提
供的证据概要表和结果总结表中,栏目顺序和绝对
风险表述有所不同。
我们将在随后的文章中继续介绍这些表格不同
格式的实例。对证据概要表和结果总结表,需要权
衡一贯性原则与变通性之间的关系。一贯性可使其
使用更容易,而变通性可针对特定读者或证据的某
些特性,如省略一些质量评价条目列,或以不同方
式展示结果。此外,关注连续性变量及那些探讨诊
断性问题的证据概要表和结果总结表可能要求不同
的格式。最后,迄今为止实施的用户测试有限,进
一步的测试可能得出不同的结果。
总之,我们建议一些条目应该包括在所有的证
据总结里。如所有证据概要表应有一行来描述每一
患者重要结局。典型地,每行应包含下列各栏:研
究个数与研究对象数、研究设计(随机试验或观察
性研究)、决定证据质量的相关因素(见图2)、对该
结局的总体质量评价(高、中、低或极低)及对干预
相对和绝对效应的估计。
12结果总结表(SoFs表)的例子
表2展示的是结果总结表,该表以我们基于预
试、用户测试及评价[10,12,13]而推荐的格式制作。结
果总结表和证据概要表中术语的解释见附录。
除省略了质量评价的细节描述而增加了评论
一栏外,SoFs表所呈现的信息与完整的证据概要表
所提供的相同。栏目排列的逻辑顺序代表了其重要
ChinJEvid-badMed2011,11(4):437-445
•442•
CJEBM
©2011EditorialBoardofChinJEvid-badMed
Methodology
性——最重要者放第一栏,次重要者随后。除栏目
顺序不同外,SoFs表(见表2)还描述了干预组和对
照组的绝对风险,且提供了干预组率的可信区间,
而证据概要表(表1)则描述了率差及其可信区间。
此外,对绝对风险差异无统计学意义的结果(如由
替代结果鼓室图检查推断的听力),证据概要表仅
标注了其结果无统计学意义,而SoFs表则提供了
干预事件率的可信区间。
SoFs表所建议的格式体现了简洁性(让广大读
者尽可能容易地理解相关信息)与完整性(使信息
及蕴含的判断尽可能透明)的平衡。使用这种格式
时,仍须判断需呈现哪些信息(如哪些结局和哪一
级风险)及如何表达这些信息(如如何表述连续性
结果)。如我们曾指出的,虽然我们鼓励使用这种
或类似格式,准备SoFs表的人应考虑他们的目标
读者和蕴含证据的特征来决定采用哪种最佳格式。
GRADEpro软件的升级版将为证据概要表和SoFs
表的制作增加一些附加选项来体现这一灵活性[10]。
13GRADE修订版
一些组织已经在使用GRADE修订版。我们不
推荐这类修订版本,因为GRADE各步骤间环环相
扣,修订会让一些使用者混淆证据总结与指南。此
外,这些修订会影响临床医生、决策者和患者熟悉
GRADE单个系统的目标。
14GRADE的局限性
欲使用GRADE者应考虑该系统的5个重要局
限。首先,如前所述,GRADE是为解决有关备选管
理策略、干预措施或政策法规的问题而开发,不是
为风险或预后问题而设计,尽管风险或预后相关证
据可能与干预措施效应量大小的估计有关,或可能
为连接替代结果与患者重要结果提供间接证据。
其次,试图将GRADE用于定义不清楚的一类
推荐意见(即所谓“老调常谈”或“良好实践规范”)
会有问题。指南制定委员会可能希望对反映临床环
境或卫生保健体系中基础和标准的操作程序提出推
荐意见,如病史采集及体格检查、帮助病人知情决
策、获得知情同意书或良好交流的重要性等。但这
类定义不清楚的推荐可能毫无价值,或即使有点作
用,也不可能是对证据质量和推荐强度评价的有用
实践。其它推荐可能与这类所谓“良好实践规范”
混淆,而确实需要质量评价以择优汰劣。
无帮助的推荐包括那些太模糊以致难以实施者
(例如“全面采集病史”或“完成详尽的体格检查”)。
对此类推荐的一些解释可能导致低效甚或适得其反
的行为。只有当推荐意见具体且可行时指南专家委
员会才应发布。
可能有用但不需评级的推荐通常属于下面的一
类:其有利影响非常明显地大于其不利影响以致找
不到直接证据,因为没有人会愚蠢到去开展针对此
类隐含临床问题的研究。通常,这类推荐由大量间
接证据支持,但要梳理清这一间接证据的性质将是
有挑战性且费时费力的。认识此类问题的方法之一
是,如明晰地作出另一种推荐则看起来会很奇怪或
可笑。
程序意识可能已牢固地植根于标准临床实践
中,实际上公正地看,利弊结果间的平衡仍存在合
理的质疑,但指南专家委员会仍倾向于将其看作是
良好实践推荐。这类推荐应经历正式的证据质量评
价及推荐强度评级。无用的良好实践推荐、有用的
良好实践推荐,及那些可能与良好实践推荐相混淆
但需要证据质量评价和推荐强度评级的推荐的实例
见表3。
第三,如图3所示,指南制定需多个步骤,在
这些步骤之前及之后GRADE系统均适用。对系统
评价作者和指南制定者而言,重要的是明白指南制
定全过程中哪些地方应加入GRADE,及到其他地
方寻找其他步骤的相关指南[17,18]。我们将在随后的
文章中,就如何将GRADE系统最佳地应用于那些
其他步骤之间提供我们的观点。
第四,迄今,绝大多数有关GRADE的经验都
是预防及治疗性干预的评价,讨论的是临床问题而
非公共卫生和卫生体系方面的问题。欲将GRADE
应用到诊断性试验、公共卫生或卫生体系方面的问
题将会遇到一些特殊的挑战[8,19]。我们将在随后的
文章中论及这些挑战,尤其是与诊断性试验有关
者。深知GRADE方法的完善及不确定性领域问题
的处理仍留有大量工作,GRADE工作组继续着常规
性会晤,且不断地欢迎新成员加入到这一讨论中。
最后一点,GRADE会使一些人失望,这些人希
望有这样一种框架,可以在解释证据及选择最佳行
动方案时消除分歧。尽管GRADE系统使对证据质
量和推荐强度的判断更系统透明,但仍未能消除对
判断的需要。
15续文情况
本系列下一篇文章将描述构建问题及确定重要
结果的GRADE方法,所构建的问题是系统评价或
指南所探讨的。再后面的文章将详细讨论制作如表
中国循证医学杂志
2011,11(4):437
~
445
•443•
©2011
中国循证医学杂志编辑部
CJEBM
论著
•
方法学研究
表
3
实
例
:
最
佳
实
践
陈
述
与
可
能
同
老
调
常
谈
混
淆
的
陈
述
无
用
的
推
荐
解
释
可
能
有
用
而
不
需
分
级
的
推
荐
解
释
需
要
分
级
的
推
荐
解
释
对
慢
性
心
衰
患
者
进
行
仔
细
详
尽
的
病
史
采
集
并
开
展
临
床
检
查
“
仔
细
详
尽
的
病
史
”
既
不
明
确
也
不
可
行
心
衰
患
者
需
初
步
评
估
其
常
规/
意
愿
日
常
生
活
活
动
能
力
(
证
据
水
平
:
C
)
备
选
的
:
不
包
括
确
定
日
常
活
动
能
力
的
初
步
评
估
不
可
信
高
血
压
患
者
体
格
检
查
应
包
括
颈
动
脉
、
腹
动
脉
和
股
动
脉
杂
音
的
听
诊
这
个
建
议
明
确
,
但
会
浪
费
时
间
,
或
可
能
因
阳
性
结
果
而
导
致
徒
劳
而
耗
资
的
调
查
研
究
高
血
压
患
者
体
格
检
查
应
包
括
正
确
的
血
压
测
量
,
并
用
对
侧
手
臂
核
实
“
正
确
的
血
压
测
量
”
,
作
者
的
确
切
所
指
不
明
确
应
当
向
孕
妇
提
供
循
证
信
息
,
并
支
持
她
们
能
够
对
其
照
护
进
行
知
证
决
策
,
包
括
她
们
在
哪
里
看
医
生
以
及
谁
负
责
对
她
们
的
照
护
(
证
据
水
平
:
C
)
许
多
人
会
认
为
不
提
供
这
些
信
息
的
推
荐
有
违
照
护
的
基
本
标
准
单
纤
维
丝
检
测
糖
尿
病
患
者
一
次
不
能
超
过
1
0
个
,
需
要
在
两
次
检
查
间
至
少
留
下
2
4
小
时
进
行
(
压
弯
强
度
)
恢
复
(
证
据
水
平
:
C
)
如
果
支
持
该
推
荐
的
证
据
质
量
非
常
低
,
临
床
医
生
应
明
白
这
一
点
,
该
推
荐
应
为
弱
推
荐
所
有
患
者
都
要
经
过
体
格
检
查
以
确
定
医
院
获
得
性
肺
炎
的
严
重
程
度
,
排
除
其
他
潜
在
感
染
源
,
揭
示
影
响
病
原
体
感
染
可
能
性
的
特
定
因
素
(
水
平
Ⅱ
)
揭
示
会
影
响
病
原
体
感
染
可
能
性
因
素
所
需
的
“
体
格
检
查
”
的
要
素
不
确
定
常
规
记
录
精
神
分
裂
症
患
者
在
护
理
计
划
期
间
的
日
间
活
动
,
包
括
职
业
结
局
不
记
录
这
些
活
动
的
推
荐
不
可
信
前
驱
糖
尿
病
患
者
需
每
年
监
测
其
糖
尿
病
发
展
情
况
(
证
据
水
平
:E
)
备
选
推
荐
应
详
细
说
明
(
是
更
频
繁
,
次
频
繁
,
还
是
根
本
没
有
?
)
。
详
细
说
明
之
可
使
正
式
分
级
符
合
预
期
这
一
点
变
得
更
明
晰
对
癫
痫
患
者
应
该
进
行
合
适
的
体
格
检
查
(
包
括
心
脏
、
神
经
和
精
神
状
况
)
及
发
育
评
估
(
证
据
等
级
:
C
)
尚
不
清
楚
使
体
格
检
查
的
某
些
特
定
方
面
或
发
育
评
估
变
得
适
当
的
具
体
因
素
与
精
神
分
裂
症
看
护
人
一
起
工
作
:
提
供
有
关
精
神
分
裂
症
及
其
管
理
的
书
面/
口
头
信
息
,
包
括
各
治
疗
阶
段
家
属/
看
护
人
如
何
提
供
帮
助
虽
然
可
批
准
开
展
特
定
教
育
项
目
的
随
机
试
验
,
但
不
包
括
此
处
描
述
的
基
本
信
息
的
试
验
是
不
能
接
受
的
达
到
治
疗
目
标
的
糖
尿
病
患
者
(
以
及
血
糖
控
制
稳
定
者
)
每
年
至
少
进
行
2
次
A
1
C
试
验
备
选
推
荐
应
详
细
说
明
(
是
更
频
繁
,
次
频
繁
,
还
是
根
本
没
有
?
)
。
详
细
说
明
之
可
使
正
式
分
级
符
合
预
期
这
一
点
变
得
更
明
晰
卫
生
保
健
专
业
人
员
要
促
使
患
者
尽
快
得
到
评
估/
治
疗
,
并
促
进
照
护
各
阶
段
尽
早
获
得
服
务
未
明
确
说
明
“
促
使
获
得
”
所
需
的
特
定
行
动
,
从
而
概
念
模
糊
1、表2所示的证据概要表和结果总结表所需的决
策。然后探讨有关诊断性试验、资源利用及从证据
到推荐过程的特殊挑战。本系列文章将以对指南专
家委员会应用GRADE的有关问题的评论作为结尾。
参考文献
1FieldM,alpracticeguidelines:directionsforanew
gton,DC:NationalAcademicPress;1990.
2SchunemannHJ,WoodheadM,AnzuetoA,nstate-
mentonguidelinedevelopmentforrespiratorydia:theexample
,2009,373:774-779.
优选问题
组建系统评价团队和/或指南专家组
定义要解决的问题
GRADE
查找和严格评价系统评价a和/或准备系统评价
计划书和准备系统评价(检索,选择相关研究,
数据收集与分析)*
(再)评价结果的相对重要性
准备证据概要表,包括每个结果的证据质量评价
和结果总结
如果制定指南:评价证据总体质量和决定推荐的
方向(备选)和强度
起草系统评价或指南
咨询利益相关者和/或外部同行评审专家
发表系统评价或指南
必要时更新系统评价或指南
如需要,改编指南
优选付诸实施的推荐
实施或支持实施指南
评估指南和实施策略的效果
更新系统评价和指南
图3指南制定过程中GRADE在何处
*实施与评价系统评价的某些方面很清晰地属于GRADE过
程,而其他方面不是。与GRADE特别相关的是定义问题;尤其
相关的是定义结果,包括选择最重要结果、详述用以解释可能的
异质性的事先假设、以及对结果的解释,尤其是得出绝对效应的
估计及解释亚组分析结果。
ChinJEvid-badMed2011,11(4):437-445
•444•
CJEBM
©2011EditorialBoardofChinJEvid-badMed
Methodology
附录SoFs表(表2)和EPs(表1)的解释
表中的例子解释
结果结果
表格为决策者提供了最重要结果的发现,包括潜在利弊,无论纳入研究是否为这些结果提供了数据。其
他发现可能在综述的其他地方报道。
绝对危险绝对危险
危险指某一结果出现的概率。
SoF
表的估计危险栏展示了对对照组危险(证据概要表中的对照危险)和
干预组危险(抗生素干预危险)的最佳估计,对干预组还提供了危险估计的可信区间。想知道绝对危险
差值或危险差值的可信区间者需要作减法。证据概要表中,危险差值是直接给出的。
185/1 000(159
~
213
)可信区间
可信区间是包含估计值的一个范围,传达了估计值准确性的信息。此例中,结果是干预危险(见下文)
的估计值。可信区间指示着我们对关注量(这里为真实的绝对效应)的把握度。可信区间越窄,我们对
真值的把握度越大;可信区间越宽,则对真值的把握度越小。可信区间的宽度反映了观察到的估计值可
能由机遇引起的程度(区间越宽,机遇影响越大)。
(
95%CI
)
95%
可信区间
如前面解释的,可信区间反映观察到的数值可能由机遇引起的程度。最简单地讲,
95%
可信区间指我们
有
95%
的把握确信效应真值介于可信区间的上下限之间(例如,表
2
中
2
~
7
天疼痛的相对效应(
0.62
,
0.83
)就是一个例子)。反之,效应真值在该范围之外的可能性为
5%
。
对照危险估计
257/1 000
对照危险估计(无干预)
对照危险估计(证据概要表中的对照率)是指在无干预情况下结果发生的标准概率。基于有代表性的人
群中观察事件发生率的研究是估计该率最理想的途径。或者,如果这种观察性研究不可得,可基于有对
照的研究中的对照组危险。如研究仅提供了单一的对照组危险,则该率往往是提供了该结果数据的所
有研究中对照组危险的中位数。
此例中(
2
~
7
天疼痛),每
1 000
人中有
257
人发生该事件,揭示了在一个典型的对照组人群中事件发
生的概率。如有关,表格将提供不止一个人群的信息,例如,当不同人群间存在重要差异的可能时,分
别提供危险高低不同人群的信息。
抗生素干预危险
185/1 000(159
~
213
)
干预危险
此例中,对照组估计危险为每
1 000
人中有
257
人发生该事件。在该人群中采取干预措施后将使干预组
危险变为每
1 000
人中有
185
人发生该事件,基于各研究结果的合并危险比(
RR
)。如表格对某结果提
供不止一个对照组危险,例如分别提供不同危险人群的对照组危险,则需要对每一人群提供干预危险。
干预效果的确定需要做减法。在证据概要表中已做。每
1 000
名经历
2
~
7
天疼痛的患儿中,干预可减
少
72
名患儿发生疼痛。
相对效应(
95%CI
)
RR0.72(0.62
~
0.83
)
相对效应或相对危险度(RR)
相对效应是比率,这里用RR表示。
危险是指某结果发生的可能性。RR是干预组危险与对照组危险的比率。如干预组危险是1%(10/1 000),
对照组危险是10%(100/1 000),则相对效应为10/100或0.1。
如RR正好为1,意味着干预组和对照组中结果的出现没有差别。RR=1很少见,RR大于或小于1的意
义取决于结果代表的是好还是坏。
如RR大于1,则干预增加结果发生的危险。如为良性结果(例如,生健康婴儿),RR大于1意味着干预
符合期望;相反,如结果是不良指标(例如,死亡),RR大于1意味着非期望的效应。
RR小于1,则干预降低结果发生的危险。如结果是不良指标(例如,死亡),则是期望的效应;如结果是
良性指标(例如,生健康婴儿),则是非期望的效应。
干预组水肿平均分数平均降低
4.7(95%可信区间–4.5
,–4.9
)
此例中没有出现平均分数(如出现,这就是将展示的结果)。
2 791(10个研究
)研究对象数(研究个数)
表格提供了各研究的研究对象总数(此例中是2 791)以及给出了该结果数据的研究个数(10)。反映了
针对该结果有多少证据。证据概要表包括了对照组(241/1 605)和干预组(223/1 624)事件发生数和患者
数的栏目。
证据质量
(GRADE)
证据质量
证据质量是对我们在多大程度上可以确信估计效应正确的一种判断。通过采用GRADE系统对每一结
果作出这些判断。这些判断基于研究设计类型(随机试验vs.观察性研究)、偏倚风险、各研究间结果的
一致性,以及各研究总体估计效应的精确性。对每一结果,证据质量被评为高、中、低或极低。
空白区表示信息不相关。
有阴影栏的危险与相对效应间有何区别?
干预效应可以通过比较对照组危险与干预组危险来描述。这样的比较可以不同方式进行。
比较两种危险的方式之一是计算危险差值。这是绝对效应。该绝对效应可以从SoFs表中通过计算有阴
影栏目中的数值——左边的对照组对照危险与右边的干预组干预危险间的差值而得到。证据概要表已
计算出了该差值。
这是一个例子:考虑一患糖尿病超过5年的患者变盲的危险,如在一组常规治疗的病人中该危险是
20/1 000(2%),而在用某新药治疗的一组病人中该危险为10/1 000(1%),则绝对效应为对照组率减去
干预组率,即2%–1%=1%。以这种方式表示即可以说,新药降低了1%的5年致盲危险(绝对效应即每
1 000人减少10个)。
另一种方式是计算两个危险的比值。基于上述数据,相对效应通过计算两种危险的比值得到,即干预组
危险除以对照组危险:1%÷2%=1/2(0.50)。以这种方式表述,即“相对效应”,新药的5年致盲危险是常
规药物的一半。
在此,表中以千分率而不是百分比展示危险强度,由于这样更容易理解。只要可能,表格用RR来展示
相对效应。
通常,绝对效应在高和低危险人群组间有差别,而相对效应往往相同。因此,只要有关该问题,GRADE
表格将不同危险水平的人群的危险分别报告。
中国循证医学杂志
2011,11(4):437
~
445
•445•
©2011
中国循证医学杂志编辑部
CJEBM
论著
•
方法学研究
3GuyattG,VistG,Falck-YtterY,gingconnsuson
gradingrecommendations?ACPJClub,2006,144(1):A8-9.
4GuyattGH,OxmanAD,KunzR,oratingconsiderations
,2008,336:
1170-1173.
5GuyattGH,OxmanAD,VistGE,:anemergingcon-
nsusonratingqualityofevidenceandstrengthofrecommenda-
,2008,336:924-926.
6GuyattGH,OxmanAD,KunzR,‘‘qualityofevidence’’
andwhyisitimportanttoclinicians?BMJ,2008,336:995-998.
7GuyattGH,OxmanAD,KunzR,romevidencetorec-
,2008,336:1049-1051.
8SchunemannHJ,OxmanAD,BrozekJ,gqualityof
evidenceandstrengthofrecommendationsfordiagnostictestsand
,2008,336:1106-1110.
9JaeschkeR,GuyattGH,DellingerP,RADEgridto
reachdecisionsonclinicalpracticeguidelineswhenconnsusis
,2008,337:a744.
10BrozekJ,OxmanA,Sch€ro.[Computer
program].bleatmcmaster.
/?Page53993and/
revman/edOctober21,2010.
11SchünemannH,BrozekJ,GuyattG,andbookfor
gradingqualityofevidenceandstrengthofrecommendation;2010.
12OxmanAD,SackettDL,’guidestothemedi-
dence-BadMedicine
,1993,270:2093-2095.
13AklEA,MarounN,GuyattG,sweresuperiortonum-
bersforprentingstrengthofrecommendationstohealthcarecon-
sumers:pidemiol,2007,60:1298-1305.
sforgradingthequalityofevi-
denceandthestrengthofrecommendationsII:Pilotstudyofanew
lthServRes,2005,5:25.
15RonbaumSE,GlentonC,NylundHK,stingand
stakeholderfeedbackcontributedtothedevelopmentofunderstand-
ableandufulSummaryofFindingstablesforCochranereviews.J
ClinEpidemiol,2010,63:607-619.
16RonbaumS,GlentonC,tionofsummaryof
pidemiol,2009.
17SchunemannH,FretheimA,ingtheuof
rearchevidenceinguidelinedevelopment:inesforguide-
ResPolicySyst,2006,4:13.
18CochraneHandbookforSystematicReviewsofInterventionsVer-
sion5.0.0.[].
19SchünemannH,FretheimA,ingtheuofre-
archevidenceinguidelinedevelopment:gevidenceand
ResPolicySyst,2006,4:21.
李幼平总审校
杨晓妍蒋兰慧沈建通译
收稿日期:2011–03–25修回日期:2011–04–01
本文编辑:蔡羽嘉
本文发布于:2022-11-24 17:20:52,感谢您对本站的认可!
本文链接:http://www.wtabcd.cn/fanwen/fan/90/13195.html
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
留言与评论(共有 0 条评论) |