中国循证医学杂志2011,11(4):451~455RADE指南:III-EvidenceHowardBalshemarkHelfanda,HolgerJ.Schunemann,Andrewxman,ReginaKunz,JanBrozek,GunnE.st,YngveFalck—Ytter,7oergeerpohl,SusanNorrisGordonH.Guyatt摘要本义介绍证据质量分级法。GRADE将证据质量分为高低四个级别。该分级应用于证据群,而非针对个别研究。系统评价量反映了我们认为效应估计值正确的把握度。对推荐意了我们认为效应估计以支持某特定推荐的把握度。随机对照试验初定为高质量证据,观察性研究初定为低质量证据。GRADE中所使用的质量一词不只是意味着偏倚风险可能受研究结果的不精确性间接性,及发表偏倚的影响。此外,若干因素可增加我们的把握度。GRADE提供了一种因素。GRADEf1l推荐建议的过程分开。推荐强度的判断不仅依赖于证据质关键词质量评价;证据群;不精确性;间接性;不一致性;发表偏倚本系列前两篇文章中我们介绍GRADE,概述GRADE出推荐的全过证据概要表和结果总结表,描述了构建问题和确定结果的过程。
这是第三篇文章,我们将介绍证据质量分级的GRADE方法。目的是提供该方法的一个概念性介绍。更详细并附实例原文见,Clin印idemiol,20l,64(4):401—406.GRADE系统由GRADE工作组开发。所列作者撰写并修订了该文Clinical印idemiology杂志的网站上有该系列文章所有贡献者的名录通讯,Emaihbalshemh@ohsu.edu高证据质量因素的后续文章中提到论及证据质量,证据与意见及证据质量与推荐强度常常引起困惑。因此,我们从解释证据质量不包括什么开始。缺乏高质量证据时,临床医生必须寻找较低质量证据以指导其决策。在这种情况下,当指南制定“专家意见”作为一类证据时,困惑就形成推荐总是需要专家们的意见,专家意见基于诊治病人的经验,对生物学及其机制的理解,以及对临床前期、早期临床研究及随机对照试验与观察性研究结果的知识与理解。指南制定者应该总是让专家参与来帮助理解证据,同时他们必须揭示并说明专家意见的证据基础,对该证据进行质量分级不是对来自于证据及其解释之后现举一个实例来阐明证据与专家意见的区别假设参加医学生及住院医生的小组讨论两种断言及其所引用的支持证据见表用的证据完全是他的个人临床经验。
对意见自己的经验并参考了临床研究证据似乎有理由认为意见家意见证据严格控制血糖可以使病人感觉好多严格控制【II=【糖可以减少进展为肾脏疾病神经疾病及失明的长期风2O年单,我开始治疗新诊断糖尿病患者多次。我几乎总能看到这些病人开始治巾绝大多数说感觉比以前好多了。其至有个病人,她没有任何需抱怨的,也无相关症状,也回来说她的精力比以前好多了“我严格控制每位病人血糖,我认为他们都应得到最好的治疗,在这方lO年的病人糖水平很高且坚持按医嘱服药。这些病人也很少有并发症方面,也有很多控制_l=f『【糖很糟病人早期就已现并发症。另外,很多研究仔细的观察。如果述说乏力、多尿或其他症状的病人几天后回来说他们好些了,则开始进行治疗是最可能的解释。而没有述说的病人几天后回来说她有多么好的现象特别令人难忘。遗憾的是,对这些观察存在很多其他可能的解释。该内分泌专家对病人报告有利情况的程度这一印象可能不准确,他可能会忘了病情没有得到好转的病人,或病人的明显好由于疾病的自然史或安慰剂效应,问题出在临床医生方面或病人想取悦医生的愿望。最起码地如果没有用一个严格设计的结构化方法收集数据我们可以认为该内分泌专家对自己临床经验的报告而不是他自己对那一经验进行解释后而得是来源于无对照病例系列的证据,并将其划归的证据中所蕴含义不清的研究设计是一个前后对照研究,意见则为一个包含严重问题患者的平行对照研究。
如果该医生的记忆是准确在他的临床实践中,严格控制血糖的病人确实制血糖反映出其基础疾病的差异,而基础疾病与可能患的并发症高度相关。这种未经辨识的预后不平内分泌专家对事件记忆不可靠、不精确而造成偏倚的可能性会使我们再次把他的观察结果判定为极低质量证据并不一定意味着特定强度的推荐第二个困惑是区分质量评级与作推荐。本系列后面的文章将详细讨论GRADE方法用于确定推向与强度。在此,我们将强调把对证据群的质量评估过程从作出推荐的过程中明确地分离ff{来的重要性,而这些推荐部分是基于那些质量评估。虽然较之较低质量证据,较高质量证据更可能对应lI强推荐,但某特定质量等级的证据并不意味着特定强度的推荐。有时低或极低质量的证据仍可得推荐。例如,考虑用阿司林或对乙酰氨基酚治疗患水痘儿童的决策。观察性研究已观察到使用阿司匹氏综合症存在关联[8-11]。由于阿司匹林与对乙酰氨基酚的镇痛和退热作用相似,有关阿司匹林潜在危害的低质量证据并未妨碍对对乙酰氨基酚作出强推荐。同样地,高质量证据并不一定意味着强推荐例如,对首次出现没有明显刺激因素的深静脉血栓形成(DVT,在抗凝第一个月后患者必须决定是否继续长期服用华法林。
高质量随机对照试验表加出血风险和不便作为代价_l2。。由于不同价值观与偏好的患者可能作出不同的选择,指南委员会对患者是否应继续或终止使用华法林可能会提供弱推荐,尽管存在高质量证据。系统评价中的质量评价部分与指南制定过程中的质量评级区分开来。因此,我们提供了证据质量的两种定义GRADE最佳的运用要求系统评价备选管理方案对所有病人重要结局的影响。系统评价据质量分级反映的是我们认为效应估计值正确的把握程度。形成推荐时,质量分级反应估计值足以支持某决策或推荐的把握程度。不同定义的原因在于制作系统评价不包括作出严格推荐所需的过程。特别是,除非系统评价小组中包括这样的成员,他们将使用该系统评价作为指遵照推荐的有利或不利结果。利益相关者更适合去出这些判断。如上述DVT的例子,系统评价可提供有症状的血栓栓塞及出血的可靠效应量估计值及其可信区间,及与这两个事件相关的病死率,但系统评价员不能提供关于华法林治疗的获益是否值冒其风险的可靠判断。这样的判断还必须考虑价、费用及利益相关者的有关投入。另一方面,一个指南或应用系统评价证据出抗凝决策时必须评估证据质量。考虑到这方面的权衡,指南委员会必须决定是否推荐,这种决策需基于对有症状的血栓栓塞风险的影响及其效应估计的可信程度应严重出血风险估计及其可信程度。
虽然质量评估2olBord‘。Ch的过程一样,系统评价员及指南制定者将有区别地 使用这套标准。在本系列第五篇文章 中我们将着重 讨论这种标准运用上的不同 ,该文将涉及证据质量 分级的精确性评估 GRADE中的质量不仅意味着偏倚风 文献中使 的判断。要作分级 ,对对照试验而言 ,评价员考虑这样一些特 征如随机 、隐蔽分组 、肓法及意向治疗分析的运用。 对观察性研究 ,他们考虑恰 当地测量暴露与结局及 混杂。对对 考虑失访的问题 ,及设计 、实施 与分析中影响偏倚 风险的其他因素。 GRADE 判断不是针对单个研究而是针对证据 ,GRADE “质量”不仅意味着偏倚风险。证 如许多设计与实施 良好的试验 可能与低偏倚风险相联系,但我{IJX~效应评估的信心可能会因 其他 因素而降低 不精确、不一致 、间接性及发表 GRADE特别使用 的术语 “质量”与 “偏倚风险”( GRA DE 之前版本称为 “研究局限性 要求作者们在系统评价或指南 中描述其发现并进行推论时谨慎 使用 。实施 良好的研究可能作为被定为低质量证据 的一部分,因为这些研究仅 为所关心的问题提供 了间接或不精确的证据 。尽管临床流行病学家和其 他人已经赋予 一词其它意思 ,但我们相信此处更多地是指通常和非专业 GRADE将证据群的质量分 为四类 尽管证据质量是连续 的,GRADE 厅法最终将 证据群的质 量分为高 和极低四类。
这 四类 质量各 GRADE含义见表 ,并将当前定义与之前的定义作 了比较 [161。之前的定义侧重证据等级 对将来研究的意义 质量越低,则将来的研究越有 可能改变我 们对效应估 计的信心及效应估计值本 征受到批评,我们认为是合理 的,因为很多情况下我们不可能期待将来会有较高 质量的证据 。但我们也认为 ,当有理 由相信将可获 当我们谈到质量评价时,指的是对所有研究