grade指南__证据质量分级.pdf 5页

上网导航 2023-08-06 225 0条评论
摘要: grade指南__证据质量分级.pdf,论 著 • 方法学研究 2011, 11(4): 451 455 中国循证医学杂志 ~ △ GRADE指南:Ⅲ...

论 著 • 方法学研究2011, 11(4): 451 455 中国循证医学杂志~△ GRADE指南:Ⅲ. 证据质量分级 GRADE Guidelines: 3. Rating the Quality of Evidence△* Howard Balshem ,Mark Helfanda ,Holger J. Schunemann ,Andrew D. Oxman ,Regina Kunz ,Jan Brozek ,Gunn E. Vist ,Yngve Falck-Ytter ,Joerg Meerpohl ,Susan Norris , Gordon H. Guyatt ,代表GRADE工作组#摘要 本文介绍证据质量分级的 GRADE 方法。GRADE 将证据质量分为高、中、低和极低四个级别。该分级 应用于证据群,而非针对个别研究。系统评价中,质量反映了我们认为效应估计值正确的把握度。对推荐意见而 言,质量反映了我们认为效应估计值足以支持某特定推荐的把握度。随机对照试验初定为高质量证据,观察性研 究初定为低质量证据。GRADE 中所使用的质量一词不只是意味着偏倚风险,还可能受研究结果的不精确性、不 一致性和间接性,及发表偏倚的影响。

此外,若干因素可增加我们对效应估计值的把握度。GRADE 提供了一种系 统方法来思考并报告各因素。GRADE 将评估证据质量的过程与给出推荐建议的过程分开。推荐强度的判断不仅 依赖于证据质量。关键词 质量评价;证据群;不精确性;间接性;不一致性;发表偏倚高证据质量因素的后续文章中提到 [3-7]。要点•• GRADE 提供了一种评估质量的框架以鼓励2 证据质量不包括什么对作出的判断给出透明而明确的解释。论及证据质量,证据与意见及证据质量与推荐•• GRADE 将作为系统评价的一部分的质量评价强度常常引起困惑。因此,我们从解释证据质量不与作为指南制定的一部分的质量评级区分开包括什么开始。来。•• GRADE 最理想的运用要求系统评价备选策3 意见不是证据略对所有病人重要结果的影响。缺乏高质量证据时,临床医生必须寻找较低质•• 决策者、临床医生和病人们有必要了解研究量证据以指导其决策。在这种情况下,当指南制定的局限性、不精确性、不一致性、间接性以者将“专家意见”作为一类证据时,困惑就出现了。及发表偏倚的相关信息,以理解并相信质量形成推荐总是需要专家们的意见,专家意见基于诊评估及效应量的估计值。

治病人的经验,对生物学及其机制的理解,以及对临床前期、早期临床研究及随机对照试验与观察性 1 引言研究结果的知识与理解。指南制定者应该总是让专在本系列前两篇文章中我们介绍了 GRADE ,家参与来帮助理解证据,同时他们必须揭示并说明 概述了 GRADE 方法用于作出推荐的全过程及该过专家意见的证据基础,对该证据进行质量分级,而 程的最终产出——证据概要表和结果总结表(SoFs不是对来自于证据及其解释之后的专家意见进行 表),描述了构建问题和确定结果的过程 [1,2]。这是分级。 第三篇文章,我们将介绍证据质量分级的 GRADE现举一个实例来阐明证据与专家意见的区别: 方法。目的是提供该方法的一个概念性介绍。更详假设参加医学生及住院医生的小组讨论,某内分泌 细并附实例的说明将在那些有关可能导致降低或提学家解释了糖尿病严格控制血糖的理由,他的两种断言及其所引用的支持证据见表 1。对意见 1,他引 △ 原文见 J Clin Epidemiol, 2011, 64(4): 401-406.用的证据完全是他的个人临床经验。对意见 2 ,他 # GRADE 系统由 GRADE 工作组开发。所列作者撰写并修订了该文 引用了自己的经验并参考了临床研究证据(仅仅是 章。

在 Journal of Clinical Epidemiology 杂志的网站上有该系列文章所 有贡献者的名录。一句概括性说明)。 * 通讯作者,Email: balshemh@似乎有理由认为意见 1 可能在一定程度上基于CJEBM© 2011 中国循证医学杂志编辑部• 451 • MethodologyChin J Evid-based Med 2011, 11(4): 451-455表 1 专家意见 vs. 证据强推荐,但某特定质量等级的证据并不意味着特定强度的推荐。有时低或极低质量的证据仍可得出强 专家意见证据推荐。20 严格控制血糖 “在我临床实践的 年里,我开始治疗新诊断糖 可以使病人感 尿病患者多次。我几乎总能看到这些病人开始治例如,考虑用阿司匹林或对乙酰氨基酚治疗患 觉好多了(意 疗约一周后复诊,其中绝大多数说感觉比以前好 见 1)多了。甚至有个病人,她没有任何需抱怨的,也无水痘儿童的决策。观察性研究已观察到使用阿司匹相关症状,也回来说她的精力比以前好多了,尤林与瑞氏综合症存在关联 [8-11]。由于阿司匹林与对其是在下午,并对自己总体感觉好得多而感到惊讶。

”乙酰氨基酚的镇痛和退热作用相似,有关阿司匹林 严格控制血糖 “我严格控制每位病人血糖,我认为他们都应得到潜在危害的低质量证据并未妨碍对对乙酰氨基酚作 可以减少进展 最好的治疗,在这方面我有很多的经验。我有很 为肾脏疾病、 多治疗了 10 年的病人,有的甚至几十年,他们血出强推荐。 神经疾病及失 糖水平很高且坚持按医嘱服药。这些病人也很少 明的长期风险 有并发症。另一方面,也有很多控制血糖很糟的同样地,高质量证据并不一定意味着强推荐。2 (意见 ) 病人早期就已出现并发症。另外,很多研究显示例如,对首次出现没有明显刺激因素的深静脉血栓严格控制血糖可降低并发症发生风险。”形成(DVT ),在抗凝第一个月后患者必须决定是否 仔细的观察。如果述说乏力、多尿或其他症状的病继续长期服用华法林。高质量随机对照试验表明, 人几天后回来说他们好些了,则开始进行治疗是最继续服用华法林会减少血栓复发的风险,但将以增 可能的解释。而没有述说的病人几天后回来说她有加出血风险和不便作为代价 [12-15]。由于不同价值观 多么好的现象特别令人难忘。遗憾的是,对这些观与偏好的患者可能作出不同的选择,指南委员会对 察存在很多其他可能的解释。

该内分泌专家对病人患者是否应继续或终止使用华法林可能会提供弱推 报告有利情况的程度这一印象可能不准确,他可能荐,尽管存在高质量证据。 会忘了病情没有得到好转的病人,或病人的明显好5 什么是证据质量呢? 转是由于疾病的自然史或安慰剂效应,问题出在临 床医生方面或病人想取悦医生的愿望。最起码地,GRADE 将系统评价中的质量评价部分与指南 如果没有用一个严格设计的结构化方法收集数据,制定过程中的质量评级区分开来。因此,我们提供 我们可以认为该内分泌专家对自己临床经验的报告了证据质量的两种定义。 (而不是他自己对那一经验进行解释后而得出的意GRADE 最佳的运用要求系统评价备选管理方 见)是来源于无对照病例系列的证据,并将其划归案对所有病人重要结局的影响 [1]。系统评价中的证 为极低质量。据质量分级反映的是我们认为效应估计值正确的把意见 1 的证据中所蕴含的定义不清的研究设计握程度。形成推荐时,质量分级反映的是我们对效 是一个前后对照研究,意见 2 则为一个包含严重问应估计值足以支持某决策或推荐的把握程度。 题患者的平行对照研究。如果该医生的记忆是准确不同定义的原因在于制作系统评价不包括作出 的(在他的临床实践中,严格控制血糖的病人确实严格推荐所需的过程。

特别是,除非系统评价小组 获得了更好的结局),原因可能在于:病人成功控中包括这样的成员,他们将使用该系统评价作为指 制血糖反映出其基础疾病的差异,而基础疾病与可南制定的一部分,否则系统评价员通常不会去权衡 能患的并发症高度相关。这种未经辨识的预后不平遵照推荐的有利或不利结果。利益相关者更适合去 衡及内分泌专家对事件记忆不可靠、不精确而造成作出这些判断。如上述 DVT 的例子,系统评价可 偏倚的可能性会使我们再次把他的观察结果判定为提供有症状的血栓栓塞及出血的可靠效应量估计值 极低质量证据。及其可信区间,及与这两个事件相关的病死率,但系统评价员不能提供关于华法林治疗的获益是否值 4 某特定质量的证据并不一定意味着特定得冒其风险的可靠判断。这样的判断还必须考虑价 强度的推荐值观、费用及利益相关者的有关投入。第二个困惑是区分质量评级与作出推荐。本系另一方面,一个指南(或应用系统评价证据的 列后面的文章将详细讨论 GRADE 方法用于确定推临床医生)作出抗凝决策时必须评估证据质量。考 荐的方向与强度。在此,我们将强调把对证据群的虑到这方面的权衡,指南委员会必须决定是否推荐 质量评估过程从作出推荐的过程中明确地分离出来抗凝(及推荐强度),这种决策需基于对有症状的血 的重要性,而这些推荐部分是基于那些质量评估。

栓栓塞风险的影响及其效应估计的可信程度,及相 虽然较之较低质量证据,较高质量证据更可能对应应严重出血风险估计及其可信程度。虽然质量评估 CJEBM© 2011 Editorial Board of Chin J Evid-based Med • 452 •论 著 • 方法学研究2011, 11(4): 451 455 中国循证医学杂志~ 的过程一样,系统评价员及指南制定者将有区别地在系统评价或指南中描述其发现并进行推论时谨慎 使用这套标准。在本系列第五篇文章中我们将着重使用。实施良好的研究可能作为被定为低质量证据 讨论这种标准运用上的不同,该文将涉及证据质量群的一部分,因为这些研究仅为所关心的问题提供[5] 分级的精确性评估。了间接或不精确的证据。尽管临床流行病学家和其他人已经赋予了“质量”(通常是偏倚风险)一词其 6 GRADE 中的质量不仅意味着偏倚风险它意思,但我们相信此处更多地是指通常和非专业临床流行病学文献中使用的“质量”通常是指上对 “质量”这个词的理解。 对单个研究内在效度(如,偏倚风险)的判断。要作7 GRADE将证据群的质量分为四类 出分级,对对照试验而言,评价员考虑这样一些特 征如随机、隐蔽分组、盲法及意向治疗分析的运用。

尽管证据质量是连续的,GRADE 方法最终将 对观察性研究,他们考虑恰当地测量暴露与结局及证据群的质量分为高、中、低和极低四类。这四类 适当控制混杂。对对照试验和观察性研究他们都要质量各自的 GRADE 含义见表 2 ,并将当前定义与 考虑失访的问题,及设计、实施与分析中影响偏倚之前的定义作了比较 [16]。之前的定义侧重证据等级 风险的其他因素。对将来研究的意义(质量越低,则将来的研究越有GRADE 判断不是针对单个研究而是针对证据可能改变我们对效应估计的信心及效应估计值本 群,GRADE 中的“质量”不仅意味着偏倚风险。证身)。之前定义的特征受到批评,我们认为是合理 据群(如许多设计与实施良好的试验)可能与低偏的,因为很多情况下我们不可能期待将来会有较高 倚风险相联系,但我们对效应评估的信心可能会因质量的证据。但我们也认为,当有理由相信将可获 其他因素而降低(不精确、不一致、间接性及发表得新的有力证据时,之前的质量分级特征不失为是 偏倚)。尤其与观察性研究有关的另一些因素,包一种替代的方法。 括效应量大小与量效关系的存在可能使我们提高质8 形成质量分级 量评级。GRADE 特别使用的术语 “质量”与“偏倚风险”(当我们谈到质量评价时,指的是对所有研究每 GRADE 之前版本称为“研究局限性”)要求作者们一重要结果的总体评价。

正如本系列前一篇探讨构表 2 证据四个等级的含义 质量等级 当前定义早前定义 高我们非常确信真实的效应值接近效应估计值进一步研究非常不可能改变我们对效应估计值的确信程度 中对效应估计值我们有中等程度的信心:真实值有可能接近进一步研究有可能对我们对效应估计值的确信程度造成重要影估计值,但仍存在二者大不相同的可能性响,且可能改变该估计值 低我们对效应估计值的确信程度有限:真实值可能与估计值进一步研究很有可能对我们对效应估计值的确信程度造成重要影大不相同响,且很可能改变该估计值 极低我们对效应估计值几乎没有信心:真实值很可能与估计值任何效应估计值都是非常不确定的大不相同表 3 GRADE 证据质量分级方法概要 研究设计 证据集群的初始质量如果符合以下条件,降级如果符合以下条件,升级证据集群的质量等级 随机试验 高偏倚风险效应量大高(4 个 “+”:++++ )–1 严重+1 大–2 非常严重+2 非常大不一致性剂量反应中(3 个 “+”:+++ ○)–1 严重+1 梯度量效证据 观察性研究 低–2 非常严重间接性所有可能的剩余混杂因素低(2 个 “+”:++ ○○)–1 严重+1 降低所展示的效应–2 非常严重+1 如未观察到效应意味着是一种假效应不精确–1 严重–2 非常严重极低(1 个 “+”:+ ○○○)发表偏倚–1 可能–2 非常可能CJEBM© 2011 中国循证医学杂志编辑部• 453 • MethodologyChin J Evid-based Med 2011, 11(4): 451-455 建问题的文章中所讨论的 [2] ,评价证据质量之前系计值正确的可能性很有必要。

这些类别是 GRADE 统评价员和指南制定者应确定所有可能的病人重要成员通过基于实例的过程达成的分类,成员们筛选 结果,包括有益的、有害的及费用。然后,评价员才了与评估研究质量相关的广泛的影响话题与因素。 评价每一重要结果的证据质量。所有潜在因素都被考虑到了,并通过反复地讨论与表 3 总结了证据质量分级的 GRADE 方法,该评审,仔细审查所关注问题并聚焦应对措施,从而 方法始于研究设计(试验或观察性研究),然后列出在这 5 类上达成了共识。 5 个可能降低证据质量的理由及 3 个可能提高质量就质量而言,GRADE 方法意味着每个系统评 的原因。本系列后续文章将会详细地解释这些标准价都应提供每一类的相关信息(特定情况下还应包 每一条的意思及怎样使用。此处,我们仅讨论了为括任何其他相关问题)。决策者,无论是指南制定 什么特别确定这些标准作为评估证据群质量的重要者或临床医生,均发现很难利用那些没有提供此类 指标。信息的系统评价。好的系统评价和临床实践指南一般都运用明确的标准着重评价了偏倚风险(研究局 9 应用GRADE质量定义的理由限性)。但评估重点通常是对每个研究的所有结果为了对决策者、临床医生及患者有用,系统评而不是对所有研究的每一个重要结果。

常常未评估 价必须不仅要提供对每个结果的效应估计,而且要其他因素,这些因素决定了在多大程度上可相信效 提供判断这些效应估计值是否可能正确所需要的信应估计值。采用 GRADE 之前,系统评价报告标准 息。系统评价中与研究相关的哪些信息会影响到我尚未清晰阐明应如何报告此类信息。GRADE 为系 们认为效应估计正确这一信心?统评价和临床实践指南提供了一种结构,以确保其为回答这一问题,兹举一个实例。假设你被告以一贯、系统的方式去探讨与某特定问题相关的所 知最近一个 Cochrane 系统评价报告:对慢性疼痛有结果证据质量评价的关键问题。 患者,与安慰剂相比,局部运用水杨酸治疗达临床10 结论 治 愈 需 要 治 疗 的 患 者 数(NNT )为6 ,95% CI (4 , 13)。你还将去寻找哪些附加信息以帮助你决定是最后,我们提醒要防止将标准机械地应用于提 否相信这一估计及怎样应用该结果?

文章版权及转载声明:

作者:上网导航本文地址:https://www.90xe.com/post/1349.html发布于 2023-08-06
文章转载或复制请以超链接形式并注明出处技术导航

分享到:

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

微信扫一扫打赏