摘要GRADE方法中,随机试验起评即为高质量证据,观察性研究起评即为低质量证据;但若证据本身存在 高发表偏倚风险,则两者证据质量级别都应降低。即使最佳证据汇总表纳入的各项研究仅有低发表偏倚风险,发 表偏倚仍会极大高估效应值。当可得证据来自小样本研究、且多数由厂商资助时,作者应怀疑存在发表偏倚。若 干基于检验数据类型的方法可用于评价发表偏倚,其中最常用的为漏斗图,但这些方法都有较大局限。发表偏倚 可能较常见,必须特别关注早期结果、对样本量与事件数都很小的早期试验结果尤需小心。
关键词GRADE;证据质量;发表偏倚;漏斗图;利益冲突;制药业
要点
❖经验证据表明,一般结果有统计学意义的研究比结果无统计学意义的研究(即阴性结果研究) 更易发表。
❖早期仅少量前导研究可得时,完成的系统评价 会高估效应值,尤其当“阴性结果”研究滞后发 表时更是如此。早期小样本阳性研究、尤其是 小样本试验值得怀疑。
❖近年一些真相表明,厂商赞助研究的“阴性”结 果隐瞒不报很常见。系统评价作者应特别关注 发表偏倚,若当纳入的原始研究样本量都小, 尤其当小样本研究受厂商资助时更需注意。
❖检验结果类型的经典方法(如漏斗图)可能提 示发表偏倚,但需谨慎解释。
01 引言
前4篇介绍 GRADE 证据质量分级及推荐强度分级体系的系列文章中,我们描述了构建问题的步骤,介绍了 GRADE 证据质量分级方法,也讨论了因研究局限性(偏倚风险)而降低证据质量的可能性。本文作为此系列文章第5篇,探讨5类使证据质量降低原因中的第 2 类:发表偏倚。本文内容在一定程度上基于前期工作中提出的发表偏倚相关问题 [1],而非撰写与发表偏倚有关文献的系统评价。
即使单个研究设计和实施都很完美,但因系统评价作者或指南制定者未能正确鉴别纳入研究,合成研究结果仍可能带来有偏倚的估计。理论上,未找到的研究比纳入的研究会系统性高估/低估获益效应值。实际上,“阴性结果”研究问题更常见,缺失“阴性结果”研究会增大估计效应值的偏倚。未找到的研究一般是尚未发表、或不完整发表(如摘要或 论文)的研究——方法学家称之为“发表偏倚”现象。
一篇信息量大的系统评价 [2] 评估已发表系列临床试验在多大程度上会受有/无统计学意义、重要性或研究结果方向的影响。该系统评价纳入 5 篇研究已注册临床试验与上述相关性的文章,结果显示:阳性结果试验比阴性结果试验或无效结果试验更易发表[OR=3.90,95%CI(2.68,5.68)];即假设已发表 41%(纳入研究的中位数,范围为11%~ 85%)阴性结果试验,则相应的 RR 值为 1.78[95%CI(1.58,1.95)]。换成绝对值,表示若发表 41%的阴性结果试验,预期会有 73%的阳性结果试验见刊。2个研究评估了临床试验完成后至其发表所需的时间,结果显示:阳性结果试验需4 至 5 年后发表,而阴性结果试验需 6 至 8 年后才见刊。3 个研究发现样本量与发表间的联系无统计学意义。还有 1 个研究发现资助方式、研究者职称、研究者性别与发表间关系亦无统计学意义。
02 发表偏倚与选择性结果报告偏倚
有些分级体系中,报告偏倚分为两亚类:选择性结果报告偏倚(本系列文章已有介绍)和发表偏倚。但我们在各种研究局限中考虑到的所有偏倚来源,包括选择性结果报告偏倚,都可能在单个研究中出现。相反,若单个完整的研究迟迟未发表,而报告又与效应值大小有关(即发表偏倚存在)时,有通过去观察系列研究才能估计发表偏倚的可能性[2-7]。目前,我们按 Cochrane 方法将选择性报告偏倚视为偏倚风险(研究局限)问题。Cochrane 协作网正探讨这个问题,Cochrane 与 GRADE 今后都 可能对此进行修订。
03 各种形式的发表偏倚
若纳入研究样本无代表性,无论未纳入的研究是否已发表,系统评价结果都会受偏倚影响。故漏检滞后发表研究的早期系统评价会得出受偏倚左右的结论——该现象有时称作“滞后偏倚”[8]。要么因为作者自认为知名期刊对研究结果不感兴趣而不投稿;要么因为被知名期刊多次拒稿,该研究最终发表在未被主要数据库收录的普通期刊上,因而会被未查全的检索漏检。非英语国家的作者可能将其阴性结果研究投给本国非英语期刊,这些研究必然会被任何一个只检索英语期刊的系统评价漏检[9,10]。 阴性研究可能以其它形式发表(论文、图书章节、会议摘要——有时称作“灰色文献”),故而可能被未查全的系统评价漏检 [11]。
正因为有上述各种形式的发表偏倚,故存在高估效应值的风险。而单个系统评价很难预测未发表研究、非英语发表的研究及灰色文献的重要性。与常见发表偏倚呈镜像现象的是重复发表:一个研究可能不止发表一次,署名不同,表达方式不一,使重复发表难以鉴别,可能造成系统评价重复计算该结果 [12-15]。
N-乙酰半胱氨酸预防造影剂所致肾病的系统评价展现了若干镜像现象 [16]。在主要心脏病学杂志上以摘要形式发表的随机试验报道的效应值比全文发表的效应值低;早期发表的研究其效应值比之后发表研究的效应值高。发表阳性结果研究的期刊影响因子高于发表阴性结果研究的期刊。系统评价容易受这些因素影响,纳入已发表研究多于摘要,会给出夸大的疗效估计值。表 1 按发表过程不同阶段列举了选择性发表或不发表对最佳证据摘要结果产生偏倚的各种形式。
04 小样本研究的系统评价发表偏倚风险更大
基于小样本随机对照试验(RCT)的系统评价其发表偏倚风险可能更大 [17-19]。纳入病例数多的 RCT 不大可能一直不发表或被忽略;无论其结果是阳性或阴性(即干预组与对照组的差异有无统计学 意义),这些 RCT 均可提供更精确的疗效估计。小样本研究 Meta 分析结果与之后的大样本试验结果间往往有 20% 的机会存在差异 [20],而发表偏倚可能是引起这些差异的主要原因 [21]。
05 大样本研究未能免受其害
尽管大样本研究更有可能发表,但对结果不悦 的赞助方可能会推迟、甚至阻止该研究发表 [14,22,23], 且可能将那些因其重要性可能在顶级医学刊物上发 表的研究发表于受众有限的期刊。他们还可能通过 不科学的策略成功将结果模糊处理。下例可佐证这 些现象。
沙美特罗多中心哮喘研究试验(下简称 SMART)是一个研究沙美特罗和安慰剂对呼吸系统相关死亡、致死事件综合结果的随机试验。2002年9月,一份数据监察委员会对25858个经随机分配患者的评价显示:沙美特罗组的主要结局近乎显著增加,赞助商葛兰素史克(GSK)终止该研究。GSK并未遵循最初计划书的设计,而是向FDA(美国食品药品管理局——译者注)递交一项纳入试验终止后6月内各种事件的报告,分析得出沙美特罗相关危险事件减少。但FDA最终获得正确分析报告[24]。该正确的SMART分析终在2006年1月发表于专业期刊Chest上[25]。
再举另一稍近的例子,Schering-Plough推迟近2年才发表1个含700多名患者的试验,该试验研究联用依泽替米贝和辛伐他汀对照单用辛伐他汀改善血脂成分、预防动脉粥样硬化[26]。1个对2001至2002年间向FDA递交受理意见书的系统评价发现,很多试验通过FDA审批5年后仍未发表[27]。这些滞后偏倚的案例表明,应该避免对新药早期研究结论过于乐观。
06 何时因发表偏倚降低证据质量级别——厂商影响
通常,系统评价作者与指南制定者应考虑,若证据由若干小样本研究构成,则因发表偏倚可能降低证据质量级别[17-21]。若大多数小样本研究受厂商资助、或可能受厂商资助(或若研究者有其它利益冲突),则更应增加发表偏倚降低证据质量的趋势[14,23,28]。
1 项纳入74个已提交 FDA 抗抑郁药试验(平均样本量少于 200 例患者)的调查研究印证了这种典型情况。由 FDA评为阳性结果的 38 个试验中 37 个已发表;其余 36个 FDA 评为阴性结果的试验中仅 14 个已发表。这种发表偏倚会使效应量估计值发生严重偏倚。
其它质疑发表偏倚的标准包括介绍某种新疗法较近完成的单个 RCT或 1 组RCT,还包括系统评价作者未能查全(查全包括检索未发表研究)。
07 利用研究结果估计发表偏倚大小
另一个判断发表偏倚标准基于研究结果类型。若目测漏斗图呈不对称(图 1a)、而非对称(图 1b),或非对称统计学检验呈阳性,怀疑其(存在发表偏 倚)的可能性会增加 [29,30]。尽管漏斗图可能有用,系统评价作者及指南制定者仍需牢记,目测漏斗图可 能难免产生误差 [31,32]。强化漏斗图的使用可能(也可能不会)帮助提高与其用途相对应的可重复性及真实性 [33]。
统计学家根据相同原则已开发出一些定量方法[29,30],而其他统计学家却质疑这些方法的适用性[7,34-36]。
此外,系统评价作者与指南制定者应记住,即 使他们找到证明是非对称的证据,发表偏倚也非唯 一解释。例如,若小样本研究偏倚风险更高,则有 可能因偏倚高估效应值。另一个可能解释是,因受 试人群入选更加严格(因而也更配合),或干预措施 实施更谨慎,小样本研究的效应值实际都会偏大。 第 2 类检验方法称作“修补”,旨在填充缺失 信息,并指明其影响。这类检验方法先去掉那些无 对应“阴性结果”的小样本“阳性结果”研究(见图1a——译者注),以得到对称的漏斗图,从而求出假 设的真实效应值。研究者再将之前去除的这些小样 本“阳性结果”研究填回图中,并增加与之镜像对应的假设阴性研究,从而得到对称漏斗图、算出新的 合并效应估计值 [21]。同样,其它对漏斗图非对称性 的解释也适用于此,填充缺失的新研究实为大胆假 设,但可能留下诸多疑问。
1a.本漏斗图示,小样本研究既不沿点估计值对称分布(点估计值受大样本试验左右)、也不按大样本试验结果对称分布。底线右侧象限所需试验缺如。对这种结果,一种可能的解释即发表偏倚—— 高估真实疗效。1b. 图中各圈表示试验的点估计值。这种分布像倒置漏斗。 样本量更大的研究可能更接近合并估计值(图中虚线示)。本例中,小样本研究效应量沿合并估计值大致对称分布。
还有其它统计学检验方法,根据统计学显著性 水平估计是否还有不同的发表机率 [37,38]。这些检验 方法已成熟运用于教育学和心理学研究,但也许因 计算困难、假设复杂,医学科学领域很少采用。
最后,有一类检验方法专门研究证据是否随时间而改变。循环累计 Meta 分析于每年年终进行 [39], 旨在分析按年排序的试验和合并效应值变化的解释。效应值持续减少强烈提示有滞后偏倚。另一种检验方法验证了有统计学意义结果的试验数是否大于看似真实假设下结果的数量 [40]。
总之,每种用可得数据推测发表偏倚可能性的 方法或许有效,但各有局限。采用一种以上方法得到一致结果,可能强化对发表偏倚的推测。
比运用这些理论更吸引人的是作者能成功找到一些未发表的研究结果,并证实已发表资料和未 发表资料的结果确有不同。这些情况下,发表偏倚的可能性赫然显现。例如,1个系统评价发现,若纳入未发表的奎宁治疗腿痉挛的研究,其估计效应减半[41]。遗憾的是,得到未发表的研究决非易事(尽 管我们举的很多例子都证明,来自向FDA、或向其它管理机构递交的审批材料确实非常有效)。另一方面,得到厂商合作,并声明已纳入全部试验的系统评价才让人放心 [42]。
所有 RCT 在开始前就预注册,有助于系统评价作者(和系统评价读者)在试验结果发表前了解相关试验何时开始,以便他们向研究者索取相关研究数[43,44]。RCT强制性注册或许是唯一能解决发表偏倚的可靠方法,且也逐渐普及[45]。因而检索临床试验注册中心越来越有价值;评价发表偏倚风险时,系统评价作者和读者应考虑这一点。目前尚未启动注册观察性研究;在可预见的将来,这类研究的发表偏倚仍无法解决。
08 观察性研究中的发表偏倚
观察性研究中发表偏倚的风险很可能大于RCT[3,32],特别是小样本观察性研究、自动收集数据的研究(如通过电子病历记录或糖尿病注册库)、或由以前研究收集的数据。这些情况下,系统评价员很难知道文献里的观察性研究代表全部研究、还是部分,也不清楚文献中的分析代表全部研究还是部分。鉴于此系统评价员应考虑有很大的发表偏倚风险 [46,47]。
09 降级评价发表偏倚——示例
以 1 篇黄酮类治疗痔疮患者的系统评价 [48] 为例,证明因发表偏倚降低证据质量可能恰当。该系统评价纳入的所有试验(患者数从 40 到 234 例不等,多数在 100 上下)均受厂商资助。此外,漏斗图也提示有发表偏倚的可能(图 2)。
10 认识评价发表偏倚可能性的种种难点
遗憾的是,很难肯定不存在发表偏倚,同样很难知道在哪儿确定为发表偏倚的阈值,也难因其疑似存在而降低证据质量。认识到这些挑战,GRADE 推荐在证据概要表中用“未发现”和“高度怀疑”来 描述发表偏倚。要认清这种不确定性,GRADE 建 议,如怀疑有发表偏倚,最多将证据质量降低 1 级(而非 2 级)。以上示例都表明,发表偏倚可能较常见,尤其是厂商资助的研究。提示要审慎看待早期结果,对样本量小而发生事件数少的研究时当慎之又慎。