辛普森悖论 | 你还相信数据吗
数据是一个有力的武器,它既能被用来澄清现实,也能被用来混淆是非
你知不知道,数据也会说谎?
一个栗子
假设您患有肾结石并去看医生。医生告诉你有两种治疗方法,治疗 A(开放手术 open surgery)和治疗 B(体外冲击波碎石术 ESWL)。
你问哪种治疗效果更好,医生说:“一项研究发现治疗 A 的成功概率高于治疗 B。”
你说:“我会接受治疗 A,谢谢!”
这时医生打断你,“但同样的研究还研究了哪种治疗效果更好,这取决于患者是大肾结石还是小肾结石。”
你说:“好吧,我有大肾结石还是小肾结石?”
你说话的时候,医生又打断了你,说:“其实没关系。你看,他们发现治疗 B 比治疗 A 成功的概率更高,不管你的肾结石是大还是小。”
你可能想知道你是否没看错。听起来不可能。但这是真的:在一项实际研究中,发现治疗 B 比治疗 A 对大肾结石和小肾结石起作用的概率更高,尽管事实上治疗 A 的总体 概率高于治疗 B。这是研究数据:
治疗 A 有帮助 | 治疗 B 有帮助 | |
---|---|---|
大肾结石 | 69% (55 / 80) | 73% (192 / 263) |
小肾结石 | 87% (234 / 270) | 93% (81 / 87) |
所有患者 | 83% (289 / 350) | 78% (273 / 350) |
表中的第一项显示,80 名大肾结石患者接受了 A 治疗,治疗帮助了其中 55 人,成功率为 69%。这不如治疗 B 好,它帮助了 263 名大肾结石患者中的 192 人,成功率为 73%。以类似的方式,第二行显示治疗 B 比治疗 A 对患有小肾结石的人更有效。
但是当你把每一列的数字加起来时,你会发现治疗 A 确实比治疗 B 整体效果更好。
值得花时间检查所有数字加起来检验一下,并说服自己我没有欺骗你.
刚刚展示的这种现象被称为辛普森悖论。如果你和包括我在内的大多数人一样,那么辛普森悖论在你第一次见到它时就会令人震惊。因为它违反了我们对世界推理的本能方式。而且,正如我们看到的那样,辛普森悖论不仅是一种怪异的现象,而且它经常在具有重要决策后果的地方出现。
我们忽略了什么
从数据生成过程(因果模型)来看分析.
事实证明,小肾结石被认为是不严重的病例,治疗 B(体外冲击波碎石术 ESWL)比治疗 A(开放手术 open surgery)更加激进。
对于小肾结石,医生更有可能推荐保守疗法 A,因为病情不太严重,患者最有可能首先成功恢复。
对于严重的大肾结石,医生往往选择更激进的疗法 B。即使疗法 B 在这些病例中表现更好,由于是更严重的病例,疗法 B 的总体恢复率低于疗法 A.
在这个现实世界的例子中,肾结石的大小(病例的严重性)是一个混合变量,它会同时影响自变量(疗法)和因变量(恢复率).
为了确定哪种治疗方法确实更好,我们需要通过对两组数据进行分离并比较组内的恢复率而不是按组聚合来控制混合变量。
这样看来激进的治疗 B(体外冲击波碎石术 ESWL)效果更好.
如果有潜在变量(特别是混合变量)存在,牢记:整体数据未必可靠,要通过科学合理的分组来查看具体细致的数据。