数学中国

 找回密码
 注册
搜索
热搜: 活动 交友 discuz
查看: 249|回复: 0

“因果关系”的数学解释

[复制链接]
发表于 2024-3-20 12:55 | 显示全部楼层 |阅读模式
“因果关系”的数学解释

原创 芝士水解酶 芝士水解酶 2024-02-06 16:30 上

数据科学·哲学

数学常常被誉为科学之母,因为它是“自然界的语言”。同样地,数学可以用来解释事件之间的因果关系。因果关系是一个重要的概念,它从根本上影响着科学和社会的各个领域。正如其字面含义,因果关系研究的是“原因”和“结果”之间的联系,它能够帮助人们解决实际问题。医学、生物学或法律领域常见这样的问题:“哪种药物可以用于治疗这种疾病?”“什么蛋白质激活了哪个基因?”“哪个犯罪行为造成了伤害?”为了回答这些问题,科学家们需要用概率论、统计学和图论的方法来量化因果关系的含义。本文将简要介绍数学中因果关系的概念。


因果关系的数学解释

Causality: Using Math to Understand the Science of Cause and Effect

原作 | Frank Emmert-Streib , Matthias Dehmer

编译 | Winston


什么是因果关系?

对因果的研究由来已久,最早可追溯至哲学家亚里士多德(Aristotle ,公元前 384-322)和大卫·休谟(David Hume ,1711-1776)。他们从哲学角度,在研究“事物的起因”方面做出了重要的贡献,但缺少对因果关系的量化和测量,而后者需要数学模型的构建。因果模型则源于 Sewall Wright(1889–1988)、Donald Rubin(1943-)和 Judea Pearl(1936-)等人的研究。

顾名思义,因果关系研究的是“原因”(cause)和“效应”(effect)之间的关系。它是我们理解事物之间的关系和变化的方法,描述了事件(event)和事件结果(outcome)之间的关联。

举个例子,想象你小时候在平地上推着椅子跑:椅子移动的原因是你在推它,效应是椅子在平地上移动。没有原因(你推椅子),就不会有结果(椅子动了)。再举一个例子,科学家们希望了解一款药物是否会影响人的健康,因而需要开展实验进行观察。在这个例子里,药物是因,人的健康变化是果。

在数学上,因果关系包含三个部分:原因,效果,以及二者之间的关联(图1A)。这可以用图结构(graph)或网络结构(network)来直观地表示[1]。图论是数学中描述图形的方法,图由节点(node)和边(edge)组成,原因和效果是两个节点(图A中的圆圈),而因果之间的关联用边来表示。


图-(A)原因(x)与效果(y)之间的关系。

有了描述方法后,接下来的问题是,如何测量因果关系?遗憾的是,因果关系不像温度、气压等物理量那样,可以使用物理测量设备直接读出具体的数值;它的测量需要结合概率论、统计学、图论等数学工具才能得出。接下来,本文将展示,为什么单独依靠统计学是无法说明因果关系的。

为什么“相关不等于因果”?

为什么因果关系难以测量?让我们从一个简单的场景开始。

假设现在是夏天,阳光炽热,海滩上热闹非凡,游客们穿着短裤,吃着冰淇淋,享受着夏日的惬意。于此同时,人们也更愿意骑摩托车出行,感受夏日凉爽的风。我们将“穿短裤”和“骑摩托车”两件事拿出来,能认为“吃冰激凌”会导致“骑摩托车”的发生吗?你也许很容易想到,尽管很多人既吃冰激凌又骑摩托车,但其中一个因素并不见得会引发另一个因素。

有一种统计指标可以精确地衡量这种关联,它就是相关性(correlation),数学上用 rxy 表示,x 和 y 分别代表了两个事件。


图 - (B) 每个季节(i)的冰淇淋销量(xi)和路上观察到的摩托车司机(yi)的数据。(C) 将 (B) 中的值绘制成图(颜色与季节相对应),表明这两个观测值是相关的。但这并不意味着两者互为因果!(D) 另一种关系,表明一年中的季节对冰淇淋销量和摩托车司机人数都有影响。(E) 冰淇淋销量与摩托车驾驶员之间的相关值。

相关性如何计算呢?还是回到上面的例子,让我们对“冰激凌”和“摩托车”进行量化。假定我们掌握了每个季节的冰激凌销售和摩托车出行的信息,我们可以定义 xi 为冰激凌销量,定义 yi 为街道上摩托车司机数量。其中,i 表示一个季节,可以是秋、冬、春、夏中的任一个。xi 和 yi 的数值如图 1B 和图 1C 所示,图中的黑色线被称为回归线(regression line),它清晰地表明两组数据几乎在同一条直线上。利用这些信息,我们可以计算出,冰激凌销量和街道上摩托车司机数量的相关性 rxy=0.98 。

在统计学里,相关系数 r=0.98 是一个非常高的值,因为最大值也就是 1 。因此,我们可以得出结论,冰淇淋销量与路上摩托车司机的数量密切相关。那么,我们会问:我们吃更多的冰淇淋,会导致街上会出现更多的摩托车吗?

很显然,答案是“不”。统计学得出的高相关性,并不能确保“冰淇淋销量”是“摩托车数量”的原因。换句话说,相关性不等于因果关系。只要稍作思考,你就能为这种现象找到一种合理的解释:存在第三个变量的作用,即“季节”因素。真实的情况是,“季节”是原因,“冰淇淋销量”和“摩托车数量”都是效果(图 1D)。

同样的道理,尽管夏天的海滩上热闹非凡,游客们穿着短裤,吃着冰淇淋。我们也不能认为,“穿短裤”会导致“吃冰激凌”。两个事件的高相关性并不一定表明二者间的因果关系。

鲁宾因果模型

既然用相关性来衡量因果关系是有问题的,那么因果关系要如何衡量呢?鲁宾因果模型(Rubin causal model,RCM)提供了一种解决方法[4]。

为了了解这一模型的基本思想,假设这样的一个场景。许多药物有其特定的治疗范围,如阿司匹林可以用于缓解头痛、止咳糖浆用于治疗咳嗽等。现在,科研人员研发出一种新药,且想测试这一药物能否治疗某种疾病。鲁宾因果模型将因果关系定义为接受和不接受药物的结果之间的差异,用 δ 表示:

δ = Y1 - Y0

在上式中,Y1 代表接受药物后的效果,而 Y0 代表未接受药物的效果,这些效果可以是头痛的严重程度,或是一小时内的咳嗽次数等可测量的数值。

理想情况下,这种对比应该在其它条件保持完全一致的时候进行,但这种实验场景只存在与假想中,因为在现实世界中,同一个人不可能同时接受药物和不接受药物。因此,Y1 和 Y0 被称为潜在结果(potential outcomes),“潜在”意味着可能观测到的情况,即使实际能观察到的只有一种。

由于一个人只能出现在一组里,为了计算鲁宾因果模型,研究只能在群体的角度上开展。这种方法的基本思想很简单,就是将患者随机分配——一组接受药物治疗,另一组不接受。如果两组患者的情况相似,科学家们就可以算出两组患者之间的差异,并由此计算药物与治疗效果之间的因果效应。当然,在现实世界中,不同患者不可能完全相同,科学家们会尽量寻找有着相似年龄、健康状况的患者。

此外,在现实世界中,科学家们只能计算患者群体的因果效应,而非单个患者的效应。由于患者群体是随机分配的,且不同患者有着相似的情况,这一方法称为随机对照试验(randomized controlled trials,RCT)。随机对照试验常常作为药物或疗法审批的常规要求。

科学研究中的因果关系

了解了因果关系,人们就能根据过往经验预判未来走向,并识别出导致特定结果的原因。

在医学中,因果关系起着至关重要的作用,帮助医生和研究人员理解各种因素对身体健康状况的影响,并制定有针对性的治疗和预防策略。

在生物学中,因果关系可以用来识别基因调控网络(gene regulatory networks,GRN)[2, 3]。基因调控网络是一种描述生物体内不同基因之间相互作用的方法,它类似于图 1 展示的网络结构,由节点和边组成,其中节点对应基因、边对应基因之间的相互作用。人类拥有超过 20000 个基因,不同的基因调控着不同的细胞功能。因此,完整的基因调控网络是一个及其庞大的系统,这一网络能为细胞功能的研究提供了重要的信息,帮助科学家们识别基因的开启、关闭对其它基因的作用,从而揭示某些疾病的发病机制。

在心理学中,因果关系常用于探究不同因素对个人行为及心理健康的影响,比如研究个人情绪与行为、环境与行为之间的关系。在经济学中,因果关系也用来理解各种因素对经济的影响,进而预测未来的经济表现。

总结

总之,研究因果关系有助于我们了解事情是如何发生、如何变化的,以及各种因素如何促成某些结果。这些知识对于开展预测、设计实验以及制定有效的干预措施和治疗方法非常重要。因果关系作为一个基本概念,能让人们解决社会和科学中最有趣、最重要的问题。然而,量化因果关需要采用综合的方法,使用概率论、统计学和图论等数学手段,如今这一领域已发展为数据科学

References /参考资料

[0] Emmert-Streib F and Dehmer M (2023) Causality: Using Math to Understand the Science of Cause and Effect. Front. Young Minds. 11:1155100. doi: 10.3389/frym.2023.1155100 [licensed under CC-BY]

[1] Pearl, J. 2000. Causality: Models, Reasoning, and Inference. Cambridge; New York, NY: Cambridge..

[2] Altay, G., and Emmert-Streib, F. 2010. Inferring the conservative causal core of gene regulatory networks. BMC Syst. Biol. 4:132. doi: 10.1186/1752-0509-4-132

[3] de Matos Simoes, R., and Emmert-Streib, F. 2012. Bagging statistical network inference from large-scale gene expression data. PLoS ONE 7:e33624. doi: 10.1371/journal.pone.0033624

[4] Rubin, D. 1974. Estimating causal effects of treatments in randomized and nonrandomized studies. J. Educ. Psychol. 66:688–701. doi: 10.1037/h0037350

Contributors / 本文贡献


Frank Emmert-Streib  原作者  芬兰 Tampere 大学数据科学教授,在数据科学跨学科领域开展创新和创造性研究。


Matthias Dehmer  原作者  瑞士远程应用科学大学和 UMIT 健康与生命科学大学的教授,研究兴趣是图论、复杂网络、机器学习和数据科学。


@Winston  编译  科普爱好者,「芝士水解酶」编译作者。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?注册

x
您需要登录后才可以回帖 登录 | 注册

本版积分规则

Archiver|手机版|小黑屋|数学中国 ( 京ICP备05040119号 )

GMT+8, 2024-4-29 15:25 , Processed in 0.070313 second(s), 16 queries .

Powered by Discuz! X3.4

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表