统计因果推理入门
豆瓣
翻译版
Causal Inference in Statistics: A Primer
Judea Pearl / Madelyn Glymour … 译者: 杨矫云 / 安宁
简介
在分析和理解数据时,统计学家总是为数据中的因果问题而烦恼。例如,如何判断某种疾病预防方案的有效程度,是否可以预估与肥胖相关的医疗费用,美国政府的行为能否阻止2008年的金融危机,雇佣记录是否能证明雇主存在性别歧视等。
这些问题的独特之处在于,在传统的统计语言中,这些问题无法得到回答,甚至无法描述。事实上,直到最近科学家们才获得了一种数学语言,利用它来描述这些问题,并用相应的工具从数据中获得这些问题的答案。
这些工具的开发引发了统计学和许多相关学科中因果关系处理方式的革命,特别是在社会和生物医学科学方面。例如,2003年在旧金山召开的联合统计学会议的论文集中,只有13篇论文标题中出现“原因”或“因果”这样的关键词,而在2014年的波士顿会议上,相关论文的数量超过了100篇。这些数字变化代表着统计学研究领域令人振奋的革命性转变,新的问题和挑战正在向统计分析敞开大门。哈佛大学的政治学教授格雷·金从历史的角度评价这场变革:“在过去的几十年中,人们对因果推理的了解比以往历史上记载的总和都要多。”
然而,几乎没有统计学教育工作者关注这些让人激动的成果。在统计学教科书,尤其是入门级的教科书中,基本上没有关于因果关系的内容。造成这种现象的原因在于传统统计学教育中根深蒂固的观念和大多数统计学家对统计推理的一贯看法。
罗纳德·费希尔在其著名的宣言中提出“统计方法的目标是约简数据”(Fisher,1922)。按照这一目标,通常被称为“推理”的数据分析可以归结为,用精练的数学语言描述变量集合联合分布,或者其中的特定参数。对于这种推理的一般策略,不仅统计研究人员和数据科学家非常熟悉,那些学习过统计学基础课程的人也非常熟悉。事实上,许多优秀的书籍中都描述了从现有数据中提取最大信息量的、精妙且高效的方法。这些书为初学者介绍了涵盖试验设计到参数估计和假设检验的详细内容。这些技术的目标是对数据本身的描述,而不是描述数据在整个过程中所起的作用。大多数统计书籍甚至在索引中没有“因果”或“因果关系”一词。
然而,大量有关统计推理的核心问题是因果关系;一个变量的变化会引起另一个变量的变化吗?如果是,它们会引起多大的变化呢?由于回避了这些问题,在统计推理的入门级内容里甚至没有讨论所估计的参数之间是否有相关的量化关系,而这正是人们感兴趣的因果关系。
大多数人门教材所能做的是,首先,引用经常说的格言:“相关性并不一定蕴含因果性”.简要地解释什么是混杂,“隐含变量”如何导致对两个感兴趣变量之间表面关系的误解。然后,这些教材用醒目的文字提出主要问题:“X和y之间的因果关系如何建立?”并用随机试验中存在已久的“金标准”方法回答这个问题,“金标准”方法至今仍是美国和其他国家药物审批程序的基石。
然而,由于大多数的因果问题不能通过随机试验来实现,学生和教师们都想知道是否可以在没有随机试验的情况下,能够合理并且可靠地讨论因果关系的一些问题。
简而言之,许多入门的教材只是为没有统计学基础的读者介绍如何使用统计学技术处理因果性问题,而没有讨论因果模型和因果参数,这就留下了一个空白。
这个空白令人感到如芒在背,本书意在填补这个空白,协助具有基础统计学知识的教师和学生应对几乎在所有自然科学和社会科学非试验研究中存在的因果性问题。本书聚焦于用简单和自然的方法定义因果参数,并且说明在观察研究中,哪些假设对于估计参数是必要的。我们也证明这些假设可以用显而易见的数学形式描述出来,也可以用简单的数学工具将这些假设转化为量化的因果关系,如治疗效果和政策干预,以确定其可检测的内在关系。
在本书中,我们的目标仅限于此;我们没有详细讨论最优参数的估计方法,这些方法可通过数据得到有效的统计估计和相应的确信度。这些问题,其中一些还是相当前沿的,已经在越来越多的因果推理文献中得到了广泛的阐述。因此,我们希望这本简短的教材可以与传统的入门级统计学教科书一起使用,这些教科书描述了统计模型和统计推理,借助这些内容和本书,读者更容易理解因果关系。
contents
第1章 绪言:统计及因果模型
1.1 为什么研究因果关系
1.2 辛普森悖论
1.3 概率和统计
1.3.1 变量
1.3.2 事件
1.3.3 条件概率
1.3.4 独立性
1.3.5 概率分布
1.3.6 全概率公式
1.3.7 使用贝叶斯法则
1.3.8 期望值
1.3.9 方差和协方差
1.3.10 回归
1.3.11 多元回归
1.4 图
1.5 结构因果模型
1.5.1 因果假设建模
1.5.2 乘积分解
第2章 图模型及其应用
2.1 模型与数据的联系
2.2 链结构和分叉结构
2.3 对撞结构
2.4 d-分离
2.5 模型检验与因果搜索
第3章 干预的效果
3.1 干预
3.2 校正公式
3.2.1 校正还是不校正
3.2.2 多重干预和截断乘积规则
3.3 后门准则
3.4 前门准则
3.5 条件干预和特定变量效应
3.6 逆概率加权
3.7 中介
3.8 线性系统中的因果推断
3.8.1 结构系数与回归系数
3.8.2 结构系数的因果解释
3.8.3 识别结构系数和因果效应
3.8.4 线性系统中的中介
……
第4章 反事实及其应用
参考文献