原标题:因果推理入门指南-必须的7个步骤
社会科学的研究,不管是经济学,社会学,还是心理学都离不开数据的支持,虽说数据科学只是工具,但对工具的误解会导致人们问出错误的问题。如今我们知道了从数据中,可以通过系统化的算法,定量的去描述因果关系,由此发端,社会学科的研究问题通常都是因果的问题, 因果推断已经成为了社会科学的基本语言。A primer on causality in data science 这篇综述介绍了如何做因果推理的路线图,这里对其进行简述,并通过DoWhy 这个python包的例子,来具体展示该怎么做因果推理。
科学研究中的很多问题的本质是因果效应估计问题. 哈佛生统教授 Hernan(2018) 把数据科学解决的任务分成三类:描述,预测,因果推断。前两类任务是纯数据驱动的统计推断, 而因果推动与他们有很大的不同。 因果推断通常需要的不仅仅是观测数据, 还需要变量的先验知识。解决因果推断有一个一般性的步骤如下:
1 specify the scientic question, 具体的来说我们第一步是需要确定和清晰的定义该研究涉及的变量, 以及研究的目标.
2 build an accurate causal model of our knowledge 简单的来说就是用因果图表示相关变量之间的因果关系. 一般情况下是有向无环图.
3 define the target causal quantity, 在因果模型给定的情况下, 那么有关因果效应的问题就可以清晰的定义了, 一般是包含 Pearl提出的do-operation 的表达式来表示那些变化将改变潜在的果
4 link the observed data to the causal model, 前面的步骤都没有涉及到数据是如何产生的, 这个步骤就是有关模型如何产生数据的一些假定, 例如数据是否独立同