周晓华：如何用数学语言来描述进行因果分析？导语我们的生活中充满因果推

文章图片
导语
我们的生活中充满因果推断问题，比如打疫苗的效果怎样，一种治疗方案结果如何。但仅仅依靠数据，往往只能观察到两个变量之间的相关性，要如何更进一步，确定它们的因果性呢？如何用数学语言将这些实际问题转化为因果推断问题，进行分析并指导实际决策？
为了更多地推动因果科学学科的发展，聚集国内外因果科学的一线科研工作者，共同讨论因果科学的最新进展，北京大学讲席教授、北京大学公共卫生学院生物统计系系主任、北京大学北京国际数学研究中心生物统计和信息研究事室主任周晓华等发起了泛太平洋因果推断大会。 2021泛太平洋因果推断大会将于2021年9月11日-12日全程在线举办，详情见文末，欢迎感兴趣的朋友报名参与！
研究领域：因果科学，因果推断
1.因果推断的数学基础
一种新药在特定人群中是否有效？犯罪率改变是否由政策引起？从公立学校换到私立学校能否提高学习成绩？这些都是因果推断的问题。事实上，如果仅仅依靠数据，我们无法回答上述问题。因为很多时候，数据生成机制对观测者是未知的，我们只能观察到相关性。因果性在相关性的基础上更进一步：相关性可以由观察到的变量联合分布来描述，而对于因果性的分析需要知道数据的生成机制，或者条件改变时变量分布的变化。
如何用数学语言来描述进行因果分析呢？Rubin因果模型包含四个部分：(U,K,Y,Z) ，其中， U是个体， K是一组可能的处理集合， Y是从K×U到实数的映射， Z是从U到K的映射，表示个体实际接受的处理。个体u在处理t下的潜在结果记作Yt(u) 。对于个体u来说，处理t相对于处理c的作用是Yt(u)-Yc(u)；对于整个人群来说，平均的因果作用就是E[Yt(u)-Yc(u)] 。因果推断的基本问题是，这两种潜在结果Yt(u)和Yc(u)是无法同时观测的，因此我们必须依赖于额外的假设或条件才能识别出因果作用。
统计学家Fisher曾提出随机化的概念。在一个随机化试验中，每个个体都被随机地分配到两种处理方案中的一种，那么平均因果作用就可以识别了。在随机化试验中，潜在结果可以转化为观测结果，即E[Yt(u)]=E[Y(u)|Z=t] ，因此平均因果作用可以用观测数据来估计。
但实际上，随机化条件有可能被破坏。例如，
(1)非依从性：患者并没有按照原来安排的治疗方案进行治疗；
(2)缺失数据：没有观察到结局（结局有定义）；
(3)死亡截断：在收集到结局之前患者死亡（结局无定义）。
2.非标准条件下的因果推断之非依从性
用Zi表示第i个个体被随机分配的处理方案， Di(Zi)表示个体i是否依从于分配（实际接受的处理）， Yi(Zi,Di(Zi))表示潜在结果。在处理效应稳定假设（SUTVA）——个体之间不会互相干扰——下， Z对Y的个体因果作用为Yi(1,Di(1))-Yi(0,Di(0)) ， Z对Y的平均因果作用（意向治疗作用）为E[Yi(1,Di(1))-Yi(0,Di(0))] 。如果我们关心的是D对Y的因果作用，也就是实际接受的处理对结局的因果作用，我们还需要更多的假设。
首先，我们把人群分为四层：依从组c（Di(z)=z）、永远服药组a（Di(z)=1）、永不服药组n（Di(z)=0）、绝不依从组d（Di(z)=1-z）。只有c组和d组包含了两种处理方案的结局数据，因此只能在这两组中定义因果作用，以c组为例，考虑依从组平均因果作用CACE=E[Yi(1,1)-Yi(0,0)] 。观察到的数据为：分配方案Zi、实际接受的处理Di=Di(Zi)、结局Yi=Yi(Zi) 。需做如下假设：
(1)可忽略性假设，即两种潜在结果和分配方案独立；