周晓华:如何用数学语言来描述进行因果分析?( 三 )


周晓华:如何用数学语言来描述进行因果分析?
文章图片
今年 , 周晓华团队在《中国疾病预防控制中心周报》上的一篇文章回顾了用瑞德西韦治疗COVID-19的两个临床试验 , 这两个试验都涉及到死亡截断问题 。 例如 , 当以病情恢复时间为结局 , 则在恢复前被死亡截断的个体没有结局定义 。 如果死亡率与基础疾病存在正相关性 , 则把死亡个体当作在终点处删失的做法低估了真实的治疗效应 。 作者通过模拟实验表明 , 把死亡当作删失的方法以及存活案例分析方法(无论是否按协变量分层)都会导致有偏的治疗效应估计[10] 。
4.中介分析
在一些问题中 , 干预和结局之间可能存在中介 。 用T表示治疗方案 , M表示中介 , Y表示结局 。 这时 , 从T到Y存在两条路径:一条是从T直接到Y , 称为直接因果作用;另一条是从T经过M再到Y , 称为间接因果作用 。
例如 , 在关于大学生酗酒的研究中 , 受试者被随机分配到三种方案T之一:放松(对照)、酒精扫描+干预、酒精扫描+干预+情绪控制技术 , 中介M是情绪控制能力 , 结局Y是3个月后的抑郁得分 。 经典的中介分析方法需要很强的序列可忽略性假设 , 要求中介和结局之间不能存在混杂 。 周晓华和合作者放宽了序列可忽略性假设 , 提出的新方法允许中介和结局之间存在混杂 , 并且允许存在缺失数据[11] 。
周晓华:如何用数学语言来描述进行因果分析?
文章图片
今年周晓华团队在StatisticsinMedicine发表的一篇文章关注了用确定结果随机事件模型研究中介分析 , 对于二值变量的情形 , 在一些识别性条件下 , 作者给出了直接因果作用和间接因果作用的估计 , 允许序列可忽略性假设不成立 。 另外 , 当识别性条件被破坏时 , 作者给出了直接因果作用和间接因果作用的上下界[12] 。
5.个性化治疗
个性化治疗(或精准医疗)与因果推断有着密切的关系 。 精准医疗旨在根据患者的特征 , 选择恰当的治疗方案 , 达到治疗收益的最大化 。 但是 , 同一位患者一次只能接受一种治疗 , 我们无法同时观察到患者接受不同治疗的结果 。 用因果推断的语言说 , 设X表示患者的协变量 , Z为治疗方案 , 可以取Z=0或1 , 用Y(z)表示患者接受治疗z后的潜在结果 。 精准医疗却需要根据协变量特异因果作用E[Y(1)-Y(0)|X]选择相应的治疗方案 。 具体而言 , 假设潜在结果数值越大表示患者收益越大 , 那么如果上面的协变量特异因果作用大于0 , 就选择Z=1 , 否则选择Z=0 。 这样 , 我们可以从理论上把精准医疗转化为因果推断问题 。
给定潜在结果的单指标模型 , 在一些假设下就可以识别出协变量特异因果作用 。 比如 , 当我们比较中药和西药的疗效时 , 可能会发现当生物标志物在一定范围内(c1<X<c2)时 , 中药治疗比西药治疗更有效 , 否则西药治疗更有效 。 这样 , 我们能画出一条曲线 , 用于描述中药相对于西药的因果作用随生物标志物变化的情形 , 即协变量特异因果作用曲线 , 这条曲线在临床应用中为研究者提供了很大便利[13] 。
在最优个性化治疗规则的因果作用估计方面 , 周晓华和他的同事首次提出使用生物标志物调整效应曲线(BATE)、协变量特征的治疗效果曲线(CSTE)来表示给定生物标志物水平下的条件平均处理效应 , 并为每个病人选择最优治疗方案 , 同时严格证明了新提出统计方法的数学性质 。 针对治疗结果为二分类变量时 , 周晓华和他的同事提出采用B样条方法估计CSTE曲线 , 采用Hotellingtube方法估计CSTE曲线置信带的新统计方法及理论 , 定义并推导出二值响应变量数据的CSTE曲线可表示为优势比的对数 , 同时利用B样条方法估计广义变系数模型的系数 , 并推导出该方法的大样本数学性质[14,15] 。