(Rct)得出結論。因果推斷的難點在於反事實,因此對照實驗需要“足夠隨機”。對上面的例子而言,我們需要在實驗組和對照組中確保喝酒的比例是均等的。這是代價昂貴且費時費力的。

觀測性研究:對於已有的觀測資料,透過建模進行因果關係的研究。這種方式對數學的要求較高且存在準確率的問題,但可操作性強。

顯然,實驗性研究是理論上最完美的方式,但實際中我們不可能窮舉類似“喝酒狀態”這種影響因和果的因素,隨機對照試驗的成本是極大的,僅存在理論的可能。業界的研究重點是,如何最佳化觀測性研究的方法,使其準確度逐步逼近實驗性研究。

當前,觀測性研究存在兩大流派,分別是pearl創立的結構因果圖模型(Scm)和Rubin建立的潛在結果模型(Rcm)。[6][7]

2.2 變數定義與說明

為了便於後續介紹,這裡先對因果推斷的常用變數做一個說明。黑色粗體為重要定義,treatment Effect是衡量干預效果的指標,也是我們期望最佳化的目標以及模型的輸出[5][7][8][9]

2.3 因果分析流程

介紹推斷的具體方法之前,我們先說明因果分析的流程。如下圖,主要有兩個步驟[1][10]:

Identification(因果識別):基於觀測資料,輸出不同干預下的統計分佈(即“原因因子”狀態不同時結果因子的分佈),以分佈的gap作為衡量因果關係的依據。Scm模型主要解決這部分問題(並不是說Scm不能做後續的推斷)

Estimation(因果推斷):根據統計結果,做反事實的推斷,以反事實與觀測的gap作為效果大小的衡量,這個過程叫Estimation。Rcm模型重點在這部分

想減肥想減肥好吃,防護服減減肥進去刺骨寒風