2.4 結構因果模型(Scm)

2.4.1 基本定義[5][11]

這是一種基於因果圖(casual graph),構建各類因子間因果關係的方法。該方法可以將因果圖轉為結構化等式(structural equations),並透過do運算元干預因果圖,打破混淆因子干擾,完成因果發現。

那什麼是因果圖呢,這是一個有向無環圖(dAG),節點表示因子,有向邊表示因果關係和大小。如下圖(a)是Scm的一個示例。其中t為treatment(即要分析的“因”),y是目標,x是混淆因子。顯然,x的存在干擾了分析t對y的影響,作者提出透過do運算元去除混淆因子x對treatment的影響,這也是Scm做因果分析的關鍵。

那具體是怎麼實現的呢?我們需要先了解因果圖裡的經典結構

2.4.2 網路結構與前後門準則[11][12]

三種經典的圖結構

當我們分析x和Y的因果關係時,如果存在其他變數Z,則它們的關係不外乎以下三種圖結構。

鏈式(a):x -> Z -> Y。有 且

叉式(b):x <- Z -> Y。同鏈式有 且

V式(c):x -> Z <- Y。有 且

那麼針對這三種圖結構,如何輸出x變化對Y的影響呢?我們的重點是如何“過濾”變數Z對分析的干擾(這也是因果識別的目標)

2. 後門準則:該準則對應叉式的圖結構

後門標準(後門準則):如果變數集Z滿足:1 不包含x的子孫節點;2 阻斷了x到Y的所有後門路徑。則稱Z滿足(x, Y)的後門準則

後門調整:基於後門路徑,透過干預do運算元消除混淆因子的影響,僅使用已知的資料分佈,估計變數之間的因果效應

3. 前門準則:該準則對應鏈式結構

前門標準(前門準則):如果變數集Z滿足:1 阻斷了x到Y的所有路徑;2 x到Z之間沒有未阻斷的路徑(x到Z不存在後門路徑);3 Z到Y之間的所有後門路徑都被x阻斷。則稱Z滿足(x, Y)的前門準則

前門調整:和後門調整類似,透過do運算元去除前門路徑(鏈式)的影響

2.4.3 示例說明[13]

這兩個準則應該如何使用呢?這裡提供一個case

背景:有一種藥物,對於男士群體而言,使用該藥物後發病率降低。對於女士群體而言,使用該藥物後發病率也會降低。但是,對男女人群一起統計,則結論相反

假設t=1表示服藥,t=0表示未服藥,Y=1表示發病的機率,Y=0表示未發病的機率。顯然p ( Y = 1 i t = 1 ) = 0.78 < p ( Y = 1 i t = 0 ) = 0.83,這是因為沒有考慮混淆變數“性別”的影響,出現了辛普森悖論。

如下圖,透過後門調整,去除掉性別對服藥的干擾。則最終 p(Y=1ido(x=1))=0.832 > p(Y=1ido(x=0))=0.781,說明服用此藥物確實可以降低發病率。

後面調整的計算邏輯如下:

2.4.4 因果識別

當前Scm模型更多用於因果識別,這是因果推斷伴生的研究課題。其目標是從一系列的因子裡,找出各因子間的因果相關性並輸出因果圖,則後續可根據casual graph分析兩兩因子間的相互影響,揭示因子對結果的多層傳遞性影響。舉個例子[14],我們研究影響產品銷量的因素時,可能存在產品價格、