產品屬性、門店資訊、市場競爭情況等因子需要考慮。我們可以構建多個類似下圖的因果圖模型,然後透過do演算法實現干預,判斷各因子間存在的因果關係,最終輸出機率最大的因果圖作為識別的結果[15][16]。本文主要關注因果推斷,因果識別不做展開討論,更多示例可參考相關文章[17]

2.5 潛在結果模型(Rcm)[11]

Rcm關注的是干預前後的期望變化,即2.2所述的treatment effect。該模型不考慮分析所有因子的因果性,只關注treatment和output之間的因果強弱,因此也不需要構建完整了因果圖,而是假設treatment和output外的其他因子均為混淆因子,構建粗略的因果圖,透過預測反事實的結果,並於觀測對比來完成因果推斷。

該模型的期望輸出分為四種(AtE\/Att\/cAtE\/ItE),可根據業務需求選擇。對於for單個研究物件的反事實推斷,模型的目標是計算每一個樣本i的因果效應,即 = (t=1)? (t=0)。以3.3服藥和康復的case為例,t = 是否服藥,Y = 是否康復。我們知道,一個人是無法同時觀測到吃藥和不吃藥對康復的影響,Scm也無法推測服藥對某個使用者的價值。而Rcm則會根據資料形態(即使用者屬性、歷史表現以及混淆因子“年齡”等)預測實際未發生的行為將產生的結果,從而推斷出ItE。同理可得出AtE、Att、cAtE。

因為業界很多時候關注的是單個treatment因子的價值,所以Rcm往往是業界的首選。

2.5.1 基本假設

Rcm存在如下3個基本假設[18]:

穩定單元干預值假設(Stable Unit treatment Value Assumption, SUtVA):任意單元的潛在結果都不會因為其他單元的干預發生改變而改變,且對於每個單元,其所接受的每種干預不存在不同的形式或版本,也不會導致不同的潛在結果。以吃藥康復的例子解釋這裡的兩層含義,其一是你吃不吃藥不影響我是否康復;其二是每種干預是唯一的,吃藥不存在吃很多、吃很少的情況,統一藥量,要考慮藥量就要設定不同的干預值(即此時干預變數不能只是0和1)