因果推断-增益模型综述 :http://proceedings.mlr.press/v67/gutierrez17a/gutierrez17a.pdf​​​​​​​

名词/缩写英文全称名词解释备注
treatment 干预、实验组 
control 不干预、控制组 
uplift modeluplift model增益模型: 预测某种干预treatment的增量的模型 
CE  causal effect因果效应:  用户在干预和不干预的情况下的提升,即干预前后结果的差值。
ACEAverage Causal Effect平均因果效应:  取所有用户的因果效应期望的估计值来衡量整个用户群的效果。 
ITEIndividual Treatment Effect个体因果效应() 
ATEAverage Treatment Effect平均因果效应所有用户的因果效应期望。
CATEConditional Average Treatment Effect条件平均因果效应所有用户的因果效应期望。
Conditional是指基于用户的特征。
CIAConditional Independence Assumption条件独立假设用户特征和干预策略相互独立。
AB实验的两组样本在特征分布上基本一致,即满足CIA。
ATT 只关注treatment的ATE 
ATC 只关注control的ATE 
Meta-learning methodsMeta-learning methods元学习方法 
S-learnerConditional Outcome Modeling  (COM) 将treatment作为特征,干预组和非干预组一起训练,解决bias不一致的问题。
问题: 特征维度很高,干预/不干预只有1-dim,容易导致treatment效果丢失。
T-Learnergrouped Conditional Outcome Modeling (Grouped COM / GCOM) 为解决COM中增益效果提升趋向于0的问题。模型加强了对T的权重,其他流程跟COM一样。
X-Learner  在T-learner基础上,利用全量的数据进行预测,主要解决Treatment组间数据量差异较大的情况。
R-learner R-learner的思路将问题转化为定义损失函数R-loss的形式进行学习训练,更专注残差。 
标签转换方法The Class Transformation Method 

适用于treatment、 outcome都是二分类的情况。通过将预测目标做转换,实现one model的预测。
解决实验组、对照组用户分组概率问题:
(1)数据重采样,个人建议下采样
(2)引入用户倾向分,即每个用户倾向于被分配到实验组、对照组的概率。

增量直接建模Tree-Based Method  
分布散度  常见的分布散度有KL散度、欧式距离、卡方散度。
因果森林CausalForest 因果森林的核心是把一个个建立好的因果树 causal tree(或 uplift tree)做组合ensemble,把每棵因果树计算出的干预结果取平均。
CTS算法Contextual Treatment Selection  
基于神经网络的方法NN-Based Method  
DragonNet   
uplift柱状图 计算流程:
(1)在测试集上,将实验组和对照组分别按照模型预测出的增量由高到低排序,根据用户占比,分别划分10等份,即Top10%, 20%,…100%
(2)分别计算Top10%, 20%,…100%的用户平均预测转化概率,即Avg(y-pred),预测分数的均值,然后相减作为这个十分位分组内的提升uplift,绘制柱状图
基尼曲线Qini Curve计算流程:
(1)在测试集上,将实验组和对照组分别按照模型预测出的增量由高到低排序,根据用户占比,分别划分10等份,即Top10%, 20%,…100%
(2)计算Top10%, 20%,…100%的Qini系数,生成Qini曲线数据(Top10%, Q(Top10%)),…(Top100%, Q(Top100%))

1、Qini系数计算公式:Q(i)
2、因为Qini系数分母是实验组和对照组的总样本量,如果样本量差异比较大,结果将变得不可靠。

调整Qini曲线Adjusted Qini Curve调整Qini曲线是为了避免实验组和对照组数据不均衡而导致Qini系数失真而设计的。

1、Aqini系数计算公式:

AUUC
增益曲线面积
Area Under the Uplift Curve uplift曲线如何绘制?
使用AUUC评价模型时,优点是可以避免实验组和对照组用户数量差别较大导致的指标不可靠问题。
但,当分桶时,对照组边界点预估出的增量与实验组边界点的预估有较大差别的时候,Qini曲线和AUUC两个指标都不可靠。要选AUUC的另一个计算方法。

1、AUUC指标计算公式:G(i)

AUUC非平衡情况分析 如果实验组和对照组满足随机性,但不平衡,即不是1:1或 P(T=1|x)=q, q!=0.5概率。那么增益曲线uplift curve: 
AUUC优化-降低方差   
累积增益曲线Cumulative Gain Curve  

1、指标计算公式:

Logo

开放原子开发者工作坊旨在鼓励更多人参与开源活动,与志同道合的开发者们相互交流开发经验、分享开发心得、获取前沿技术趋势。工作坊有多种形式的开发者活动,如meetup、训练营等,主打技术交流,干货满满,真诚地邀请各位开发者共同参与!

更多推荐