机器学习-logit回归
prediction预测值TPFPFNTN。
二分类模型的评估
常用指标
混淆矩阵 confusion matrix
reference/观测值 | |||
---|---|---|---|
prediction 预测值 | positive | negative | |
positive | TP true positive | FP false positive | |
negative | FN false negative | TN true negative |
对混淆矩阵的分析
主要指标:sensitivity灵敏度/true positive rate真阳率、specificity特异度/true negative rate真阴率、假阳率false positive rate
- 纵向考察
第一列——recall召回率/查全率
解释:实质为正的样本,能够被模型预测到的比例
sensitivity=precision=true positive rate=TP/(TP+FN)
适用场景:罕见病预测
第二列——specificity特异度/true negative rate真阴率、false positive rate假阳率
specificity特异度/true negative rate真阴率
解释:实际为负的样本,能够被模型预测到的比例
specificity=true negative rate=TN/(TN+FP)
false positive rate假阳率
解释:实际为负,但是被预测为正的样本比例
false positive rate=FP/(TN+FP)
- 横向考察
第一行:sensitivity灵敏度/precision查准率/true positive rate真阳率
解释: 在预测为正的的样本中,实际观测值为正的比例
recall=TP/(TP+FP)
查准率和查全率是一对矛盾的指标。一般来说,查准率高时,查全率往往偏低;二查全率高时,查准率往往偏低
在某些情况下,我们需要平衡查准率和查全率的取值,比如在医学诊断中,查准率和查全率的平衡非常重要。在这种情况下,我们通常使用F1值作为综合指标来评估模型性能。F1值是查准率和查全率的调和平均数,可以用以下公式计算:
F1值的取值范围在0和1之间,值越大表示模型的性能越好。
更多推荐
所有评论(0)