CART决策树-基尼指数(全网最详解)

基尼指数（Gini Index）表示从数据集中随机抽取两个样本，它们类别标记不一致的概率。Gini系数D∑k1Kpk1−pk1−∑k1Kpk2Gini系数(D)= \sum_{k=1}^{K} p_k(1-p_k)=1-\sum_{k=1}^{K} p^{2}_kGini系数Dk1∑Kpk1−pk1−k1∑Kpk2Gini指数DA∣D1∣∣D∣Gini系数。

红米煮粥

3088人浏览 · 2024-08-22 22:14:51

红米煮粥 · 2024-08-22 22:14:51 发布

文章目录

一、基尼指数的定义
二、基尼指数在CART决策树中的应用
三、基尼指数与CART决策树的构建
四、总结

CART决策树基尼指数是CART（Classification And Regression Tree）算法中用于分类任务的一种评估指标，主要用于衡量数据集的不纯度或不确定性。以下是关于CART决策树基尼指数的详细解释：

一、基尼指数的定义

基尼指数（Gini Index）表示从数据集中随机抽取两个样本，它们类别标记不一致的概率。对于一个包含K个类别的数据集D，其基尼指数的计算公式为：

$\sum_{k=1}^{K} p_k(1-p_k)=1-\sum_{k=1}^{K} p^{2}_k$
$Gini指数(D,A)=\frac{|D_1|}{|D|}Gini系数(D_1)+\frac{|D_2|}{|D|}Gini系数(D_2)$

其中， $p_k$ 表示类别k在数据集D中的比例。基尼指数的取值范围在[0, 1]之间，值越小表示数据集的纯度越高，即属于同一类别的样本占比越大。

二、基尼指数在CART决策树中的应用

在构建CART分类树时，算法会根据基尼指数来选择最优的特征进行数据集的分割。具体步骤如下：

计算基尼指数：对于每个特征，算法会尝试所有可能的切分点，并计算切分后左右子集的基尼指数。
选择最佳切分：选择使得划分后基尼指数加权和最小的那个特征和切分点作为最优划分。加权和是根据子集大小（样本数量）来计算的。
递归构建树：以选定的特征和阈值进行数据集的分割，然后对每个子集重复上述过程，直至满足停止条件（如节点中的样本都属于同一类别、达到预设的最大深度、节点中的样本数低于某个阈值等）。

三、基尼指数与CART决策树的构建

CART决策树的构建过程是一个递归的过程，通过不断选择最优特征和切分点来分割数据集，直到满足停止条件。基尼指数在这个过程中起到了关键作用，它帮助算法选择出能够最大程度降低数据集不纯度的特征和切分点。下面我们举例说明。
例：
在这里插入图片描述

1.计算每个子集的基尼系数：

首先计算各特征的基尼指数，选择最优特征以及其最优切分点。分别以 $A_1$ ， $A_2$ ， $A_3$ ， $A_4$ 表示年龄、有工作、有自己的房子和信贷情况4个特征，并以1，2，3表示年龄的值为青年、中年和老年，以1，2表示有工作和有自己的房子的值为是和否，以1，2，3表示信贷情况的值为非常好、好和一般.
对于子集 $A_1$ ，我们计算其基尼指数Gini( $A_1$ )，这涉及到计算 $A_1$ 中每个类别的比例，并代入基尼指数公式。
同理，对于子集 $A_2$ ， $A_3$ ， $A_4$ ，我们计算Gini( $A_2$ ， $A_3$ ， $A_4$ )。
特征 $A_1$ （年龄）的基尼系数：
首先我们代入公式：
$\sum_{k=1}^{K} p_k(1-p_k)=1-\sum_{k=1}^{K} p^{2}_k$
$Gini指数(D,A)=\frac{|D_1|}{|D|}Gini系数(D_1)+\frac{|D_2|}{|D|}Gini系数(D_2)$
青年(5人，2人贷款)的基尼系数：
$Gini系数(D_1)=\frac{2}{5}*(1-\frac{2}{5})+\frac{3}{5}*(1-\frac{3}{5})=0.48$
$Gini系数(D_1)=2*\frac{2}{5}*(1-\frac{2}{5})=0.48$
如果是类别是二分类，则基尼系数：
$p (1 - p) + (1 - p) p = 2 p (1 - p)$
非青年（10人，7人贷款）的基尼系数：
$Gini系数(D_2)=2*\frac{7}{10}*(1-\frac{7}{10})=0.42$

2.计算基尼指数

在 $A_1=1$ （青年）条件下，D的基尼指数：
$Gini指数(D,A_1=1)=\frac{5}{15}*0.48+\frac{10}{15}*0.42=0.44$
总公式为：
$Gini指数(D,A_1=1)=\frac{5}{15}*[2*\frac{2}{5}*(1-\frac{2}{5})]+\frac{10}{15}*[2*\frac{7}{10}*(1-\frac{7}{10}]=0.44$
在 $A_1=2$ （中年）条件下，D的基尼指数：
$Gini指数(D,A_1=2)=\frac{5}{15}*[2*\frac{3}{5}*(1-\frac{3}{5})]+\frac{10}{15}*[2*\frac{6}{10}*(1-\frac{6}{10}]=0.48$
在 $A_1=3$ 条件下，D的基尼：
$Gini指数(D,A_1=3)=\frac{5}{15}*[2*\frac{4}{5}*(1-\frac{4}{5})]+\frac{10}{15}*[2*\frac{5}{10}*(1-\frac{5}{10}]=0.44$

3.选择最优特征

由于 $Gini指数(D,A_1=1)$ 和 $Gini指数(D,A_1=3)$ 相等，且最小，所以 $A_1=1$ 和 $A_1=3$ 都可以选作 $A_1$ 的最优切点。

4.其余基尼指数

同理：
求特征 $A_2$ 和 $A_3$ 的基尼指数：
$Gini(D, A_2=1)=0.32$
$Gini(D,A_3=1)=0.27$
由于 $A_2$ 和 $A_3$ 只有一个切分点，所以它们就是最优切分点。
求特征 $A_4$ 的基尼指数：
$Gini(D,A_4=1)=0.36$
$Gini(D,A_4=2)=0.47$
$Gini(D, A_4=3)=0.32$
$Gini(D，A_4=3)$ 最小，所以 $A_4=3$ 为A的最优切分点。

5.构建决策树

在 $A_1$ ， $A_2$ ， $A_3$ ， $A_4$ 几个特征中， $Gini(D，A_3=1)=0.27$ 最小，所以选择特征 $A_3$ 为最优特征， $A_3=1$ 为其最优切分点，于是根结点生成两个子结点，一个是叶结点.对另一个结点继续使用以上方法在 $A_1$ ， $A_2$ ， $A_4$ 中选择最优特征及其最优切分点，结果是 $A_2=1$ 依此计算得知，所得结点都是叶结点.