当前位置：首页 > news >正文

【机器学习】决策树算法中的 “黄金指标”：基尼系数深度剖析

news 来源：原创 2025/4/24 11:34:05

一、基尼系数的基本概念

基尼系数（Gini Impurity）在决策树分类算法中，是用于衡量数据纯度的重要指标，与信息熵有着相似的功能。在样本集合里，基尼系数代表随机选取一个样本时，该样本被分错的概率。假设一个数据集中只有两类样本 A 和 B，若样本完全属于同一类（比如全是 A 类），此时随机选一个样本，分错的概率为 0，基尼系数就是 0，这意味着数据集纯度达到最高；反之，如果两类样本数量相等，随机选择样本分错的概率为 0.5，基尼系数为 0.5，数据集纯度最低。所以，基尼系数越小，说明数据集中各类别分布越集中，数据集的纯度就越高。

二、基尼系数的公式详解

基尼系数的计算公式为\(Gini = 1 - \sum_{i = 1}^{n}p_{i}^{2}\) ，其中n代表样本的类别数，\(p_{i}\)表示第i类样本在数据集中出现的概率。在计算时，要注意n是类别数量而非样本数量。相比于信息熵计算涉及对数运算，基尼系数的计算仅包含简单的平方和减法运算，计算过程更加简便，这在处理大规模数据时，能显著提升运算速度，减少计算资源的消耗。

三、基尼系数与信息熵的比较

走势对比：在二分类问题中，基尼系数和信息熵的变化趋势基本一致。当两类样本的概率p从 0 逐渐变化到 1 时，它们都会在\(p = 0.5\)时达到最大值。这表明在样本类别分布最均匀、不确定性最高时，二者都达到自身衡量指标的峰值。
物理意义差异：信息熵主要衡量随机变量的不确定度，反映了信息的混乱程度；而基尼系数更侧重于从样本被分错的概率角度，来描述数据集的纯度。例如在一个水果分类任务中，信息熵关注的是对水果类别判断的不确定性，基尼系数关注的则是把水果分错类别的可能性。
模型效果差异：在实际应用中，使用基尼系数和信息熵作为决策树划分标准，对模型最终效果的影响通常并不明显。二者都能有效地帮助决策树选择最优的划分特征，提升模型的分类性能。不过，由于基尼系数计算简单高效，在实际工程应用中，它成为了很多决策树算法默认的划分标准。

四、在 scikit-learn 中使用基尼系数

在 Python 的 scikit-learn 库中，使用基尼系数进行决策树划分十分便捷。在创建决策树模型时，只需将 criteria 参数设置为 'gini'，即可指定使用基尼系数作为划分依据。实际上，scikit-learn 库中的决策树模型默认就是使用基尼系数进行划分的。这使得开发者在使用决策树时，如果没有特殊需求，无需额外设置，就能直接利用基尼系数进行高效的模型训练和分类。

五、修改划分条件的代码实现

定义基尼系数计算函数：首先要实现一个计算基尼系数的函数，通过这个函数来准确计算每个特征划分后的基尼系数值。在代码中，需要按照基尼系数的公式，对各类别概率进行平方和计算，并最终得出基尼系数。
调整决策树数值计算部分：在决策树算法的代码实现中，将原本基于信息熵的数值计算部分修改为基于基尼系数的计算。这涉及到对特征划分时评估标准的改变，确保模型能根据基尼系数来选择最优划分。
替换函数名和参数：在决策树相关代码中，将涉及信息熵的函数名和参数替换为对应基尼系数的内容，完成从使用信息熵到使用基尼系数的转变。这样，决策树在训练过程中，就会依据基尼系数来确定最优划分特征，实现基于基尼系数的决策树构建。