Analytics India杂志
现在读
Gini杂质VS信息增益与Chi-Square - 决策树分割方法
Analytics India杂志

Gini杂质VS信息增益与Chi-Square - 决策树分割方法

决策树是最常用的机器学习模型之一,因为它们易于实现和解释简单。为了更好地从应用它们的数据中学习,需要根据数据的属性对决策树的节点进行拆分。在本文中,我们将了解拆分决策树的需要以及用于拆分树节点的方法。基尼系数、信息增益和卡方是三种最常用的分割决策树的方法。在这里我们将讨论这三种方法,并试图找出它们在具体案例中的重要性。我们将在本文中讨论的要点概述如下。

目录

  1. 决策树
  2. 决策树的关键术语
  3. 决策树中的节点拆分
  4. 决策树分裂方法
    1. 基尼杂质
    2. 信息增益
    3. 卡方
  5. 比较分裂方法

让我们从理解决策树开始讨论。

注册AWS数据和分析结果>>

决策树

机器学习中使用的预测建模方法之一是决策树学习,也称为决策树的诱导。它来自关于使用决策树(作为预测模型)的项目的目标值(在叶子中表示)的推论的观察。

分类树是一种树模型,其中目标变量可以取一组离散的值;在这些树结构中,叶子表示类标签,而分支表示导致这些类标签的特征组合。回归树是一种决策树,其中目标变量具有一定范围的值(通常是实数)。由于其可理解性和简单性,决策树是最受欢迎的机器学习方法之一。

决策树背后的主要思想是找到保持目标功能的最多信息的功能,然后与这些功能的值一起分区数据集,从而导致在节点处尽可能纯度的目标特征值。最具信息丰富的功能是最能与目标功能信息中的不确定性隔离的特征。在我们最终获得纯叶节点之前,可以获得最具信息丰富的特征的搜索过程。

决策树的关键术语

让我们看看决策树是什么样子的,以及当提供新的预测输入时它是如何工作的。下图描述了决策树的基本结构。每棵树都有一个根节点,输入通过根节点路由。这个根节点进一步细分为决策节点集,其中的发现和观察是基于条件的。

分割是将单个节点分割成多个节点的过程。如果一个节点没有分裂成其他节点,它被称为叶节点或终端节点。分支或子树是决策树的一段。还有另一个与分裂截然相反的概念。

案例通过决策树进行分类,决策树从根到某个叶/终端节点对案例进行排序,叶/终端节点对示例进行分类。树中的每个节点都是某个属性的测试用例,从节点下行的每条边都代表测试用例的一个可能解决方案。这是一个递归过程,对于每个新的节点根子树都要重复这个过程。

决策树中的节点拆分

决策树完全依赖于目标变量,尽管它们的算法不同于分类和回归树。有许多方法可以决定如何对所提供的数据进行分区。

决策树的主要目的是在最佳将数据划分为适当的类别之间的节点之间找到最佳分割。为实现这一目标,我们必须采用正确的决策程序。规则对算法的性能有直接影响。

有一些必须做出的假设:

  • 首先将整个数据集视为根,然后利用方法将根分解或分割为子树。
  • 特征值被分类为分类。如果值是连续的,则它们在模型构建之前拆分。
  • 递归地,记录是基于属性值分布的。
  • 统计方法用于将特性订购为树的根或内部节点。

决策树分裂方法

当数据集包含N个变量时,很难决定将哪些变量放在树的根或作为内部节点的不同级别。随机选择任意节点作为根并不能解决问题。如果我们使用随机技术,我们可能会在有限的精度下得到令人失望的结果。研究人员合作开发了属性选择挑战的答案。他们建议采用这样的标准;

  1. 基尼杂质
  2. 信息增益
  3. 卡方

将使用这些标准计算每个属性的值。值是排序的,特征是在树中排序的,属性的最高值(在获取信息的情况下)位于树的顶部。我们假定信息增益的属性是分类的,而基尼杂质的属性是连续的。

基尼杂质

如果所有元素准确地分成不同的类(理想场景),则该部门称为纯粹。基尼杂质(发音​​为“Genie”)用于预测随机选择的示例将被特定节点分类错误的可能性。它被称为“杂质”度量,因为它显示了模型与纯部门的不同之处。

Gini杂质的程度范围为0到1,0表示所有元素属于单个类,1表示只存在一个类。值1的基尼杂质表明所有物品都随机分布在各种类上,而值为0.5表示元素均匀地分布在某些类上。它是原本如下公式给出的狮子座Breiman1984年。

如何计算拆分的基尼杂质

  1. 使用前面提到的成功(p)和失败(q)公式(p2+q2)计算子节点的基尼系数。
  2. 使用加权的基尼分数计算每个拆分节点的Gini杂质。
信息增益

熵的概念是测量信息增益的关键。另一方面,信息获取是建立在信息理论的基础上的。术语“信息获取”指的是选择提供最多类信息的最佳特征/属性的过程。它遵循熵的概念,同时试图降低从根节点到叶节点的熵水平。通过计算分裂前后的熵差作为信息增益,确定类内元素的杂质。

信息增益= 1 - 熵

也可以看看

熵是对随机变量不确定性的度量;它表示任意样品收集的杂质。熵越高,信息就越多。

当我们在决策树中使用节点以将培训实例分段为较小的子集时,熵通常会更改。熵的变化通过信息增益来衡量。

Sklearn支持信息增益的“熵”要求,如果我们希望在Sklearn中使用信息增益方法,我们必须明确表达它。

以下是使用信息增益划分决策树的步骤:

  1. 计算每个分裂的每个子节点的熵。
  2. 作为子节点的加权平均熵,计算每个拆分的熵。
  3. 选择具有最低熵或最大信息增益的拆分。
  4. 重复步骤1-3,直到拥有同质节点。
卡方

CHAID是卡方自动交互检测器的缩写。这是最古老的树木分类系统之一。它决定子节点与父节点之间差异的统计显著性。用目标变量的观测频率和期望频率之间的标准化差值的平方和来计算。

它对分类目标变量“成功”或“失败”进行操作。它能够执行两次或多次拆分。卡方值越大,子节点与父节点差异的统计学意义越大。

使用卡方的另一个主要好处是,它可以在单个节点上进行多次拆分,从而获得更高的精度和准确性。要计算分割的卡方,请遵循以下步骤:

  1. 获取节点中每个类的CHI-Square值的总和,以确定每个分块的每个子节点的Chi-Square值。
  2. 计算每个分割的卡方值作为所有子节点的卡方值的总和。
  3. 选择具有更大Chi-Square值的拆分。
  4. 应该重复步骤1-3,直到您拥有相同的节点。

比较分裂方法

在下面,我们将通过从上述讨论中得出的一些比较点,这将有助于决定使用哪种方法。

  • 信息增益的计算方法是将类别的概率乘以以2为底的类别概率的对数。基尼杂质的计算方法是将每一类的概率平方和从1中减去。
  • Gini杂质倾向于更大的分区(分布)并且易于实现,而信息增益倾向于具有各种不同值的较小的分区(分布),因此需要进行数据和分裂标准实验。
  • 当处理分类数据变量时,Gini杂质返回“成功”或“失败”,并且只进行二进制分裂;相反,信息增益评估分裂前后的熵差,并说明类变量中的杂质。
  • 卡方法有助于确定子节点和父节点之间差异的统计学意义。我们将其计算为目标变量的观测频率和期望频率之间的标准化差异的平方和。

最后的话

通过这篇文章,我们看到了在决策树算法的后台工作中可以使用哪些不同的方法。我们还讨论了决策树是如何分割的,以及用于分割决策树的不同方法是什么。我们还讨论了许多与树相关的重要术语,并详细讨论了所有这些方法。

参考文献

你怎么看?

加入我们的不和服务器。加入一个有吸引力的在线社区。加入这里


订阅我们的通讯

通过共享您的电子邮件获取最新的更新和相关优惠。

188BET网页

滚动到顶部
Baidu