决策树和随机森林的区别

目录:

Anonim

主要区别 决策树和随机森林之间的区别在于 决策树是一种图,它使用分支方法来说明决策的每个可能结果,而随机森林是一组决策树,它根据其所有决策树的输出给出最终结果。

机器学习是人工智能的一种应用,它使系统能够根据过去的经验进行学习和改进。决策树和随机森林是机器学习中的两种技术。决策树映射了一系列相关选择的可能结果。它很受欢迎,因为它简单易懂。当数据集变得更大时,单个决策树不足以找到预测。随机森林是决策树的集合,是这个问题的替代方案。随机森林的输出基于其所有决策树的输出。

决策树、机器学习、随机森林

什么是决策树

决策树是用于确定行动方案的树形图。树的每个分支代表一个可能的决定、事件或反应。

有几个与决策树相关的术语。熵是数据集中不可预测性的度量。拆分数据集后,熵水平随着不可预测性的降低而降低。信息增益是吐出数据集后熵的减少。以信息增益变得更高的方式拆分数据很重要。最终决策或分类称为叶节点。最顶层或主节点称为根节点。数据集应该被拆分,直到最终的熵变为零。

一个简单的决策树如下。

图 1:决策树

上面的决策树分类了一组水果。有4个葡萄、2个苹果和2个橙子。当考虑到直径小于 5 时,葡萄被归为一侧,而橙子和苹果归为另一侧。葡萄不能进一步分类,因为它的熵为零。当根据颜色分类时,即水果红色是否为红色,苹果被归类到一侧,而橙子被归类到另一侧。因此,该决策树以 100% 的准确度对苹果、葡萄或橙子进行分类。

总体而言,决策树易于理解,更易于解释和可视化。它不需要大量的数据准备。它可以处理数字和分类数据。另一方面,数据中的噪声会导致过拟合。此外,模型也可能由于微小的变化而变得不稳定。

什么是随机森林

随机森林是一种通过在训练阶段构建多个决策树来运行的方法。大多数树的决定是随机森林的最终决定。一个简单的例子如下。

假设有一组水果(樱桃、苹果和橙子)。以下是对这三种水果类型进行分类的三种决策树。

图 2:决策树 1

图 3:决策树 2

图 4:决策树 3

给模型一个直径为 3 的新水果。这种水果呈橙色,在夏季生长。第一个决策树将其归类为橙色。第二个决策树将其归类为樱桃,而第三个决策树将其归类为橙子。当考虑所有三棵树时,橙色有两个输出。因此,随机森林的最终输出是一个橙色。

总的来说,随机森林在更大的数据集上提供了准确的结果。它还降低了过度拟合的风险。

决策树和随机森林的区别

定义

决策树是一种决策支持工具,它使用树状图或决策模型及其可能的后果,包括机会事件结果、资源成本和效用。随机森林是一种集成学习方法,它通过在训练时构建大量决策树并根据单个树输出类别来进行操作。

过拟合

在决策树中存在过度拟合的可能性。在随机森林中使用多棵树降低了过度拟合的风险。

准确性

随机森林比决策树给出更准确的结果。

复杂

决策树比随机森林更简单,更容易理解、解释和可视化,随机森林相对更复杂。

结论

决策树和随机森林之间的区别在于,决策树是使用分支方法来说明决策的每个可能结果的图,而随机森林是一组决策树,根据所有结果给出最终结果它的决策树。

参考:

1. 随机森林算法——随机森林详解 |机器学习中的随机森林,Simplilearn,2018 年 3 月 12 日,可在此处获得。

决策树和随机森林的区别