1 概念
决策树,顾名思义,就是帮我们做出决策的树。现实生活中我们往往会遇到各种各样的抉择,把我们的决策过程整理一下,就可以发现,该过程实际上就是一个树的模型。
决策树分为分类树和回归树两种,分类树对离散变量做决策树 ,回归树对连续变量做决策树,这里我们只讨论分类树。
比如选择好瓜的时候:
我们可以认为色泽、根蒂、敲声是一个西瓜的三个特征,每次我们做出抉择都是基于这三个特征来把一个节点分成好几个新的节点。
在上面的例子中,色泽、根蒂、声音特征选取完成后,开始进行决策,在我们的问题中,决策的内容实际上是将结果分成两类,即是(1)否(0)好瓜。这一类智能决策问题称为分类问题,决策树是一种简单的处理分类问题的算法。
一颗完整的决策树包含以下三个部分:
- 根节点:就是树最顶端的节点,比如上面图中的“色泽”。
- 叶子节点:树最底部的那些节点,也就是决策结果,好瓜还是坏瓜。
- 内部节点,除了叶子结点,都是内部节点。
- 树中每个内部节点表示在一个属性特征上的测试,每个分支代表一个测试输出,每个叶节点表示一种类别。
给定一个决策树的实例:
构造决策树如下:
第一层
根节点:被分成17份,8是/9否,总体的信息熵为:
第二层
2 生成算法
构建决策树时,首先要选择一个根节点,而究竟选择谁来当根节点的准则,有以下三种。
2.1 ID3(信息增益)
2.2 C4.5(信息增益率)
2.3 CART(基尼指数)
基尼指数(基尼不纯度):表示在样本集合中一个随机选中的样本被分错的概率。
基尼系数越小,不纯度越低,特征越好。这和信息增益(率)正好相反。基尼指数可以用来度量任何不均匀分布,是介于 0~1 之间的数,0 是完全相等,1 是完全不相等。
2.4 三种算法的对比
适用范围:
ID3算法只能处理离散特征的分类问题,C4.5能够处理离散特征和连续特征的分类问题,CART算法可以处理离散和连续特征的分类与回归问题。
假设空间:
ID3和C4.5算法使用的决策树可以是多分叉的,而CART算法的决策树必须是二叉树。
优化算法:
ID3算法没有剪枝策略,当叶子节点上的样本都属于同一个类别或者所有特征都使用过了的情况下决策树停止生长。
C4.5算法使用预剪枝策略,当分裂后的增益小于给定阈值或者叶子上的样本数量小于某个阈值或者叶子节点数量达到限定值或者树的深度达到限定值,决策树停止生长。
CART决策树主要使用后剪枝策略。
3 剪枝处理
决策树算法很容易过拟合,剪枝算法就是用来防止决策树过拟合,提高泛华性能的方法。
剪枝分为预剪枝与后剪枝。
预剪枝是指在决策树的生成过程中,对每个节点在划分前先进行评估,若当前的划分不能带来泛化性能的提升,则停止划分,并将当前节点标记为叶节点。
预剪枝方法有:
- 当叶节点的实例个数小于某个阈值时停止生长;
- 当决策树达到预定高度时停止生长;
- 当每次拓展对系统性能的增益小于某个阈值时停止生长;
预剪枝不足就是剪枝后决策树可能会不满足需求就被过早停止决策树的生长。
后剪枝是指先从训练集生成一颗完整的决策树,然后自底向上对非叶节点进行考察,若将该节点对应的子树替换为叶节点,能带来泛化性能的提升,则将该子树替换为叶节点。
后剪枝决策树通常比预剪枝决策树保留了更多的分枝,一般情形下,后剪枝决策树的欠拟合风险很小,泛化能力往往优于预剪枝决策树。但后剪枝决策树是在生产完全决策树之后进行的,并且要自底向上地对所有非叶子节点进行逐一考察,因此其训练时间开销比未剪枝的决策树和预剪枝的决策树都要大很多。
4 案例以及软件实现
4.1 案例介绍
根据红酒的颜色强度,苯酚,类黄酮等变量,生成一个能够区分琴酒,雪莉,贝尔摩德三种品种的红酒的决策树
4.2 案例操作
Step1:新建分析;
Step2:上传数据;
Step3:选择对应数据打开后进行预览,确认无误后点击开始分析;
step4:选择【决策树分类】;
step5:查看对应的数据数据格式,按要求输入【决策树分类】数据;
step6:点击【开始分析】,完成全部操作
4.3 结果展现
输出结果1:模型参数
上表展示了训练该模型的时候,输入的参数以及训练所耗的时间。
输出结果2:决策树结构
上图展示了决策树结构,内部节点给出了被分枝特征的具体切分情况,即根据某个特征的某个切分值进行划分。 (若节点数大于30,点击下载按钮查看决策树结构)
- gini/信息熵用以确定对哪一个特征进行切分。
- 样本种类分布是该节点中属于各个分类组别的样本数量,如[10,5,5]表示三种分类组别分别有10、5、5个样本数量。
- 分类情况是该节点的样本统一被划分到的分类组别(这是由拥有最大样本量的组别所决定的)。
PS:若节点数大于30,SPSSPRO提供下载按钮查看决策树结构;若节点数大于2000,由于树结构渲染模糊,SPSSPRO不提供下载导出;
输出结果3:特征重要性
上柱形图或表格展示了各特征(自变量)的重要性比例。(附:有时候可以利用决策树的特征重要性反推该变量在实际生活中的价值,因为该重要性往往决定分类结果。)
输出结果4:混淆矩阵热力图
上表以热力图的形式展示了混淆矩阵,可以通过右上角切换在测试数据集和训练数据集中的情况。
输出结果5:模型评估结果
上表中展示了训练集和测试集的分类评价指标,通过量化指标来衡量决策树对训练、测试数据的分类效果。
- 准确率:预测正确样本占总样本的比例,准确率越大越好。
- 召回率:实际为正样本的结果中,预测为正样本的比例,召回率越大越好。
- 精确率:预测出来为正样本的结果中,实际为正样本的比例,精确率越大越好。
- F1:精确率和召回率的调和平均,精确率和召回率是互相影响的,虽然两者都高是一种期望的理想情况,然而实际中常常是精确率高、召回率就低,或者召回率低、但精确率高。若需要兼顾两者,那么就可以用F1指标。
分析:测试集中准确率、召回率、精确率、F1均在0.875,模型拟合效果优秀。
输出结果6:测试数据预测评估结果
上表展示了决策树模型对测试数据的分类结果,分类结果值是拥有最大预测概率的分类组别。
输出结果6:模型预测与应用(此功能只在客户端支持使用)
注:当无法进行预测功能时,可检查数据集中是否存在定类变量或者缺失值:
●当存在定类变量时,请在用于训练模型的数据集和用于预测的数据集中将变量编码,再进行操作。 (SPSSPRO:数据处理->数据编码->将定类变量编码为定量)
●当用于预测数据的数据集中存在缺失值时,请删去缺失值再进行操作。
情况1:在上面模型评估后,模型分类结果较好,具有实用性,这时我们将该模型进行应用。点击【模型预测】上传文件可以直接得到预测结果。
情况2:若是上传的数据包括因变量真实值,不仅仅可以得到预测结果,还可以得到当前数据分类混淆矩阵和分类评价效果。
5 注意事项
- SPSSPRO采用的是CART算法
- 由于决策树具有随机性,每次运算的结果不一样。若需要保存本次训练模型,需要使用SPSSPRO客户端进行。
- 决策树无法像传统模型一样得到确定的方程,在每个决策节点上,所选择的分割特征决定了最终的分类结果,通常通过测试数据分类效果来对模型进行评价。
- 决策树的参数修改需要使用SPSSPRO客户端进行
相关推荐
第三届数据分析科普竞赛优秀协办单位及校园大使名单公布!
# 2024年全国大学生数据分析实践赛获奖名单(初稿)公示 2024年全国大学生数据分析实践赛自2024年8月16日开启,共计吸引了来自
**2024数据分析实践赛已于8月16日 18:00正式公布题目!** 完整题目、数据及论文提交格式下载方式: 一、直接通过赛氪网公告下