用通俗易懂的方式剖析随机森林-文章-SPSSPRO社区

1 决策树

在解释随机森林前，需要先提一下决策树。

上面的图片可以直观的表达决策树的逻辑。选择好瓜的时候,我们首先要判断一个西瓜的纹理，如果纹理很模糊，那么这个挂一定是坏瓜；如果这个瓜的纹理稍微模糊，就去判断这个西瓜的触感怎么样。如果这个瓜的纹理比较清晰，那么接下来我们可以通过观察这个瓜的各个部分比如根蒂、色泽以及触感去一步一步判断一个瓜的好坏。这个就是决策树在分类问题中非常典型的例子。当决策树用于回归问题的时候，每个叶子节点就是一个一个实数值。

2 bagging集成

机器学习算法中有两类典型的集成思想：bagging和boosting。

bagging是一种在原始数据集上，通过有放回抽样分别选出k个新数据集，来训练分类器的集成算法。分类器之间没有依赖关系。

随机森林属于bagging集成算法。通过组合多个弱分类器，集思广益，使得整体模型具有较高的精确度和泛化性能。

3 随机森林

3.1 概述

随机森林是一种由决策树构成的集成算法，不同决策树之间没有关联。

当我们进行分类任务时，新的输入样本进入，就让森林中的每一棵决策树分别进行判断和分类，每个决策树会得到一个自己的分类结果，决策树的分类结果中哪一个分类最多，那么随机森林就会把这个结果当做最终的结果。如果进行的是回归的任务，最后结果取的是平均值。

举个简单的例子，我要决定五一去重庆游玩的景点。于是我询问了一位重庆本地的朋友，她给了我一些建议。这是典型的决策树算法。我的朋友根据自己的经验，告诉我可以去哪些景点游玩。之后，我又问了很多在重庆待过的朋友，他们推荐了自己去过的景点。然后我最终选择了被推荐次数最多的景点，这就是典型的随机森林算法。

所以理论上，随机森林的表现一般要优于单一的决策树，因为随机森林的结果是通过多个决策树结果投票来决定最后的结果。并且，由于随机性，随机森林对于降低模型方差效果显著。故随机森林一般不需要额外剪枝，就能取得较好的泛化性能。

3.2 步骤

假如有N个样本，从原始样本中随机且有放回地抽取N个样本，这选择好了的N个样本用来训练一个决策树，作为决策树根节点处的样本。
当每个样本有M个属性时，在决策树的每个节点需要分裂时，随机从这M个属性中选取出m个属性，满足条件m << M。然后从这m个属性中采用某种策略（比如说信息增益）来选择1个属性作为该节点的分裂属性。
决策树形成过程中每个节点都要按照步骤2来分裂（很容易理解，如果下一次该节点选出来的那一个属性是刚刚其父节点分裂时用过的属性，则该节点已经达到了叶子节点，无须继续分裂了）。一直到不能够再分裂为止。注意整个决策树形成过程中没有进行剪枝。
按照步骤1~3建立大量的决策树，这样就构成了随机森林了。