用随机森林进行特征重要性评估的思想其实很简单,说白了就是看看每个特征在随机森林中的每棵树上做了多大的贡献,然后取个平均值,最后比一比特征之间的贡献大小。通常可以用基尼指数(Gini index)或者袋外数据(OOB)错误率作为评价指标来衡量。
(1)基于特征贡献度(Gini Importance):该方法使用基尼指数(Gini Index)作为特征重要性的度量。对于每个决策树,计算每个特征在分裂节点上的基尼指数。基尼指数衡量了在给定节点上根据特征进行分割后,样本在类别上的不纯度。特征重要性度量即为每个特征的基尼指数之和,并进行归一化。
(2)基于袋外误差减少(Out-of-Bag Error Reduction):在随机森林中,每个决策树都是通过从原始数据集中进行有放回抽样(bootstrap)来构建的。这意味着对于每个决策树,大约有约三分之一的数据样本不会在构建该树时使用,这些样本被称为"袋外样本"(Out-of-Bag, OOB)。特征重要性度量可以通过计算在袋外样本上预测误差的减少来进行。方法是对于每个决策树,在袋外样本上计算预测误差(例如,均方误差)并记录下来。然后,随机打乱某个特征的值在袋外样本上进行预测,并重新计算预测误差。特征重要性度量即为原始预测误差和打乱后的预测误差之差的平均值。
0 条评论
可输入 255 字