利用随机森林对特征重要性进行评估

如题所述

举报该问题

第1个回答 2022-07-23

随机森林是以决策树为基学习器的集成学习算法。随机森林非常简单，易于实现，计算开销也很小，更令人惊奇的是它在分类和回归上表现出了十分惊人的性能，因此，随机森林也被誉为“代表集成学习技术水平的方法”。
本文是对随机森林如何用在特征选择上做一个简单的介绍。

只要了解决策树的算法，那么随机森林是相当容易理解的。随机森林的算法可以用如下几个步骤概括：

没错，就是这个到处都是随机取值的算法，在分类和回归上有着极佳的效果，是不是觉得强的没法解释~
然而本文的重点不是这个，而是接下来的特征重要性评估。

sklearn 已经帮我们封装好了一切，我们只需要调用其中的函数即可。我们以UCI上葡萄酒的例子为例，首先导入数据集。

然后，我们来大致看下这是一个怎么样的数据集

输出为

可见共有3个类别。然后再来看下数据的信息：

输出为:

可见除去class label之外共有13个特征，数据集的大小为178。

按照常规做法，将数据集分为训练集和测试集。此处注意： sklearn.cross_validation 模块在0.18版本中被弃用，支持所有重构的类和函数都被移动到了model_selection模块。从sklearn.model_selection引入train_test_split

好了，这样一来随机森林就训练好了，其中已经把特征的重要性评估也做好了，我们拿出来看下。

输出的结果为

对的就是这么方便。
如果要筛选出重要性比较高的变量的话，这么做就可以

输出为

这样，帮我们选好了3个重要性大于0.15的特征。

相似回答

利用随机森林对特征重要性进行评估答：好了，这样一来随机森林就训练好了，其中已经把特征的重要性评估也做好了，我们拿出来看下。输出的结果为对的就是这么方便。如果要筛选出重要性比较高的变量的话，这么做就可以输出为这样，帮我们选好了3个重要性大于0.15的特征。

随机森林如何评估特征重要性答：随机森林中进行特征重要性的评估思想为：判断每个特征在随机森林中的每颗树上做了多大的贡献，然后取个平均值，最后比一比特征之间的贡献大小。其中关于贡献的计算方式可以是基尼指数或袋外数据错误率。基尼指数计算方法：k 代表 k 个类别，代表类别 k的样本权重。对于一棵树，用OOB样本可...

特征筛选(随机森林)答：随机森林能够度量每个特征的重要性，我们可以依据这个重要性指标进而选择最重要的特征。sklearn中已经实现了用随机森林评估特征重要性，在训练好随机森林模型后，直接调用feature_importan ces 属性就能得到每个特征的重要性。一般情况下，数据集的特征成百上千，因此有必要从中选取对结果影响较大的特征来进行...

特征值的重要程度筛选用灰色关联分析和随机森林选哪个更好?_百度知 ...答：随机森林 随机森林是一个基于树模型的集成学习算法，它通过构建多个决策树来进行分类或回归分析。在特征选择方面，随机森林可以评估每个特征在树模型中的重要性，通常通过特征在分裂节点中使用情况的频率和深度来衡量。优点：能够处理非常高维度的数据，并且不需要事先进行特征选择。在许多情况下，即使默认参数...

随机森林可以计算每个参数的贡献率吗答：可以。在随机森林中，可以通过计算每个特征的重要性来估计其对模型预测的贡献程度。特征重要性是基于特征在决策树中的节点分裂次数和分裂所获得的信息增益来计算的。因此，特征重要性可以用来衡量每个特征对结果的影响程度，从而可以估计每个参数的贡献率。

如何计算随机森林中的变量重要性?答：首先对于每棵树，每次利用Bootstrap方法抽取样本进行训练，但是有1/3的数据没有抽取到，这样的数据成为袋外数据OOB（out of bag），将OOB带入决策树中，计算出误差error1,对OOB中所有样本的特征X对应的值进行噪声干扰，即随机改变特征的值，再将数据带入决策树中，计算出误差error2。对于N棵树，计算...

大家正在搜

森林对我们的重要性森林对动物的重要性森林对地球的重要性特征重要性与相关性人对事物重要性的态度特征称为森林保护的重要性关于关于森林防火的重要性开展森林防火的重要性特征重要性