什么是随机森林

如题所述

第1个回答 2022-06-18

Bagging是 bootstrap aggregating 。思想就是从总体样本当中 随机取一部分样本进行训练，通过多次这样的结果，进行投票获取平均值作为结果输出 ，这就极大可能的 避免了不好的样本数据，从而提高准确度 。因为有些是不好的样本，相当于噪声，模型学入噪声后会使准确度不高。Bagging降低 Variance ，因此采用的都是强学习器。

举个例子 ：

假设有1000个样本，如果按照以前的思维，是直接把这1000个样本拿来训练，但现在不一样，先抽取800个样本来进行训练，假如噪声点是这800个样本以外的样本点，就很有效的避开了。重复以上操作，提高模型输出的平均值。

Random Forest(随机森林)是 一种基于树模型的Bagging的优化版本 ，一棵树的生成肯定还是不如多棵树，因此就有了随机森林，解决 决策树泛化能力弱的 特点。(可以理解成三个臭皮匠顶过诸葛亮)

而同一批数据，用同样的算法只能产生一棵树，这时Bagging策略可以 帮助我们产生不同的数据集 。 Bagging 策略来源于bootstrap aggregation：从样本集（假设样本集N个数据点）中重采样选出Nb个样本（有放回的采样，样本数据点个数仍然不变为N），在所有样本上，对这n个样本建立分类器（ID3\C4.5\CART\SVM\LOGISTIC）， 重复以上两步m次，获得m个分类器 ，最后根据这m个分类器的投票结果，决定数据属于哪一类。

每棵树的按照如下规则生成：

一开始我们提到的随机森林中的“随机”就是指的这里的两个随机性。两个随机性的引入对随机森林的分类性能至关重要。由于它们的引入，使得随机森林 不容易陷入过拟合，并且具有很好得抗噪能力 （比如：对缺省值不敏感）。

总的来说就是随机选择样本数，随机选取特征，随机选择分类器，建立多颗这样的决策树，然后通过这几课决策树来投票，决定数据属于哪一类( 投票机制有一票否决制、少数服从多数、加权多数 )

减小 特征选择个数m，树的相关性和分类能力也会相应的降低 ；增大m，两者也会随之增大。所以关键问题是 如何选择最优的m （或者是范围），这也是随机森林唯一的一个参数。

优点：

缺点：

根据随机森林创建和训练的特点，随机森林对缺失值的处理还是比较特殊的。

其实，该缺失值填补过程类似于推荐系统中采用协同过滤进行评分预测，先计算缺失特征与其他特征的相似度，再加权得到缺失值的估计，而随机森林中计算相似度的方法（数据在决策树中一步一步分类的路径）乃其独特之处。

OOB ：

上面我们提到，构建随机森林的关键问题就是 如何选择最优的m ，要解决这个问题主要依据计算 袋外错误率oob error（out-of-bag error） 。

bagging方法中Bootstrap每次约有 1/3的样本不会出现在Bootstrap所采集的样本集合中 ，当然也就没有参加决策树的建立，把这1/3的数据称为 袋外数据oob（out of bag） ,它可以用于 取代测试集误差估计方法 。

袋外数据(oob)误差的计算方法如下：

优缺点 ：

这已经经过证明是 无偏估计的 ,所以在随机森林算法中 不需要再进行交叉验证或者单独的测试集来获取测试集误差 的无偏估计。

相似回答

rgf是什么意思?答：RGF是一种常见的缩写词，它代表了“RandomForestsandGradientBoosting”，中文意思是：“随机森林和梯度提升”。这是两种机器学习算法的结合体，可以用来处理各种各样的数据问题。随机森林常被用来进行分类和回归，而梯度提升则可以解决梯度下降过程中容易陷入局部最小值的问题。在实际应用中，RGF可以用于图像处...

随机森林基于什么算法答：随机森林是一种集成学习方法，它基于决策树算法。在随机森林中，决策树是通过随机采样（有放回地抽取训练集的样本）和特征选择（随机选择一部分特征）构建的。这样构建的决策树可以减少过拟合，提高模型的泛化能力。随机森林通常包含多个决策树，每个决策树的结果通过投票或平均值进行集成。随机森林在分类、回...

随机森林算法是什么?答：随机森林是一种比较新的机器学习模型。经典的机器学习模型是神经网络，有半个多世纪的历史了。神经网络预测精确，但是计算量很大。上世纪八十年代Breiman等人发明分类树的算法（Breiman et al. 1984），通过反复二分数据进行分类或回归，计算量大大降低。2001年Breiman把分类树组合成随机森林（Breiman 2001a...

我用Python进行随机森林回归,训练好模型后用来预测,预测值却为一个定 ...答：随机森林是以决策树为基础的一种更高级的算法。随机森林可用于回归也可以用于分类。它的工作原理是生成多个分类器/模型，各自独立地学习和作出预测。最后对这些预测进行集成，因此优于任何一个单分类的做出预测，是一种优秀的机器学习模型。之所以你没能学习到有效的模型，可能是你的数据中的因子与预测指标...

随机森林预测结果应该出来啥答：作为新兴起的、高度灵活的一种机器学习算法，随机森林（Random Forest，简称RF）拥有广泛的应用前景，从市场营销到医疗保健保险，既可以用来做市场营销模拟的建模，统计客户来源，保留和流失，也可用来预测疾病的风险和病患者的易感性。最初，我是在参加校外竞赛时接触到随机森林算法的。最近几年的国内外大赛...

为什么要进行知识建模,知识建模的方法是什么?答：当然，随机森林是一种预测性建模工具，而不是一种描述性工具。也就是说，如果您正在寻找关于数据中关系的描述，那建议首选其他方法。五、FP-growth算法：FP代表频繁模式（Frequent Pattern）。这里有几点需要强调一下：第一，FP-growth算法只能用来发现频繁项集，不能用来寻找关联规则。第二，FP-growth算法...

大家正在搜

随机森林通俗理解随机森林什么时候出的随机森林的主要思想随机森林概念随机森林模型可以用来干嘛随机森林可以分析什么内容随机森林用来解决什么问题随机森林简介随机森林原理大白话