随机森林为什么不会过度拟合

如题所述

推荐答案 2017-09-04

来源：知乎

谢宇杰

大型机软件工程师
不是不会过拟合，而是在满足一定的条件下不容易过拟合。特征参数要足够多，特征参数之间相关性尽量低。
知乎用户

Breiman的这句话完全错误，根本没有不过拟合的学习方法！
对于随机森林来说: 在有躁音的情况下(注意，现实世界应用中躁音不能忽略)，树太少很容易过拟合，增加树可以减小过拟合，但没有办法完全消除过拟合，无论你怎么增加树都不行。

------------------
随机森林
决策树主要流行的算法有ID3算法，C4.5算法、CART算法，主要花费时间在建决策树和剪枝过程中，但一旦建成决策树，由于他是树形结构能够直观的显示出模型，而且在后期的分类过程中也比较容易分类，但决策树有一些不好的地方，比如容易过拟合。为了减少决策树的不足，近年来又提出了许多模型组和+决策树的算法，这些算法都是生成N棵决策树，虽然这N棵树都很简单，但是它们综合起来就很强大了，有点类似与adaboost算法。
随机森林主要思想是先对原始样本随机选出N 个训练子集用于随机生成N颗决策树，针对每个样本集在构建决策树的选择最优属性进行划分时是随机选择m个属性，而不是像常用的决策树将所有的属性参与选择，再由这些决策树构成一个森林,随机森林的每一棵决策树之间是没有关联的。在得到森林之后，当有一个新的输入样本进入的时候，就让森林中的每一棵决策树分别进行一下判断，看看这个样本应该属于哪一类，然后看看哪一类被选择最多，就预测这个样本为那一类。
随机森林算法三个步骤：
（1）为每棵决策树抽样产生训练集
随机森林算法采用Bagging抽样技术从原始训练集中产生N 个训练子集(假设要随机生成N颗决策树)，每个训练子集的大小约为原始训练集的三分之二，每次抽样均为随机且放回抽样，这样使得训练子集中的样本存在一定的重复，这样做的目的是为了在训练的时候，每一棵树的输入样本都不是全部的样本，使森林中的决策树不至于产生局部最优解。
（2）构建决策树
为每一个训练子集分别建立一棵决策树，生成N棵决策树从而形成森林，每棵决策树不需要剪枝处理。
由于随机森林在进行节点分裂时，随机地选择某m个属性（一般是随机抽取指定logM +1个随机特征变量,m<<M）参与比较，而不是像决策树将所有的属性都参与属性指标的计算。为了使每棵决策树之间的相关性减少，同时提升每棵决策树的分类精度，从而达到节点分裂的随机性。
（3）森林的形成
随机森林算法最终的输出结果根据随机构建的N棵决策子树将对某测试样本进行分类，将每棵子树的结果汇总，在所得到的结果中哪个类别较多就认为该样本是那个类别。
由于上面两个随机采样（从原始训练集中随机产生N个训练子集用于随机生成N颗决策树和在针对每个样本集构建决策树过程中随机地选择m个属性）的过程保证了随机性，所以不会出现过拟合over-fitting。随机森林中的每一棵数分类的能力都很弱，但是多棵树组合起来就变的NB，因为每棵树都精通某一方面的分类，多棵树组成一个精通不同领域的决策专家。
随机森林优缺点
优点：
1、随机森林可以处理高维数据，并确定变量的重要性，是一个不错的降维方法；
2、对数据缺失，随机森林也能较好地保持精确性；
3、当存在分类不平衡的情况时，随机森林能够提供平衡数据集误差的有效方法；
缺点：
1、随机森林算法可以解决回归问题，但是由于不能输出一个连续型值和作出超越训练集数据范围的预测，导致在对某些噪声的数据进行建模时出现过度拟合；
2、随机森林算法类似于黑盒子，由于几乎无法控制模型内部的运行，只能在不同的参数和随机种子之间进行尝试。

温馨提示：答案为网友推荐，仅供参考

当前网址：http://66.wendadaohang.com/zd/xsxDvix92Usn99ppnD.html

其他回答

第1个回答 2019-11-11

来源：知乎
谢宇杰
大型机软件工程师
不是不会过拟合，而是在满足一定的条件下不容易过拟合。特征参数要足够多，特征参数之间相关性尽量低。
知乎用户
Breiman的这句话完全错误，根本没有不过拟合的学习方法！
对于随机森林来说:
在有躁音的情况下(注意，现实世界应用中躁音不能忽略)，树太少很容易过拟合，增加树可以减小过拟合，但没有办法完全消除过拟合，无论你怎么增加树都不行。
------------------
随机森林
决策树主要流行的算法有ID3算法，C4.5算法、CART算法，主要花费时间在建决策树和剪枝过程中，但一旦建成决策树，由于他是树形结构能够直观的显示出模型，而且在后期的分类过程中也比较容易分类，但决策树有一些不好的地方，比如容易过拟合。为了减少决策树的不足，近年来又提出了许多模型组和+决策树的算法，这些算法都是生成N棵决策树，虽然这N棵树都很简单，但是它们综合起来就很强大了，有点类似与adaboost算法。
随机森林主要思想是先对原始样本随机选出N
个训练子集用于随机生成N颗决策树，针对每个样本集在构建决策树的选择最优属性进行划分时是随机选择m个属性，而不是像常用的决策树将所有的属性参与选择，再由这些决策树构成一个森林,随机森林的每一棵决策树之间是没有关联的。在得到森林之后，当有一个新的输入样本进入的时候，就让森林中的每一棵决策树分别进行一下判断，看看这个样本应该属于哪一类，然后看看哪一类被选择最多，就预测这个样本为那一类。
随机森林算法三个步骤：
（1）为每棵决策树抽样产生训练集
随机森林算法采用Bagging抽样技术从原始训练集中产生N
个训练子集(假设要随机生成N颗决策树)，每个训练子集的大小约为原始训练集的三分之二，每次抽样均为随机且放回抽样，这样使得训练子集中的样本存在一定的重复，这样做的目的是为了在训练的时候，每一棵树的输入样本都不是全部的样本，使森林中的决策树不至于产生局部最优解。
（2）构建决策树
为每一个训练子集分别建立一棵决策树，生成N棵决策树从而形成森林，每棵决策树不需要剪枝处理。
由于随机森林在进行节点分裂时，随机地选择某m个属性（一般是随机抽取指定logM
+1个随机特征变量,m<<M）参与比较，而不是像决策树将所有的属性都参与属性指标的计算。为了使每棵决策树之间的相关性减少，同时提升每棵决策树的分类精度，从而达到节点分裂的随机性。
（3）森林的形成
随机森林算法最终的输出结果根据随机构建的N棵决策子树将对某测试样本进行分类，将每棵子树的结果汇总，在所得到的结果中哪个类别较多就认为该样本是那个类别。
由于上面两个随机采样（从原始训练集中随机产生N个训练子集用于随机生成N颗决策树和在针对每个样本集构建决策树过程中随机地选择m个属性）的过程保证了随机性，所以不会出现过拟合over-fitting。随机森林中的每一棵数分类的能力都很弱，但是多棵树组合起来就变的NB，因为每棵树都精通某一方面的分类，多棵树组成一个精通不同领域的决策专家。
随机森林优缺点
优点：
1、随机森林可以处理高维数据，并确定变量的重要性，是一个不错的降维方法；
2、对数据缺失，随机森林也能较好地保持精确性；
3、当存在分类不平衡的情况时，随机森林能够提供平衡数据集误差的有效方法；
缺点：
1、随机森林算法可以解决回归问题，但是由于不能输出一个连续型值和作出超越训练集数据范围的预测，导致在对某些噪声的数据进行建模时出现过度拟合；
2、随机森林算法类似于黑盒子，由于几乎无法控制模型内部的运行，只能在不同的参数和随机种子之间进行尝试。

相似回答

模型:随机森林是否会过拟合?答：随机森林会过拟合 1.随着树的增多误差方差减少为0，单偏差仍然存在。2.避免过拟合的方式通过调整参数，如叶子结点的样本数量。Reference:https://mljar.com/blog/random-forest-overfitting/

随机森林答：(1)随机森林在解决回归问题时,并没有像它在分类中表现的那么好,这是因为它并不能给出一个连续的输出。当进行回归时,随机森林不能够作出超越训练集数据范围的预测,这可能导致在某些特定噪声的数据进行建模时出现过拟合。(PS:随机森林已经被证明在某些噪音较大的分类或者回归问题上会过拟合) (2)对于许多统计建模者...

10、决策树集成--随机森林答：随机森林中的树越多，模型的鲁棒性就越好。更多的树可以降低过拟合，但需要的内存也越多，即在内存允许的情况下尽量多。对于维度非常高的稀疏数据（比如文本数据），随机森林的表现往往不是很好。调节的参数主要有n_estimators（树的个数）、max_features和max_depth。n_estimators总是越大越好，较小的...

能简单解释下随机森林和Xgboost吗?答：随机森林的优点在于易于实现、训练速度快，且在高维数据和不平衡数据集上有出色的表现，同时能提供特征重要性的评估。然而，随机森林的缺点是对于噪声数据和模型解释性较差。GBDT：梯度提升的决策树之旅GBDT则是基于弱学习器的迭代算法，每个决策树学习前一轮模型的残差，目标是减小预测误差。它的核心是残差...

理论:随机森林-枝剪问题答：通常情况下， 随机森林不需要后剪枝。剪枝的意义是：防止决策树生成过于庞大的子叶，避免实验预测结果过拟合，在实际生产中效果很差剪枝通常有两种：PrePrune：预剪枝，及早的停止树增长，在每个父节点分支的时候计算是否达到了限制值 PostPrune：后剪枝，基于完全生长（过拟合）的树上进行剪枝，砍掉一些对...

机器学习模型训练:如何避免过拟合?答：使用正则化技术,通过在模型算法中添加惩罚函数来防止过拟合。常见的正则化方法有L1和L2正则化。利用集成学习方法利用集成学习方法如随机森林,能有效降低过拟合的风险。谨慎减少特征数量虽然减少特征数量是一种方法,但需谨慎使用(不推荐过多使用)。注意,降维并不能完全解决过拟合问题,因为降维只是减少了特征的...

大家正在搜

随机森林防止过拟合随机森林过拟合解决方法决策树随机森林随机森林分类器缺点随机森林GINI系数非线性模型存不存在过拟合随机森林算法原理 lasso回归怎么防止过拟合 gbdt过拟合