随机森林参数说明

如题所述

第1个回答 2022-07-04

最主要的两个参数是n_estimators和max_features。

理论上是越大越好，但是计算时间也相应增长。所以，并不是取得越大就会越好，预测效果最好的将会出现在合理的树个数。

每个决策树在随机选择的这max_features特征里找到某个“最佳”特征，使得模型在该特征的某个值上分裂之后得到的收益最大化。max_features越少，方差就会减少，但同时偏差就会增加。

如果是回归问题，则max_features＝n_features，如果是分类问题，则max_features＝sqrt(n_features)，其中，n_features 是输入特征数。

1.回归问题的应用场景（预测的结果是连续的，例如预测明天的温度，23，24，25度）

回归问题通常是用来预测一个值，如预测房价、未来的天气情况等等，例如一个产品的实际价格为500元，通过回归分析预测值为499元，我们认为这是一个比较好的回归分析。一个比较常见的回归算法是线性回归算法（LR）。另外，回归分析用在神经网络上，其最上层是不需要加上softmax函数的，而是直接对前一层累加即可。回归是对真实值的一种逼近预测。

2.分类问题的应用场景（预测的结果是离散的，例如预测明天天气-阴，晴，雨）

分类问题是用于将事物打上一个标签，通常结果为离散值。例如判断一幅图片上的动物是一只猫还是一只狗，分类通常是建立在回归之上，分类的最后一层通常要使用softmax函数进行判断其所属类别。分类并没有逼近的概念，最终正确结果只有一个，错误的就是错误的，不会有相近的概念。最常见的分类方法是逻辑回归，或者叫逻辑分类。

其他参数：

如果max_depth＝None，节点会拟合到增益为0，或者所有的叶节点含有小于min_samples_split个样本。如果同时min_sample_split=1，决策树会拟合得很深，甚至会过拟合。

如果bootstrap==True，将每次有放回地随机选取样本。

只有在extra-trees中，bootstrap=False。

1、随机森林应用的是Bagging模型，而ET是使用所有的训练样本得到每棵决策树，也就是每棵决策树应用的是相同的全部训练样本；

2、随机森林是在一个随机子集内得到最佳分叉属性，而ET是完全随机的得到分叉值，从而实现对决策树进行分叉的。

训练随机森林时，建议使用cross_validated（交叉验证），把数据n等份，每次取其中一份当验证集，其余数据训练随机森林，并用于预测测试集。最终得到n个结果，并平均得到最终结果。

1. 随机森林算法几乎不需要输入的准备。它们不需要测算就能够处理二分特征、分类特征、数值特征的数据。随机森林算法能完成隐含特征的选择，并且提供一个很好的特征重要度的选择指标。

2. 随机森林算法训练速度快。性能优化过程刚好又提高了模型的准确性，这种精彩表现并不常有，反之亦然。这种旨在多样化子树的子设定随机特征，同时也是一种突出的性能优化！调低给定任意节点的特征划分，能让你简单的处理带有上千属性的数据集。（如果数据集有很多行的话，这种方法同样的也可以适用于行采样）

3. 随机森林算法很难被打败。针对任何给定的数据集，尽管你常能找到一个优于它的模型（比较典型的是神经网络或者一些增益算法 boosting algorithm），但这类算法肯定不多，而且通常建这样的模型并调试好要比随机森林算法模型要耗时的更多。这也是为何随机森林算法作为基准模型表现出色的原因。

4. 建立一个差劲的随机森林模型真的很难！因为随机森林算法对指定使用的超参数（hyper-parameters ）并不十分敏感。为了要得到一个合适的模型，它们不需要做很多调整。只需使用大量的树，模型就不会产生很多偏差。大多数的随机森林算法的实现方法的参数设置初始值也都是合理的。

5. 通用性。随机森林算法可以应用于很多类别的模型任务。它们可以很好的处理回归问题，也能对分类问题应付自如（甚至可以产生合适的标准概率值）。虽然我从没亲自尝试，但它们还可以用于聚类分析问题。

————————————————

原文链接：https://blog.csdn.net/jiede1/article/details/78245597

原文链接：https://blog.csdn.net/rosefun96/article/details/78833477

相似回答

简述数据挖掘中随机森林算法的原理,优点和主要参数答：简述数据挖掘中随机森林算法的原理,优点和主要参数随机森林是一个用随机方式建立的，包含多个决策树的分类器。其输出的类别是由各个树输出的类别的众数而定。随机森林是一种集成算法（EnsembleLearning），它属于Bagging类型，通过组合多个弱分类器，最终结果通过投票或取均值，使得整体模型的结果具有较高的精确...

随机森林进行特征重要性度量的详细说明答：2）随机对袋外数据OOB所有样本的特征X加入噪声干扰（可以随机改变样本在特征X处的值），再次计算袋外数据误差，记为errOOB2。3）假设森林中有N棵树，则特征X的重要性=∑（errOOB2-errOOB1）/N。这个数值之所以能够说明特征的重要性是因为，如果加入随机噪声后，袋外数据准确率大幅度下降（即errOOB2...

如何用python实现随机森林分类答：这里我给出我的理解和部分翻译：参数说明：最主要的两个参数是n_estimators和max_features。n_estimators：表示森林里树的个数。理论上是越大越好。但是伴随着就是计算时间的增长。但是并不是取得越大就会越好，预测效果最好的将会出现在合理的树个数。max_features：随机选择特征集合的子集合，并用来...

求问随机森林算法的简单实现过程?答：原理：（随机森林的分类预测和回归预测sklearn.ensemble.RandomForestRegressor方法）(1)给定训练集S，测试集T，特征维数F。确定参数：使用到的CART的数量t，每棵树的深度d，每个节点使用到的特征数量f，终止条件：节点上最少样本数s，节点上最少的信息增益m，对于第1-t棵树，i=1-t：(2)从S中有放...

决策树与随机森林答：决策树模型呈树形结构，在分类问题中，表示基于特征对实例进行分类的过程。它可以认为是if-then规则的集合，也可以认为是定义在特征空间与类空间上的条件概率分布，其主要优点是模型具有可读性，分类速度快。决策树学习通常包括三个步骤：特征选择，决策树的生成和决策树的修剪。而随机森林则是由多个决策树...

RandomForest随机森林算法答：主要通过控制树的深度(max_depth),结点停止分裂的最小样本数(min_size)等参数。随机森林还可以处理缺失值。假设训练集中n个样本,每个样本有d个特征,需要训练一个包含T棵数的随机森林,具体的算法流程如下所示: 1、对于T棵决策树,分别重复如下操作:a、使用Bootstrap抽样,从训练集D获得大小为n的训练集D; b、...

大家正在搜

随机森林n_estimators 随机森林主要参数随机森林模型重要参数随机森林默认参数经典随机森林超参数有哪些随机森林怎么调参随机森林模型数据要求 randomforestclassifier参数随机森林回归参数设置