简述树模型之决策树、随机森林、xgboost

如题所述

第1个回答 2022-07-01

先介绍一下 损失函数 的概念，它被广泛用做构造树时调整树形和衡量模型性能的标准，主要涉及两个概念：1） 方差(variance) ：某一模型对不同测试集的预测结果波动程度；2） 偏差(bias) ：某次预测结果与实际数据的差。总的来说，模型简单，偏差大、方差小，欠拟合；模型复杂，偏差小、方差大，过拟合。因此模型优化也是这样一个寻找最佳平衡点的过程。

决策树是一种树状结构，它的每个叶节点对应一个分类，非叶节点对应在某个属性上的划分，根据样本在该属性上的不同取值划分成若干子集。构造决策树的核心问题是每一步对样本属性如何做拆分。对于一个分类问题，从已知数据做训练，生产决策树是一个自上而下的分治过程。

多棵决策树组成, 基于Bagging思想，有放回抽样。每轮结果之间相互独立，因此损失函数的方差不对太大。
max_leaf_nodes 参数决定迭代次数，也就是树的深度，选取不当会导致模型过(欠)拟合，后果是虽然训练结果准确度很高，但在实际部署时会发生意想不到的错误，这被称为数据泄露(data leakage)。二叉树并不是越深越好，太深会带来overfitting(过拟合)的问题，随机森林构造器的默认参数往往最优。

梯度提升决策树。专门处理表格型数据，如pd.DataFrame，基于Boosting。

下面是一些关键的参数:

GBDT每轮迭代数据都与上一轮结果有关，就信息元来说可以保证结果尽可能接近真实数据，偏差不会很大，但联系紧密的数据拟合会使得方差过大，因此需要浅一点的树来降低方差。
而基于Bagging的随机森林，各分类相互独立，受不同输入数据的影响小，目标是如何提高准确度，因此采用很深甚至不剪枝的树群。

数据挖掘小白一枚，如有错误，恳请大家指正~

相似回答

树模型总结答：第二,利用子数据集来构建子决策树,将这个数据放到每个子决策树中,每个子决策树输出一个结果。最后,如果有了新的数据需要通过随机森林得到分类结果,就可以通过对子决策树的判断结果的投票,得到随机森林的输出结果了。如下图,假设随机森林中有3棵子决策树,2棵子树的分类结果是A类,1棵子树的分类结果是B类,那么随机...

能简单解释下随机森林和Xgboost吗?答：在机器学习的领域中，随机森林和XGBoost是两种强大的集成学习方法，它们以其独特的策略和优势在众多任务中脱颖而出。让我们一起探索它们的工作原理、优缺点以及它们之间的区别。随机森林：多样性的森林力量随机森林是由众多决策树构成的集成模型，每个决策树的训练过程中，通过有放回抽样和随机选择特征来降低...

一文通俗讲透树模型答：优化算法是决策树的灵魂，从全局最优的暴力枚举到局部最优的自上而下贪心策略，如ID3和C4.5，都在寻找最佳的决策路径。随机森林中的 Extremely randomized trees 则引入随机性，降低模型复杂度，平衡泛化和偏差。在机器学习的旅程中，深入理解决策树模型是必不可少的。探索建模流程，处理数据不平衡，掌握...

【总结】机器学习中的15种分类算法答：集成算法篇随机森林：通过集成多个决策树，减少过拟合，提高预测稳定性。AdaBoost：逐次提升弱分类器，强化整体性能，但可能对异常值敏感。GBDT（梯度提升决策树）：通过累加决策树的预测误差，强化模型，尤其适合处理复杂问题，但对数据质量要求较高。XGBoost：优化GBDT，考虑二阶导数，提高模型精度，但计算...

R语言之决策树和随机森林答：R语言之决策树和随机森林总结决策树之前先总结一下特征的生成和选择,因为决策树就是一种内嵌型的特征选择过程,它的特征选择和算法是融合在一起的,不需要额外的特征选择。一、特征生成:特征生成是指在收集数据之时原始数据就具有的数据特征,这些数据特征由收集的数据决定(其实也就是在产品定型时设定的需要收集的数据...

12-分类算法-决策树、随机森林答：集成学习通过建立几个模型组合的来解决单一预测问题。它的工作原理是生成多个分类器/模型，各自独立地学习和作出预测。这些预测最后结合成单预测，因此优于任何一个单分类的做出预测。随机森林是一个包含多个决策树的分类器，并且其输出的类别是由个别树输出的类别的众数而定。随机森林建立多个决策树的...

大家正在搜

gbdt和随机森林哪个好 lightboost Xgboost catboost算法 boost