12-分类算法-决策树、随机森林

如题所述

举报该问题

第1个回答 2022-07-02

决策树

生活中的决策树模型：

显然：判断依据的重要性从前往后越来越小

信息的度量和作用

在不知道任何信息的情况下猜测32支球队中的冠军：如果用二分法，需要猜5次，即需要的代价为5bit，这个5bit我们称之为信息熵（H）
5 = -(1/32log(1/32) + 1/32log(1/32) + ... + 1/32log(1/32))

公式：概率log概率之和

如果我们知道了一些球队的信息，需要的代价会小于5bit
5 > -(1/4log(1/32) + 1/8log(1/32) + ... + 1/24log(1/32))

信息熵越大(比如，当每个球队的夺冠几率相等)，不确定性越大

结合决策数，之所以我们先对某些条件进行判断，是因为能够减少我们更多的不确定性

决策树的划分依据——信息增益

信息增益：当得知一个条件之后，减少的信息熵的大小

决策树的api

在泰坦尼克号和titanic2数据帧描述泰坦尼克号上的个别乘客的生存状态。在泰坦尼克号的数据帧不包含从剧组信息，但它确实包含了乘客的一半的实际年龄。关于泰坦尼克号旅客的数据的主要来源是百科全书Titanica。这里使用的数据集是由各种研究人员开始的。其中包括许多研究人员创建的旅客名单，由Michael A. Findlay编辑。
我们提取的数据集中的特征是票的类别，存活，乘坐班，年龄，登陆，home.dest，房间，票，船和性别。乘坐班是指乘客班（1，2，3），是社会经济阶层的代表。
其中age数据存在缺失。

决策树部分图例：

决策树的优缺点以及改进

优点：

缺点：

改进：

集成学习方法

集成学习通过建立几个模型组合的来解决单一预测问题。它的工作原理是 生成多个分类器/模型 ，各自独立地学习和作出预测。这些预测最后结合成单预测，因此优于任何一个单分类的做出预测。

随机森林是一个包含多个决策树的分类器，并且其输出的类别是由个别树输出的类别的众数而定。

随机森林建立多个决策树的过程：

ps：为什么要随机抽样？避免每颗树的训练集的一样，那么最终训练出的上面的分类结果也是完全一样的

随机森林案例：

随机森林的优点：

随机森林几乎没有缺点

相似回答

人工智能的十大常用算法都有什么?答：人工智能十大算法是朴素贝叶斯算法、K近邻算法、决策树算法、支持向量机算法、神经网络算法、遗传算法、粒子群算法、蚁群算法、随机森林算法、协同过滤算法，具体如下：1、朴素贝叶斯算法（Naive Bayes）：是一种基于贝叶斯定理的分类算法，常用于文本分类、垃圾邮件过滤等领域。2、K近邻算法（K-Nearest Neighbo...

决策树与随机森林答：决策树学习通常包括三个步骤：特征选择，决策树的生成和决策树的修剪。而随机森林则是由多个决策树所构成的一种分类器，更准确的说，随机森林是由多个弱分类器组合形成的强分类器。本文将先对决策树特征选择的算法ID3, C4.5和CART进行计算，然后介绍决策树的剪枝策略，最后介绍随机森林。在信息论中，...

分类算法有哪些答：分类算法有很多种，包括但不限于逻辑回归、决策树、随机森林、支持向量机（SVM）和神经网络等。首先，逻辑回归是一个二分类算法，它使用逻辑函数将线性回归的输出映射到(0,1)之间，以得到样本点属于某一类别的概率。逻辑回归简单高效，常用于处理大规模高维数据，如广告点击率预测等。其次，决策树是一种...

简述树模型之决策树、随机森林、xgboost答：梯度提升决策树。专门处理表格型数据，如pd.DataFrame，基于Boosting。下面是一些关键的参数:GBDT每轮迭代数据都与上一轮结果有关，就信息元来说可以保证结果尽可能接近真实数据，偏差不会很大，但联系紧密的数据拟合会使得方差过大，因此需要浅一点的树来降低方差。而基于Bagging的随机森林，各分类相互...

哪些算法是分类算法答：2. 朴素贝叶斯算法：是一种基于概率的分类算法，通过计算各类标签的概率来对数据进行分类。3. 支持向量机算法：是一种基于统计学习的分类算法，通过训练样本找到分类边界，实现对数据的分类。4. 随机森林算法：是一种基于多个决策树的分类算法的集成，通过多个决策树的投票或平均来对数据进行分类。这些算法...

数据挖掘算法有哪几种答：数据挖掘算法主要包括以下几种：1. 分类算法：如决策树、随机森林、支持向量机（SVM）等。这些算法可以用于预测类别型数据。2. 聚类算法：如K-means、层次聚类、DBSCAN等。这些算法用于将数据分组，使得相似的数据点聚集在一起。3. 关联规则学习：这种方法主要用于识别数据集中项集之间的有趣关系，即识别...

大家正在搜

分类决策树算法决策树算法计算过程基于决策树的算法决策树算法有哪些决策树算法比较常见的决策树算法决策树算法步骤决策树归纳的基本算法决策树三种算法