SPSS决策树CHAID可以生成树图吗？

如题所述

推荐答案 2024-01-03

决策树(Decision Tree)常用于研究类别归属和预测关系的模型，比如是否抽烟、是否喝酒、年龄、体重等4项个人特征可能会影响到‘是否患癌症’，上述4项个人特征称作‘特征’，也即自变量（影响因素X），‘是否患癌症’称为‘标签’，也即因变量（被影响项Y）。决策树模型时，其可首先对年龄进行划分，比如以70岁为界，年龄大于70岁时，可能更容易归类为‘患癌症’，接着对体重进行划分，比如大于50公斤为界，大于50公斤时更可能划分为‘患癌症’，依次循环下去，特征之间的逻辑组合后（比如年龄大于70岁，体重大于50公斤），会对应到是否患癌症这一标签上。

决策树是一种预测模型，为让其有着良好的预测能力，因此通常需要将数据分为两组，分别是训练数据和测试数据。训练数据用于建立模型使用，即建立特征组合与标签之间的对应关系，得到这样的对应关系后（模型后），然后使用测试数据用来验证当前模型的优劣。通常情况下，训练数据和测试数据的比例通常为9:1,8:2,7:3,6:4或者5:5（比如9:1时指所有数据中90%作为训练模型使用，余下10%作为测试模型好坏使用）。具体比例情况似研究数据量而定无固定标准，如果研究数据较少，比如仅几百条数据，可考虑将70%或者60%，甚至50%的数据用于训练，余下数据用于测试。上述中包括模型构建和模型预测两项，如果训练数据得到的模型优秀，此时可考虑将其进行保存并且部署出去使用（此为计算机工程中应用，SPSSAU暂不提供）；除此之外，当决策树模型构建完成后可进行预测，比如新来一个病人，他是否会患癌症及患癌症的可能性有多高。

1、背景

使用经典的‘鸢尾花分类数据集’进行案例演示，其数据集为150个样本，包括4个特征属性（4个自变量X），分别是花萼长度，花萼宽度，花瓣长度，花瓣宽度，标签为鸢尾花卉类别，共包括3个类别分别是刚毛鸢尾花、变色鸢尾花和弗吉尼亚鸢尾花（下称A、B、C三类）。

2、理论

决策树模型的原理上，其第1步是找出最优的特征和其分割点，比如影响是否患癌症的特征最可能是年龄，并且分割点可能是70岁，小于70岁可能归为‘不患癌症’，70岁及以上可能归为‘患癌症’。此第1步时会涉及到2个专业名词，分别是‘节点分裂标准’和‘节点划分方式’。第2步是找出次优的特征和其分割点，继续进行拆分。一直循环下去。

关于决策树模型时，通常涉及到以下参数值，如下：

节点分裂标准：其指模型找到特征优先顺序的计算方式，共有两种，分别是gini系数和entropy系数，二者仅为计算标准的区别功能完全一致，一般情况下使用gini系数。

特别提示

节点分裂标准的数学原理为：如果按某特征及其分割点后（比如年龄这个特征并且70岁这个分割点）后，分成两组时，一组为患癌症，一组不患癌症，如果‘分的特别开’，特别纯，混杂性特别小（比如一组为患癌症确实全部都患问卷，一组不患癌症确实都不患癌症），那么这个特征就是优秀的，节点分裂标准正是用于衡量特征的优劣。

节点划分方式：包括两种，一是best法即完全按照节点分裂标准进行计算，另一种是random随机法，随机法会减少过拟合现象，但通常默认使用best法。

节点分列最小样本：比如大于等于70岁划分为一组，如果发现70岁及以上时患癌症的样本量特别小，说明不能继续划分分组，一般情况下该值应该越大越好，过小的话容易带来过拟合现象。

叶节点最小样本量：比如大于等于70岁划分为一组，那么这个组别时最小的样本量需要多少，SPSSAU默认是2，一般情况下：该值越大越可能减少过拟合现象，该值越小越容易导致过拟合。

树最大深度：比如上述先按年龄划分，接着小于70岁时，再按次优特征比如体重进行划分，接着再按次次优特征比如是否吸烟进行划分，此处则出现划分的层次（即权最大深度），该值可以自行指定，当层次越多（树最大深度）时，此时模型越为复杂，拟合效果通常更好，但也可能带来过拟合现象，因而可结合特征数量及输出等，调整该参数值，确保模型相对简单但拟合效果良好时。

SPSSAU操作：

训练集比例默认选择为:0.8即80%（150*0.8=120个样本）进行训练决策树模型，余下20%即30个样本(测试数据)用于模型的验证。需要注意的是，多数情况下，会首先对数据进行标准化处理，处理方式一般使用为正态标准化，此处理目的是让数据保持一致性量纲。当然也可使用其它的量纲方式，比如区间化，归一化等。

接着对参数设置如下：

节点分裂标准默认为gini系数（该参数值只是计算分裂标准的方式，不需要设置），节点划分方式为best法，即为结合特征的优劣顺序进行分类划分，如果为了设置参数对比需要考虑，建议可对该参数值进行切换为random即随机特征的优先顺序，用于对比模型训练效果。

节点分列最小样本量默认为2即可，叶节点最小样本量默认为1即可。需要注意的是：如果数据量较大时，建议将该2个参数值尽量大，以减少过拟合现象，但该2个参数值越大时通常训练模型的拟合效果越差。具体应该以测试数据的拟合效果为准，因为训练模型容易出现过拟合现象。树最大深度这个参数时，其代表决策树最多有几层的意思，该参数值设置越大时，训练模型拟合效果通常越好，但可能带来过拟合情况，本案例出于演示需求，先设置为4层。（另提示：树最大深度会受到节点分裂最小样本量、叶节点最小样本量的影响，并非设置为4它一定就会为4）。

温馨提示：答案为网友推荐，仅供参考

当前网址：http://66.wendadaohang.com/zd/n9n922DnnnpvD29ss9i.html

相似回答

决策树在spss中的实现答：穷举CHAID是对CHAID的增强版本，它不局限于在发现显著差异时停止，而是展示所有可能的差异，形成更细致的分组。这种方法可能产生更全面的决策树结构。CART回归分类树，采用了最大熵或基尼系数减少量作为决策准则，适用于回归和分类问题。而QUEST，同样为二叉树生成方法，以速度见长，适合处理大规模数据。在实际...

决策树模型CHAID法可以连续变量吗答：决策树模型CHAID法可以连续变量。决策树模型是一种简单易用的非参数分类器它不需要对数据有任何的先验假设，计算速度较快结果容易解释而且稳健性强。简介复杂的决策情况中往往需要多层次或多阶段的决策当一个阶段决策完成后可能有m种新的不同自然状态发生每种自然状态下都有个新的策略可选择，选择后产生...

求最小最大后悔值和决策树问题各两道!急!答：决策树是用二叉树形图来表示处理逻辑的一种工具。可以直观、清晰地表达加工的逻辑要求。特别适合于判断因素比较少、逻辑组合关系不复杂的情况。决策树提供了一种展示类似在什么条件下会得到什么值这类规则的方法。比如，在贷款申请中，要对申请的风险大小做出判断，图是为了解决这个问题而建立的一棵决策树，...

大家正在搜

决策树生成算法决策树生成的规则决策树生成算法步骤决策树生成的两个阶段决策树和回归树决策树和博弈树决策树和判定树决策树的一般过程决策树制作