请问Logistic回归时，类型较多的分类自变量一定要转为虚拟变量吗？如“教育水平”

如题，因为类别太多设虚拟变量就要增加好多自变量，
那么这种类别比较多的变量该如何解决呢？
如，“教育水平：文盲，小学，初中，高中，大专，大学及以上”
这些一定要设5个虚拟变量吗？可以用一个变量的1,2,3,4,5,6代替吗（我好像看有些论文是这么做的）

举报该问题

推荐答案 2013-03-12

可以用相关分析或者t检验去掉一些变量的。

温馨提示：答案为网友推荐，仅供参考

当前网址：http://66.wendadaohang.com/zd/snipsDDxx.html

其他回答

第1个回答 2013-03-01

(1)如果分类变量“教育水平”有6个分类：“文盲”、“小学”、“初中”、“高中”、“大专”、“大学及以上”，显然需要（6-1）=5个虚拟变量。
(2)如果你嫌虚拟变量太多的话，可以合并分类。例如把“文盲”，“小学”合并为一个分类“小学及以下”，“初中”、“高中”、“大专”合并为一类“初中-大专”，这样合并以后就只剩下3类了，只需设置2个虚拟变量。当然合并分类需要根据问题的实际情况进行适当合并。
(3)不可以用一个变量的1,2,3,4,5,6代替！这样相当于把“教育水平”当做Interval变量，而不是当做Ordinal变量来处理。也就是加上了假设条件：“大学及以上”-“大专”=“大专”-“高中”
=“高中”-“初中”=“初中”-“小学”=“小学”-“文盲”！按常识的话，这种限制条件显然很难成立。当然，在实际问题中，你可以对这个假设条件进行检验！追问

谢谢！回答的很详细~
我能再问一下吗？做Logit回归时，可能的因素比较多（包括很多虚拟变量），如何对这些变量进行合理筛选呢？
比如先用逐步回归法？（可是逐步回归法好像是针对OLS的）...
所以我不知道该怎么筛选变量，变量太多了

追答

(1)如果建模数据集变量个数大于50的话，可以先筛选掉那些对目标变量影响不大的自变量。例如，可以对每个自变量做Logistic回归，然后计算相应的卡方值和p值。自己确定一个阈值（0.3等），删除掉卡方值很小的变量。
(2)如果某自变量缺失值的比例超过一定的值，也可删除掉。
(3)如果变量之间存在共线性，可用聚类分析来减少变量个数，同时处理掉复共线性。
(4)上面说的合并分类在实践中就是用聚类分析来解决的。
(5)经过以上4种初步筛选处理，得到的建模数据集变量个数一般会少很多。在Logistic模型中，同样有很多类似于多元线性回归的变量筛选方法，如向前回归法，向后回归法，逐步回归法，全模型法等。而且，这些方法用统计软件很容易实现。一般采用逐步回归法或者全模型法建模。

追问

再次感谢！有些还是有点不懂 1.你说的逐步回归LOGISTIC是在哪个软件里实现？Eviews可以吗？（我是用EVIEWS做的） 2.因子分析和你的聚类分析有什么区别？我可以用因子分析代替你说的聚类分析吗？新手上路，焦头烂额，万分感谢！

追答

(1)用SAS很容易实现Logistic逐步回归的。Eviews软件我没使用过，所以不清楚啊！
(2)对于字符型变量进行压缩时，一般采用聚类分析进行。这种情况下，因子分析不适用。
(3)不好意思，上面回答的第三点弄错了——如果变量之间存在共线性，可用主成分分析来减少变量个数，同时处理掉复共线性。

第2个回答 2013-03-04

（1）如果六大类分类变量“教育程度”，“文盲”，“小学”，“初中”，“高中”，“大学”，“大学及以上，很明显（6-1 ）= 5个虚拟变量。
（2），如果你认为太多的虚拟变量，可以结合分类，如“文盲”，“小学”组合成一个分类的“小学及以下”，“初中合并后的学校“，”高中“，”大学“合并为一类初中 - 大学，所以只有三类简单的设置了两个虚拟变量。课程合并归类，根据问题的实际情况，适当地合并。
（3）不能使用的变量，而不是1，2，3，4，5，6，这是一个相当于“教育程度”作为区间的变量，而不是作为序号的变量来处理。即，与假设：“大学及以上” - ？“大学”“大学” - “高中
=”高中“ - ”初中“=”初中学校“ - ”主“ “主” - “文盲”！这种限制是常识，显然很难成立。当然，在实际问题中，你可以测试这个假设！本回答被提问者和网友采纳

相似回答

...logistic回归,自变量有很多多于两类的分类变量,结果如何解读_百度...答：多分类变量需要设置虚拟变量。虚拟变量ABCD四类，以a为参考，那么解释就是b相对于a有无影响，c相对于a有无影响，d相对于a有无影响。

为什么要虚拟自变量?答：logistic回归与多重线性回归一样，在应用之前也是需要分析一下资料是否可以采用logistic回归模型。并不是说因变量是分类变量我就可以直接采用logistic回归，有些条件仍然是需要考虑的。首要的条件应该是需要看一下自变量与因变量之间是什么样的一种关系。多重线性回归中，要求自变量与因变量符合线性关系。而logi...

您好,我在编写二值逻辑回归时,有些协变量是多分类,需将其看作分类协变 ...答：分类协变量可以通过设置虚拟变量引入回归，有关虚拟变量的设置，你可以参考有关的计量经济学书籍，很简单，如果你的分类变量有三个分类，那么你要设置两个虚拟变量表示教育这个分类变量。例如：教育分为三类（初中，高中，大学），你可以如此设置虚拟变量：D1=（1-高中，0-其它）；D2=(1-大学，0-其它...

层次回归的调节作用,自变量是分类变量,要设置为虚拟变量吗答：不需要设置自变量是二分类不影响你任何操作，直接把二分类自变量也移入自变量框就可以了。只有当自变量的类别超过两类时才需要预先设虚拟变量

用SPSS做logistic回归时 多分类变量怎么设置哑变量答：则用D3=1,否则取0，如果是D，则D4=1，否则取0 D2 D3 D4 1 0 0——》B 0 1 0——》C 1 0 0——》B 0 0 1——》D 0 0 0——》A 注意，4分类只能设置3个哑变量，否则会出现虚拟变量陷阱问题，另外还需要考虑设置很多虚拟变量会造成自由度和共线性问题。

logistic回归分析是什么?答：Logit回归分析用于研究X对Y的影响，并且对X的数据类型没有要求，X可以为定类数据（可以做虚拟变量设置），也可以为定量数据，但要求Y必须为定类数据，并且根据Y的选项数，使用相应的数据分析方法。logit回归分析一般可分为三类，分别是二元logit回归、多分类logit回归、有序logit回归，三类logit回归区别如下...

大家正在搜

自变量与因变量的关系变量和自变量的区别自变量类型因变量与自变量什么叫自变量和因变量自变量的种类包括函数自变量的定义可变因素就是自变量吗自变量和因变量各是

请问Logistic回归时，类型较多的分类自变量一定要转为虚拟变量吗？ 如“教育水平”

请问Logistic回归时，类型较多的分类自变量一定要转为虚拟变量吗？如“教育水平”