L1正则如何处理多重共线性问题？

如题所述

推荐答案 2017-12-06

多重共线性是使用线性回归算法时经常要面对的一个问题。在其他算法中，例如决策树和贝叶斯，前者的建模过程是逐步递进，每次拆分只有一个变量参与，这种建模机制含有抗多重共线性干扰的功能；后者干脆假定变量之间是相互独立的，因此从表面上看，也没有多重共线性的问题。但是对于回归算法，不论是一般回归，逻辑回归，或存活分析，都要同时考虑多个预测因子，因此多重共线性是不可避免需要面对的，在很多时候，多重共线性是一个普遍的现象。在构造预测模型时如何处理多重共线性是一个比较微妙的议题。既不能不加控制，又不能一刀切，认为凡是多重共线性就应该消除。

温馨提示：答案为网友推荐，仅供参考

当前网址：http://66.wendadaohang.com/zd/Dpisnvii222inxDUnD.html

其他回答

第1个回答 2017-12-06

例如对于回归问题，如果有两个变量之间，有很强的共线性关系，听说L1正则，会倾向于让其中一个变量的权值为0，那么想了解一下，实际中，L1正则会让哪个变量的权值变为0，这个是随机的，还是有什么规律可以解释？直观而言，L1会倾向于把相对更“没用”的特征权值变成0。不过既然已经知道两个变量有线性关系，可以考虑做回归之前先去相关吧（比如PCA）。如果两个共线性很强的变量都是noise，都变0。如果有一个是signal或都是signal，如果p>n，那就是随机压缩到0；如果p<n，那都不会被压缩到0。去看Lasso Consistency那篇paper吧，有个Lasso Irrepresentable Condition。当signal 和noise共线性很强的时候，lasso 无法选出true model 。L1的作用是近似L0，而L0就是用在线性回归上就是特征选择，直觉上意在扔掉冗余特征，如果按照题目中说的有两个变量线性相关，往往(由于L1是近似L0，所以并不总是)最后最多留一个非零权重。L1要想和L0表现完全一致需要满足一些假设和理论条件。这个跟解法有关。lar和shooting可能会有不同结果。如果知道有相关性但是不知道是哪些，可以用elastic net。假如知道是哪些variable，可以用group lasso。假设两个变量分别是x,y, x≈t y. 那么在regression函数里，假设只有x，系数为a_0，假设只有y，系数为b_0。那么a_0 x≈b_0 y, a_0 ≈ b_0 / t. 加上L1 penalty之后，a_0产生的penalty是b_0/t, b_0当然产生b_0。优化后会选择一个小的penalty，也就是如果|t|>1，则|a_0|<|b_0|, y的系数b会被赶到0. 如果|t|<1, x的系数a会被赶到0. 如果|t|=1，那么a和b会随机生成一个组合，和为a_0+b_0。

相似回答

多重共线性问题怎么解决答：解决多重共线性问题的方法主要有以下几种：增加样本量：增加样本量可以减小样本误差，提高参数估计的准确性。剔除高相关自变量：通过相关系数矩阵或方差膨胀因子（VIF）来检测高相关自变量，并剔除其中一个或几个，以减小多重共线性。主成分分析（PCA）：通过将自变量进行线性变换，将原来的自变量转换为一组...

什么是多重共线性?有哪些作用?答：为了解决多重共线性问题，可以采取以下方法：1.增加样本量：通过增加样本量可以减少回归系数的方差，从而降低多重共线性的影响。2.删除冗余变量：通过删除与主要自变量高度相关的冗余变量，可以减少自变量之间的相关性，从而降低多重共线性的影响。3.使用主成分分析：通过将多个高度相关的自变量转化为少数几个...

为什么L1正则用于变量选择L2正则用于多重共线性答：L1正则假设参数的先验分布是Laplace分布，可以保证模型的稀疏性，也就是某些参数等于0；L2正则假设参数的先验分布是Gaussian分布，可以保证模型的稳定性，也就是参数的值不会太大或太小在实际使用中，如果特征是高维稀疏的，则使用L1正则；如果特征是低维稠密的，则使用L2正则。最后，附一张示意图。

在线性回归公式中,有哪些常见的变形方法?答：当线性回归模型中存在多重共线性问题时，即自变量之间高度相关，可以使用岭回归来正则化模型。岭回归通过在损失函数中添加一个L2正则项（自变量系数的平方和）来限制模型的复杂度。LASSO回归（Least Absolute Shrinkage and Selection Operator）：LASSO回归与岭回归类似，但使用L1正则化（自变量系数的绝对值之...

讲讲共线性问题答：最后对于逻辑回归任务,sklearn函数内部提供了L1或L2正则化方案,通过它们也可以去检测共线性问题。 [1]. variance inflation factor [2]. 多重共线性的解决方法之——岭回归与LASSO [3]. ridge regression 已赞过已踩过< 你对这个回答的评价是? 评论收起 ...

大家正在搜

如何解决多重共线性问题严重的多重共线性严重多重共线性的后果解决多重共线性多重共线性的影响完全多重共线性是什么判断多重共线性不完全多重共线性定义多重共线性是什么意思