car | 线性回归(三)——残差分析和异常点检验

如题所述

在探索线性回归的深层次特性时,car包提供了强大的工具来检验模型的假设和异常点。首先,我们通过加载car和dplyr库,构建起我们的分析基础。利用lm函数创建模型,关键在于对其残差进行细致的剖析,这是评估模型拟合质量的关键步骤。


残差分析的核心在于理解模型的误差分布。hatvalues函数揭示了帽子矩阵,其值反映了每个观测值对模型预测的影响力。residuals和rstandard函数分别计算普通残差和标准化残差,它们的分散程度可以通过deviance除以df.residual来衡量。统计学生化残差,rstudent函数为我们在模型误差的标准化尺度上提供了一个更精确的视图。


模型诊断图是理解模型假设的关键:残差-拟合图检查线性关系的偏差,正态Q-Q图验证残差的正态分布,尺度-位置图测试同方差性,而残差-杠杆图则帮助我们寻找潜在的异常点。在model.1中加入二次项,显著提升了wt和wt^2与因变量的线性关联。


偏残差图如crPlots(model2, "wt"),在符合线性假设时,应近似为一条直线。当我们观察模型2的未加入二次项的偏残差图时,crPlots(model)提供了直观的可视化结果。


使用car包的qqPlot(lm对象),如qqPlot(model2),可以对残差的正态性进行深入检查。默认的95%置信区间横纵坐标对应着t分位数和学生化残差。stats包的辅助函数如qqnorm, qqline, 和qqplot提供了更多定制化的Q-Q图选项。


通过Shapiro-Wilk测试,我们验证model2的残差确实接近正态分布,p值为0.2001。而ncvTest(model)的异方差性检验显示方差非恒定,但p值大于0.05,支持同方差的假设。Durbin-Watson检验确保残差无一阶自相关性。VIF(方差膨胀系数)则用来检查多重共线性,比如vif(model2)揭示了wt与wt^2之间的潜在关联。


异常点检测是细致入微的工作,plot(model2, c(4,5,6))图形显示了离群点、高杠杆点和强影响点的分布。Cook距离法是识别强影响点的强大工具,cooks.distance(model2)提供了相关数值。influence.measures函数则提供了更全面的影响指标,如dfb和dffit。


具体实例中,对于Datsun 710, Hornet 4 Drive, Hornet Sportabout, Valiant这四个车型的模型估计结果,我们看到了dfb, dffit, cov.r, cook.d, 和hat值。Mazda RX4等样本被确认为非强影响点,其影响标记为FALSE

温馨提示:答案为网友推荐,仅供参考
相似回答