随机森林中oob以及oob的作用?

如题所述

第1个回答  2022-06-30
在随机森林bagging法中可以发现booststrap每次约有1/3的样本不会出现在bootstrap所采集的样本集合中,故没有参加决策树的建立,这些数据称为袋外数据oob,用于取代测试集误差估计方法,可用于模型的验证。
下面先介绍下oob的使用,其中(x,y)代表输入的样本和label,g表示的是构建的树。

上图中(xN,yN)没有用于g2、g3、gt,所以(xN,yN)可以作为g2、g3、gt的验证数据,然后用oob数据作为输入,输入到模型中,然后投票,少数服从多数。同理,对于(x1,y1)、(x2,y2)等也存在同样的计算,最终计算评判错误的样本占比,就是oob-error.

所以oob可以用来衡量模型的好坏。

同时,也可以引出随机森林输出特征重要性的原理,如果特征i对于模型是有利的,那么第i维特征置换成随机值,将会降低模型的性能,也就是会使oob-error变大。
相似回答