0-4 统计建模划分训练/验证/测试集的几种方法

如题所述

第1个回答 2022-07-20

1. 最简单的随机拆分，一般拆为80%训练集20%测试集或 70%训练集30%测试集。使用训练集训练，然后使用测试集测试模型效果。

2. k折交叉验证：把整个数据集设法均分成k折（一般为随机拆分）。然后使用其中的k-1折进行训练，使用剩下的一折测试。这样实际上训出了k个模型。

3. 留一法：k折的极限就是留一。使用m-1个样本进行训练，剩下的那个样本进行测试。

4. 自助采样法：在原始样本集中有放回的随机采样m次，构成与原始样本集一样大小的训练集（都有m个样本）。根据概率，会有约36.8%的样本没有被采到（另外60+%的样本则有很多被重复采到）。这样可以使用采出来的大小为m且包含重复样本的集合为训练集，剩下约36.8%的样本当测试集。

之所以把数据集分为训练集和测试集，主要是为了在保证模型不要过拟合的前提下，调整超参数使模型性能尽可能地高。因此一般套路是，在训练集训完，然后在测试集上测试，发现性能掉的厉害或者性能还不够好，调调超参，再训一个试试。因此有种说法：训练集是用来学习超参的。

问题是：虽然模型是在训练集上学的，但超参在测试集的测试结果的反馈下进行调整的，这显然也采到了测试集的信息。这样训出来的模型很有可能结果是，模型表现足够好（性能优秀）且在训练集和测试集上表现一致（看似没有过拟合），但放到新数据集上一看其泛化性能并不好。这是因为模型在整个数据集上其实发生了过拟合，这组基于测试集表现找到的超参是仅仅适用于当前这个样本集。

验证集就是用来解决上述问题的。我们把数据集按6/2/2划分为训练集、验证集、测试集。训练一波放到验证集上验证一波，然后调超参，最后觉得差不多了，把模型放到测试集上一测，发现性能没有下降，而在这之前模型和测试集没有发生任何接触，所以证明了其泛化性能，美滋滋，模型训练结束。

但是这里有个bug，前面说是“性能没有发生下降”，模型训练就完美结束了。但如果发生不可忍受的下降呢，说明模型训练的有问题，OK，那就返回去调参，但这次调参，就是由测试集反馈来的，因此引入了测试集的信息，这样来回搞几波，跟前面还有什么区别呢？

要解决这个问题，理论上我们要始终有一个模型从没有接触的测试集，直到“放到测试集上测试然后通过”这件事能一次性完成，模型的泛化性能才能充分可信。但我们事先不知道这个到底什么时候能实现，所以理论上我们得把数据集划分为无数个训练集验证集测试集~~

当然前面说的是理论上，实践中没必要这么较真，模型泛化性能谁也不能保证百分之百，能用就行。毋庸置疑的是，把数据集划分成训练集验证集和测试集，肯定比简单地划分为训练集测试集更好一些。

相似回答

数据分折是什么意思啊答：数据分折可以应用于各种类型的数据分析，例如在机器学习中，可以将数据集分成训练集和测试集来进行模型训练和验证。在统计建模中，可以将数据集分成验证集和交叉验证集，来评估模型的准确性和预测能力。在数据挖掘中，可以将数据集分成未知数据集和已知数据集，通过已知数据集的数据规律和规则来进行未知数据...

全基因组选择的模型汇总(转载)答：在动植物育种中, 标记的数据对应于具有基因型和表型的训练群体,而未标记的数据对应于测试群体,用于预测的特征是SNP基因型。相比于传统统计方法,机器学习方法具有诸多优点: 支持向量机(Support Vector Machine,SVM)是典型的非参数方法,属于监督学习方法。它既可解决分类问题,又可用于回归分析。SVM基于结构风险...

sweight是什么意思?答：计算sweight的方法有很多种，常见的是根据具体情况采用基于概率密度函数的方法、基于逻辑回归的方法等。在使用sweight时，需要注意的是，权重值的赋予需要基于合适的统计学原理和业务分析需求。此外，sweight的使用也需要避免过拟合问题的出现，需要进行适当的训练集和测试集划分与交叉验证。

随机森林答：Bagging 是一种在原始数据集上通过有放回抽样重新选出k个新数据集来训练分类器的集成技术。它使用训练出来的分类器的集合来对新样本进行分类,然后用多数投票或者对输出求均值的方法统计所有分类器的分类结果,结果最高的类别即为最终标签。此类算法可以有效降低bias,并能够降低variance。【自助法】它通过自助法(boo...

论文中某个变量的测度什么意思?答：我们比较的估计方法可以分为以下几类:(i) 传统计量方法;(ii) 模型筛选方法;(iii) 模型平均发 ;(iv) 机器学习方法;以及(v) 本文新提出的混合方法。该方法结合了计量工具和机器学习算法,能够更好地捕捉数据的异质性。试验把原始数据 (样本量为 n ) 分成训练集 (nT ) 和评估集(nE = n −nT ).我们...

python数据分析与应用-Python数据分析与应用 PDF 内部全资料版_百度...答：6.1.1 加载datasets模块中的数据集 167 6.1.2 将数据集划分为训练集和测试集 170 6.1.3 使用sklearn转换器进行数据预处理与降维 172 6.1.4 任务实现 174 任务6.2 构建并评价聚类模型 176 6.2.1 使用sklearn估计器构建聚类模型 176 6.2.2 评价聚类模型 179 6.2.3 任务实现 182 任务6.3 构建并...

大家正在搜

关于统计上划分城乡的规定统计局统计的经济数据有哪些建模数据统计统计建模软件统计建模大赛统计学建模统计学建模步骤统计建模与R语言全国统计建模大赛结果