数据集的划分方法有哪些?

划分方法 概念 优点 缺点
留出法

将数据集划分为互斥的“训练集”和“测试集”

通常两者的比例介于[3/2~5/4]之间

划分尽量保持原有分布,即:保持正样本比例一致


单次使用留出法得到的估计结果往往不够稳定可靠

一般要采用若干次随机划分、重复进行模型评估后取平均值作为留出法的评估结果

交叉验证法(k折交叉验证

将数据集划分成k个大小相似的互斥子集,各子集保持分布一致

每次取其中一个作为测试集,剩余的作为训练集



自助法

对包含m个样本的数据集进行有放回的m次采样,每次采样1个样本,将采出来的m个样本组成训练集,而没有出现在训练集中的样本作为测试集

某个样本没有被采集到的概率为:

最终约73.2%的样本做训练集,36.8%的样本做测试集

在数据集较小、难以有效划分训练/测试集时很有用
改变了数据集分布,会引入估计偏差
调参


标签: 样本、留出、划分、训练、互斥、面试
  • 回复
隐藏