划分方法 | 概念 | 优点 | 缺点 |
留出法 |
将数据集划分为互斥的“训练集”和“测试集” 通常两者的比例介于[3/2~5/4]之间 划分尽量保持原有分布,即:保持正样本比例一致 |
|
单次使用留出法得到的估计结果往往不够稳定可靠 一般要采用若干次随机划分、重复进行模型评估后取平均值作为留出法的评估结果 |
交叉验证法(k折交叉验证) |
将数据集划分成k个大小相似的互斥子集,各子集保持分布一致 每次取其中一个作为测试集,剩余的作为训练集 |
|
|
自助法 |
对包含m个样本的数据集进行有放回的m次采样,每次采样1个样本,将采出来的m个样本组成训练集,而没有出现在训练集中的样本作为测试集 某个样本没有被采集到的概率为:
最终约73.2%的样本做训练集,36.8%的样本做测试集 |
在数据集较小、难以有效划分训练/测试集时很有用 |
改变了数据集分布,会引入估计偏差 |
调参 |
|
|
|