-
刀神Tdropout, regularization, batch normalizatin
-
时海Early stopping、数据集扩增
-
时海模型融合
-
如果一味的去提高训练数据的预测能力,所选模型的复杂度往往会很高,这种现象称为过拟合。所表现的就是模型训练时候的误差很小,但在测试的时候误差很大。
产生的原因
过拟合原因
1. 样本数据的问题。
样本数量太少
抽样方法错误,抽出的样本数据不能有效足够代表业务逻辑或业务场景。比如样本符合正态分布,却按均分分布抽样,或者样本数据不能代表整体数据的分布
样本里的噪音数据干扰过大
2. 模型问题
模型复杂度高 、参数太多
决策树模型没有剪枝
权值学习迭代次数足够多(Overtraining),拟合了训练数据中的噪声和训练样例中没有代表性的特征.
解决方法
1. 样本数据方面。
增加样本数量,对样本进行降维,添加验证数据
抽样方法要符合业务场景
清洗噪声数据
2. 模型或训练问题
控制模型复杂度,优先选择简单的模型,或者用模型融合技术。
利用先验知识,添加正则项。L1正则更加容易产生稀疏解、L2正则倾向于让参数w趋向于0.
交叉验证
不要过度训练,最优化求解时,收敛之前停止迭代。
决策树模型没有剪枝
权值衰减
下一题:什么是过拟合?如何解决过拟合
标签: 样本、训练、抽样、拟合、正则
笔试题
刷题
简历模板
AI算法
大数据
内推
内推: