随机森林算法思想

随机森林(Random Forest)使用多个CART决策树作为弱学习器,不同决策树之间没有关联。当我们进行分类任务时,新的输入样本进入,就让森林中的每一棵决策树分别进行判断和分类,每个决策树会得到一个自己的分类结果,决策树的分类结果中哪一个分类最多,那么随机森林就会把这个结果当做最终的结果。

随机森林在生成决策树的时候用随机选择的特征,即使用Bagging方法。这么做的原因是:如果训练集中的某几个特征对输出的结果有很强的预测性,那么这些特征会被每个决策树所应用,这样会导致树之间具有相关性,这样并不会减小模型的方差。

标签: 决策树、森林、随机、分类、预测性、面试
  • 回复
隐藏