随机森林建立过程

  1. 第一步:原始训练集
    中有N个样本,且每个样本有W维特征。从数据集D中有放回的随机抽取x个样本(Bootstraping方法)组成训练子集,一共进行w次采样,即生成w个训练子集。

  2. 第二步:每个训练子集

    形成一棵决策树,形成了一共w棵决策树。而每一次未被抽到的样本则组成了w个oob(用来做预估)。

  3. 第三步:对于单个决策树,树的每个节点处从M个特征中随机挑选m(m<M)个特征,按照结点不纯度最小原则进行分裂。每棵树都一直这样分裂下去,直到该节点的所有训练样例都属于同一类。在决策树的分裂过程中不需要剪枝。

  4. 第四步:根据生成的多个决策树分类器对需要进行预测的数据进行预测。根据每棵决策树的投票结果,如果是分类树的话,最后取票数最高的一个类别;如果是回归树的话,利用简单的平均得到最终结果。

标签: 决策树、分裂、每棵、子集、样本、面试
  • july
    2021-01-31 16:22:21 1楼#1层
    1、从原始训练数据集中,应用bootstrap方法有放回地随机抽取k个新的自助样本集,并由此构建k棵分类回归树,每次未被抽到的样本组成了K个袋外数据(out-of-bag,BBB)。
    2、设有n 个特征,则在每一棵树的每个节点处随机抽取mtry 个特征,通过计算每个特征蕴含的信息量,特征中选择一个最具有分类能力的特征进行节点分裂。
    3、每棵树最大限度地生长, 不做任何剪裁
    4、将生成的多棵树组成随机森林, 用随机森林对新的数据进行分类, 分类结果按树分类器投票多少而定。
  • 回复
隐藏