决策树是一种拥有树形结构的监督学习分类算法模型。
结构包含根节点、内部节点和叶子节点。
根节点:代表包含数据集中所有数据的集合;
子节点:经过属性划分后产生的非叶子节点,代表经过条件划分后更加相似的样本数据;
叶子节点:代表某一个结果类别,在同一个类别的样本数据属于同一个类别。
关键是使每次的属性划分后样本属于同一类别。
优点:
(1)容易理解,能直观显示决策过程
(2)可用于训练样本数较少的数据集
(3)能够很好处理有缺失值的数据(对缺失值不敏感)
(4)能很好处理有相关性特征的数据集
缺点:
(1)决策树结果可能不稳定,因为在数据中一个很小变化可能生成另一个完全不同的树
(2)特征过多时容易出现过拟合