机器学习一般流程

数据决定了机器学习的上界,而模型和算法只是逼近这个上界。

1、理解业务、数据探索

(1)查看样本数据,熟悉数据整体情况:head、tail、info、describe

(2)数据统计信息,熟悉每个特征数据:空值数量、离散值统计、均值、方差 

        通常结合图表分析:柱状图、散点图、箱线图、小提琴图

(3)相关度分析,熟悉特征之间关系:热力图

2、数据预处理

缺失值处理:丢弃、特殊值填充、均值填充、建模预测

类型转换

归一化、标准化

2、特征工程

特征提取

降维:投影、PCA、LDA、SVD

3、数据集划分

数据集类型:训练集、验证集、测试集

划分方式:留出法、交叉验证法、自助法

4、模型选择

5、模型评估

6、模型融合

Bagging、Boosting、Stacking

7、模型部署

标签: 均值、填充、熟悉、小提琴、stacking、面试
  • 回复
隐藏