数据决定了机器学习的上界,而模型和算法只是逼近这个上界。
1、理解业务、数据探索
(1)查看样本数据,熟悉数据整体情况:head、tail、info、describe
(2)数据统计信息,熟悉每个特征数据:空值数量、离散值统计、均值、方差
通常结合图表分析:柱状图、散点图、箱线图、小提琴图
(3)相关度分析,熟悉特征之间关系:热力图
2、数据预处理
缺失值处理:丢弃、特殊值填充、均值填充、建模预测
类型转换
归一化、标准化
2、特征工程
特征提取
降维:投影、PCA、LDA、SVD
3、数据集划分
数据集类型:训练集、验证集、测试集
划分方式:留出法、交叉验证法、自助法
4、模型选择
5、模型评估
6、模型融合
Bagging、Boosting、Stacking
7、模型部署