1、查看基本统计信息
每个数据特征的含义、数据类型、缺失情况
2、处理缺失值、重复值
3、分析每个特征与目标值的关系
画图:根据特征的数据类型选择对应的图表:单变量图表、双变量关联关系、离散数据、连续数据
表格:groupBy crossTab
使用的工具:matplotlib seaborn
4、删除没用的特征
如:ID、Ticket
5、衍生出新的特征
根据姓名提取出称号:Mr\Miss
6、
浙公网安备 33010602006230号
浙ICP备14015892号