关键词 |
情形 |
后果 |
Join |
其中一个表较小, 但是key集中 |
分发到某一个或几个Reduce上的数据远高于平均值 |
大表与大表,但是分桶的判断字段0值或空值过多 |
这些空值都由一个reduce处理,灰常慢 |
|
group by |
group by 维度过小, 某值的数量过多 |
处理某值的reduce灰常耗时 |
Count Distinct |
某特殊值过多 |
处理此特殊值的reduce耗时 |
1)、key分布不均匀
2)、业务数据本身的特性
3)、建表时考虑不周
4)、某些SQL语句本身就有数据倾斜