Hive数据倾斜有哪几种场景-K6K4.com

关键词

情形

后果

Join

其中一个表较小，

但是key集中

分发到某一个或几个Reduce上的数据远高于平均值

大表与大表，但是分桶的判断字段0值或空值过多

这些空值都由一个reduce处理，灰常慢

group by

group by 维度过小，

某值的数量过多

处理某值的reduce灰常耗时

Count Distinct

某特殊值过多

处理此特殊值的reduce耗时

导致数据倾斜的原因有：

1)、key分布不均匀

2)、业务数据本身的特性

3)、建表时考虑不周

4)、某些SQL语句本身就有数据倾斜

标签： reduce、某值、倾斜、大表、空值、面试

取消

回复

关键词	情形	后果
Join	其中一个表较小，但是key集中	分发到某一个或几个Reduce上的数据远高于平均值
Join	大表与大表，但是分桶的判断字段0值或空值过多	这些空值都由一个reduce处理，灰常慢
group by	group by 维度过小，某值的数量过多	处理某值的reduce灰常耗时
Count Distinct	某特殊值过多	处理此特殊值的reduce耗时