Hive分区表和分桶表的区别

hdfs文件个数:

  • 分桶的数量是在创建表时指定的,数量不能更改。如果要更改数量,需要重新插入数据。
  • 分区的数量是根据字段枚举值的个数决定的,系统决定的,分区个数是动态增长的。

作用:

  • 分区:是用于提高查询效率(避免扫描整个表,只需要扫描相关部分即可。例如日志文件可以按日期天分区,每天一个分区)
  • 分桶:提高join查询效率,方便抽样

值:

  • 分区中的每条数据中的分区字段值都是完全相同的
  • 分桶中的每条数据的分桶字段值余上分桶数量的结构都是一样的。即分桶中的每个分桶字段值都不一样。
标签: 分桶、分区、段值、数量、每条、面试
  • 回复
隐藏