请说明hive中 Sort By，Order By，Cluster By，Distrbute By各代表什么意思。-k6k4.com

请说明hive中 Sort By，Order By，Cluster By，Distrbute By各代表什么意思。

order by：会对输入做全局排序，因此只有一个reducer（多个reducer无法保证全局有序）。只有一个reducer，会导致当输入规模较大时，需要较长的计算时间。

sort by：不是全局排序，其在数据进入reducer前完成排序。

distribute by：按照指定的字段对数据进行划分输出到不同的reduce中。

cluster by：除了具有 distribute by 的功能外还兼具 sort by 的功能。

更多精选文章

上一题：hive有什么特点，与关系型数据库有什么

下一题：写出hive中split、coalesc

标签： reducer、sort、distribute、全局、cluster

一个创业中的苦逼程序员

笔试题

刷题

简历模板

AI算法

大数据

内推

内推：

数据研发工程师 / 个推

hadoop迷

2018-10-23 23:00:27 1楼#1层

sort by ：不是全局排序，其在数据进入reducer前完成排序
order by ：会对输入做全局排序，因此只有一个reducer(多个reducer无法保证全局有序).只有一个reducer,会导致当输入规模较大时，需要较长的计算时间。
cluster by ：当distribute by 和sort by的字段相同时，等同于cluster by.可以看做特殊的distribute + sort
distribute by ：按照指定的字段对数据进行划分输出到不同的reduce中

顶[0] | 踩[0] | 回复 | 举报
取消

回复