请简述hadoop怎样实现二级排序

发布网友发布时间：2022-04-14 05:29

共2个回答

热心网友时间：2022-04-14 06:59

我不是高手，但我可以告诉你我怎么学习。①选择一个Hadoop的版本，然后阅读文档了解Hadoop：What's Hadoop, Why Hadoop exists；②安装Hadoop，三种方式都试下；③在Hadoop文档里面有Hadoop Command的资料，I.hdfs command，II.job command，尽量试...

热心网友时间：2022-04-14 08:17

在Hadoop中，默认情况下是按照key进行排序，如果要按照value进行排序怎么办？
有两种方法进行二次排序，分别为：buffer and in memory sort和 value-to-key conversion。
buffer and in memory sort
主要思想是：在rece()函数中，将某个key对应的所有value保存下来，然后进行排序。这种方法最大的缺点是：可能会造成out of memory。

value-to-key conversion
主要思想是：将key和部分value拼接成一个组合key（实现WritableComparable接口或者调setSortComparatorClass函数），这样rece获取的结果便是先按key排序，后按value排序的结果，需要注意的是，用户需要自己实现Paritioner，以便只按照key进行数据划分。Hadoop显式的支持二次排序，在Configuration类中有个setGroupingComparatorClass()方法，可用于设置排序group的key值
http://dongxicheng.org/maprece/hadoop-join-two-tables/