Сортировка JavaPairRDD сначала по значению, а затем по ключу

Я пытаюсь сортировать RDD по значению, и если несколько значений равны, то мне нужно эти значения лексикографически.

То, что я сделал до сих пор, это использование takeOrdered и предоставление CustomComperator, но поскольку takeOrdered не может обрабатывать большой объем данных, при запуске кода он продолжает выходить (он много ест памяти, которую ОС не может обрабатывать):

Как бы вы отсортировали этот RDD? Как вы возьмете значение TopKMovies для рассмотрения, а в случае равенства ключей - лексикографически.

Ответы

Ответ 1

Решена проблема с использованием sortByKey с компаратором и разделами после сопоставления <String, Long> PairRDD с < Tuple2<String,Long> , Long> PairRDD

JavaPairRDD <Tuple2<String,Long>, Long> sortedRdd = rddMovieReviewReducedByKey.mapToPair(new PairFunction < Tuple2 < String, MovieReview > , Tuple2<String,Long>, Long > () {

    @Override
    public Tuple2 < Tuple2<String,Long>, Long > call(Tuple2 < String, MovieReview > t) throws Exception {
        return new Tuple2 < Tuple2<String,Long>, Long > (new Tuple2<String,Long>(t._1,t._2.count), t._2.count);
    }
}).sortByKey(new TupleMapLongComparator(), true, 100);


JavaPairRDD <String,Long> sortedRddToPairs = sortedRdd.mapToPair(new PairFunction<Tuple2<Tuple2<String,Long>,Long>, String, Long>() {

    @Override
    public Tuple2<String, Long> call(
            Tuple2<Tuple2<String, Long>, Long> t) throws Exception {
        return new Tuple2 < String, Long > (t._1._1, t._1._2);
    }

});

Компаратор:

private class TupleMapLongComparator implements Comparator<Tuple2<String,Long>>, Serializable {
    @Override
    public int compare(Tuple2<String,Long> tuple1, Tuple2<String,Long> tuple2) {

        if (tuple1._2.compareTo(tuple2._2) == 0) {
            return tuple1._1.compareTo(tuple2._1);
        }
        return -tuple1._2.compareTo(tuple2._2);
    }
}

Ответ 2

Вы попробовали вторичную сортировку в Spark?

Spark Secondary Sort