Как найти максимальное значение в паре RDD?
У меня есть пара RDD искры (ключ, счет), как показано ниже
Array[(String, Int)] = Array((a,1), (b,2), (c,1), (d,3))
Как найти ключ с наивысшим счетчиком с использованием искрового scala API?
EDIT: тип данных пары RDD - org.apache.spark.rdd.RDD [(String, Int)]
Ответы
Ответ 1
Использовать метод Array.maxBy
:
val a = Array(("a",1), ("b",2), ("c",1), ("d",3))
val maxKey = a.maxBy(_._2)
// maxKey: (String, Int) = (d,3)
или RDD.max
:
val maxKey2 = rdd.max()(new Ordering[Tuple2[String, Int]]() {
override def compare(x: (String, Int), y: (String, Int)): Int =
Ordering[Int].compare(x._2, y._2)
})
Ответ 2
Используйте takeOrdered(1)(Ordering[Int].reverse.on(_._2))
:
val a = Array(("a",1), ("b",2), ("c",1), ("d",3))
val rdd = sc.parallelize(a)
val maxKey = rdd.takeOrdered(1)(Ordering[Int].reverse.on(_._2))
// maxKey: Array[(String, Int)] = Array((d,3))
Ответ 3
Для Pyspark:
Пусть a
- пара RDD с ключами как String и значения как целые числа, тогда
a.max(lambda x:x[1])
возвращает пару значений ключа с максимальным значением. В основном максимальные функции заказываются по возвращаемому значению лямбда-функции.
Здесь a
представляет собой пару RDD с такими элементами, как ('key',int)
и x[1]
, просто ссылается на целую часть элемента.
Обратите внимание, что функция max
сама по себе закажет ключ и вернет максимальное значение.
Документация доступна на https://spark.apache.org/docs/1.5.0/api/python/pyspark.html#pyspark.RDD.max
Ответ 4
Искры RDD более эффективны с течением времени, когда они оставлены как RDD и не превращаются в массивы
strinIntTuppleRDD.reduce((x, y) => if(x._2 > y._2) x else y)