При сгруппировании по клавишам Spark заканчивается память

Я пытаюсь выполнить простое преобразование общих данных обхода, используя хост Spark на EC2, используя это руководство, мой код выглядит следующим образом:

И я запускаю его с помощью команды следующим образом:

Но очень быстро он терпит неудачу с ошибками следующим образом

Итак, мой основной вопрос: что нужно для написания задачи Spark, которая может группироваться по ключу с почти неограниченным объемом ввода без исчерпания памяти?

Ответы

Ответ 1

Наиболее распространенная причина исключений java.lang.OutOfMemoryError в задачах тасования (таких как groupByKey, reduceByKey и т.д.) - это низкий уровень parallelism.

Вы можете увеличить значение по умолчанию, установив свойство spark.default.parallelism в configuration.

Ответ 2

Итак, это говорит о том, что у вас закончилось выделенное пустое пространство JVM. Вы можете увеличить размер кучи, но все же это ограничено возможностями системы (не может превышать объем физической памяти).

С другой стороны, как объясняется homutov, это происходит в больших операциях сбора. Например, groupByKey, reduceByKey, cartisien + mapToPair. Эти операции собирают данные RDD в одно место, что приводит к тому, что JVM заканчивается из кучного пространства.

Что вы можете сделать?

По моему опыту, когда у кластера/системы есть ограниченные ресурсы, вы можете использовать Руководство по настройке искры. spark.defualt.parallelism может быть увеличено до тех пор, пока вы не сможете сопровождать задачу в своем кластере/системе. [Однажды я выполнил реализацию KNN для 14000 экземпляров, 1024 набора данных объектов на моей виртуальной машине для ноутбука, настроив parallelism],

Command line flag :   --conf spark.default.parallelism=4   ; 4 is the parallelism value

Помните, что вам нужно TUNE использовать эти функции для наиболее эффективного и отказоустойчивого (завершения работы кучи), чтобы получить наилучшие результаты из Spark.

Дополнительно

Не используйте примитивные типы данных вместо оберток. И используйте Массивы вместо коллекций.

 ex :  List<Integers> vs int[] ; int[] is better than List

В Spark-массивах можно сэкономить много ценных мест и повысить производительность.

Также используйте переменные BroadCast вместо декартового произведения или любую большую комбинационную задачу.