Понимание физического плана искры

Я пытаюсь понять физические планы искры, но я не понимаю некоторых частей, потому что они кажутся отличными от традиционных rdbms. Например, в этом плане ниже, это план запроса по таблице улей. Запрос таков:

Но я не понимаю шаги 4, 5, 6 и 7. Вы знаете, кто они? Я ищу информацию об этом, чтобы понять план, но я не нахожу ничего конкретного.

Ответы

Ответ 1

Давайте рассмотрим структуру используемого вами SQL-запроса:

SELECT
    ...  -- not aggregated columns  #1
    ...  -- aggregated columns      #2
FROM
    ...                          -- #3
WHERE
    ...                          -- #4
GROUP BY
    ...                          -- #5
ORDER BY
    ...                          -- #6

Как вы уже подозреваете:

Filter (...) соответствует предикатам в WHERE (#4)
Project ... ограничивает число столбцов теми, которые требуются объединением (#1 и #2, и #4/#6, если нет в SELECT)
HiveTableScan соответствует разделу FROM (#3)

Остальные части могут быть отнесены следующим образом:

#2 из SELECT - - functions в поле TungstenAggregates
GROUP BY (#4):
- TungstenExchange/хэш-разбиение
- key поле в TungstenAggregates
#6 - ORDER BY.

Проект Вольфрам в целом описывает набор оптимизаций, используемых Spark DataFrames (- sets), включая:

явное управление памятью с помощью sun.misc.Unsafe. Это означает использование "родной" (вне кучи) памяти и явное выделение/освобождение памяти за пределами управления GC. Эти преобразования соответствуют шагам ConvertToUnsafe/ConvertToSafe в плане выполнения. Вы можете узнать некоторые интересные подробности о небезопасности из Общие сведения о sun.misc.Unsafe
генерация кода - различные метапрограммные трюки, предназначенные для генерации кода, который лучше оптимизируется во время компиляции. Вы можете думать о нем как о внутреннем компиляторе Spark, который делает такие вещи, как переписывание хорошего функционального кода в уродливые для циклов.

Вы можете узнать больше о Вольфраме вообще от Project Tungsten: Приведение Apache Spark ближе к Bare Metal. Apache Spark 2.0: быстрее, проще и умнее содержит некоторые примеры генерации кода.

TungstenAggregate происходит дважды, потому что данные сначала агрегируются локально на каждом разделе, а затем перетасовываются и, наконец, сливаются. Если вы знакомы с RDD API, этот процесс примерно эквивалентен reduceByKey.

Если план выполнения нечеткий, вы также можете попытаться преобразовать полученный результат DataFrame в RDD и проанализировать вывод toDebugString.

Ответ 2

Tungsten - новый движок памяти в Spark начиная с версии 1.4, который управляет данными за пределами JVM, чтобы сэкономить некоторые накладные расходы на GC. Вы можете себе представить, что это связано с копированием данных из JVM и в JVM. Это. В Spark 1.5 вы можете включить Tungsten через spark.sql.tungsten.enabled, тогда вы увидите "старый" план, в Spark 1.6. Думаю, вы больше не можете его отключать.