Читайте многострочный JSON в Apache Spark

Я пытался использовать JSON файл как небольшую БД. После создания таблицы шаблонов в DataFrame я запросил его с помощью SQL и получил исключение. Вот мой код:

Это странно, но когда я переписываю свой JSON, чтобы сделать его oneliner, все работает нормально.

Я нашел в документах следующее предложение:

Невозможно сохранить JSON в таком формате. Есть ли какое-либо обходное решение, чтобы избавиться от многослойной структуры JSON или преобразовать ее в oneliner?

Ответы

Ответ 1

Искры> = 2,2

Spark 2.2 представил ~~wholeFile~~ multiLine которая может использоваться для загрузки файлов JSON (не JSONL):

spark.read
  .option("multiLine", true).option("mode", "PERMISSIVE")
  .json("/path/to/user.json")

Видеть:

SPARK-18352 - Разбирайте обычные многострочные файлы JSON (а не только линии JSON).
SPARK-20980 - Переименуйте опцию wholeFile в multiLine для JSON и CSV.

Искры <2.2

Ну, с использованием форматированных данных JSONL может быть неудобно, но я буду утверждать, что это не проблема с API, а сам формат. JSON просто не предназначен для параллельной обработки в распределенных системах.

Он не содержит никакой схемы и без каких-либо особых предположений относительно его форматирования и формы почти невозможно правильно идентифицировать документы верхнего уровня. Возможно, это самый худший возможный формат для использования в таких системах, как Apache Spark. Это также довольно сложно и, как правило, непрактично писать допустимые JSON в распределенных системах.

При этом, если отдельные файлы являются действительными документами JSON (один документ или массив документов), вы всегда можете попробовать wholeTextFiles:

spark.read.json(sc.wholeTextFiles("/path/to/user.json").values())

Ответ 2

Просто чтобы добавить ноль323 ответа, опция в Spark 2. 2+ для чтения многострочного JSON была переименована в multiLine (см. Документацию Spark здесь).

Следовательно, правильный синтаксис теперь:

spark.read
  .option("multiLine", true).option("mode", "PERMISSIVE")
  .json("/path/to/user.json")

Это произошло в https://issues.apache.org/jira/browse/SPARK-20980.