Как обновить RDD? - программирование

Мы разрабатываем среду Spark, в которой мы перемещаем исторические данные в RDD-наборы.

В принципе, RDD является неизменным, только для чтения, на котором мы выполняем операции. Исходя из этого, мы переместили исторические данные в RDD, и мы делаем такие вычисления, как фильтрация/сопоставление и т.д. На таких RDD.

Теперь существует прецедент, когда подмножество данных в RDD обновляется, и мы должны пересчитать значения.

HistoricalData имеет форму RDD. Я создаю другое RDD на основе области запроса и сохраняю ссылку на это RDD в ScopeCollection

Я подумал о создании потокового RDD, где я постоянно обновляю тот же RDD и делаю повторное вычисление. Но, насколько я понимаю, он может принимать потоки от Флюма или Кафки. Если в моем случае значения генерируются в самом приложении на основе взаимодействия с пользователем. Следовательно, я не вижу никаких точек интеграции потокового RDD в моем контексте.

Любое предложение о том, какой подход лучше или какой-либо другой подход подходит для этого сценария.

Ответы

Ответ 1

Представленная здесь информация о пользователях является хорошим совпадением для Spark Streaming. В двух других вариантах есть вопрос: "Как вы отправляете повторное вычисление RDD?"

Spark Streaming предлагает платформу для непрерывного представления работы Spark на основе некоторого потока входящих данных и сохранения этих данных в форме RDD. Кафка и Флюм - только два возможных источника потока.

Вы можете использовать Socket-связь с SocketInputDStream, считывая файлы в каталоге с помощью FileInputDStream или даже с использованием общей очереди с QueueInputDStream. Если ни один из этих вариантов не подходит вашему приложению, вы можете написать свой собственный InputDStream.

В этом случае, используя Spark Streaming, вы будете читать свой базовый RDD и использовать входящий поток для постепенного преобразования существующих данных и поддержания развитого состояния в памяти. dstream.transform позволит вам объединить базовый RDD с данными, собранными в течение заданного интервала между пакетами, а операция updateStateByKey может помочь вам построить состояние в памяти, адресованное ключами. Дополнительную информацию см. В документации .

Без дополнительной информации о приложении сложно перейти на уровень кода на том, что возможно использовать Spark Streaming. Я предлагаю вам изучить этот путь и задать новые вопросы для любых конкретных тем.

Ответ 2

Я предлагаю взглянуть на IndexedRDD implementation, которая предоставляет обновляемую RDD пар ключей. Это может дать вам некоторые идеи.

Идея основана на знании ключа и позволяет вам обновлять обновленный фрагмент данных с помощью тех же ключей уже созданного RDD. Во время обновления можно отфильтровать предыдущую версию данных.

Имея исторические данные, я бы сказал, что вам нужно иметь идентификатор события.

Что касается потоковой передачи и потребления, можно использовать порт TCP. Таким образом, драйвер может открыть искрообразование TCP-соединения, которое ожидает чтения и отправки там обновлений.