Ответ 1
Напоминаем о случаях использования ETL на мгновение.
- Extract.
- Чтение баз данных через общий адаптер DB-API.
- Прочитайте плоские файлы через аналогичный адаптер.
- Прочитайте таблицы с помощью аналогичного адаптера.
- Cleanse.
- Произвольные правила
- Отфильтровать и отклонить
- Заменить
- Добавить столбцы данных
- Данные профиля.
- Статистические таблицы частот.
- Преобразование (см. очистка, это два варианта использования с той же реализацией)
- Выполняйте поиск соответствия по размеру.
- Заменить значения или добавить значения.
- Совокупный.
- В любой точке трубопровода
- Load.
- Или подготовьте плоский файл и запустите загрузчик продукта DB.
Кроме того, существуют некоторые дополнительные требования, которые не являются одноразовыми.
-
Каждая отдельная операция должна быть отдельным процессом, который может быть подключен в конвейере Unix, причем отдельные записи передаются от процесса к процессу. Это использует все ресурсы ЦП.
-
Вам нужен какой-то планировщик, основанный на времени, для мест, у которых есть проблемы с обоснованием своих предварительных условий ETL.
-
Вам нужно расписание на основе событий для мест, которые могут определить предварительные условия для этапов обработки ETL.
Примечание. Поскольку ETL связан с I/O, несколько потоков вам мало пользы. Поскольку каждый процесс выполняется в течение длительного времени - особенно если у вас есть тысячи строк данных для обработки - накладные расходы на "тяжеловесные" процессы не повредит.