Что означает "Массаж данных"?
Я делаю чтение и сталкиваюсь с тем, что избегаю внутреннего хранилища, если моему приложению не нужно массировать данные перед отправкой на SQL. Что такое массаж данных?
Ответы
Ответ 1
Манипулировать, обрабатывать, изменять, пересчитывать. Короче говоря, если вы просто перемещаете данные в raw, тогда вам не нужно использовать internalStore, но если вы что-то делаете с ним перед хранением, тогда вам может понадобиться внутреннее хранилище.
-Adam
Ответ 2
Иногда весь процесс перемещения данных называется "ETL", что означает "Извлечь, преобразовать, загрузить". Массирование данных - это шаг "трансформация", но он подразумевает специальные исправления, которые вы должны сделать, чтобы сгладить проблемы, с которыми вы столкнулись (например, массаж делает ваши мышцы), а не преобразования между хорошо известными форматами.
Думает, что вы можете сделать для "массажа" данных:
- Измените форматы, исходящие от исходной системы, к которой ожидает целевая система, например. изменить формат даты с d/m/y на m/d/y.
- заменить отсутствующие значения по умолчанию, например. Поставьте "0", когда количество не указано.
- Отфильтруйте записи, которые не нужны в целевой системе.
- Проверьте правильность записей и проигнорируйте или сообщите о строках, которые могут вызвать ошибку, если вы попытались их вставить.
- Нормализовать данные для удаления изменений, которые должны быть одинаковыми, например. замените верхний регистр нижним регистром, замените "01" на "1".
Ответ 3
Очистка, нормализация, фильтрация,... Просто изменение данных как-то из исходного ввода в форму, которая лучше подходит для вашего использования.
Ответ 4
И, наконец, существует менее приятная практика массирования данных путем выброса данных (или корректировки чисел), когда они не дают вам ответ, который вы хотите. Unfortunatley peole, делающий статистический анализ, часто массирует данные, чтобы избавиться от этих досадных выбросов, которые опровергают их теорию. Хранение этой практики, касающейся очистки данных, поскольку массирование данных является неуместным. Очистка данных, чтобы сделать это что-то, что может войти в вашу систему (избавление от бессмысленных дат, таких как 02/30/2009, потому что кто-то еще сохранил их в varchar вместо дат, разделяя имена и фамилии на отдельные поля, фиксируя все заглавные данные, добавляя значения по умолчанию для полей, которым требуются данные, когда предоставленные данные не указаны и т.д.) - это одно: массирование данных подразумевает практику неправильной настройки данных.