Ответ 1
Я согласен с тем, что чистка рук - это, как правило, довольно плохая идея. Однако иногда это неизбежно. Я бы предложил один из двух, или оба:
-
Храните отдельный файл данных с "фиксацией данных", содержащий три переменные "case_id", "variable_name", "value". Используйте его для хранения информации о том, какие значения в исходных данных необходимо заменить. Вы можете добавить некоторые дополнительные переменные к дополнительной информации об очистке (например, почему значение переменной "имя_переменной" нужно заменить на "значение" для случая "case_id" и т.д.). Затем введите короткий фрагмент кода R, который загружает ваши исходные данные, а затем очищает его с дополнительной информацией в файле "fixing".
-
Возможно, вам стоит начать использовать некоторую систему управления версиями, например git или subversion (есть и другие проги). Каждое внесенное вручную изменение данных может быть записано в систему как отдельная фиксация. К концу дня вы сможете легко проверить журнал, какое изменение вы внесли в данные и когда. Кроме того, вы сможете создавать файлы патчей, которые преобразуют исходные файлы данных в очищенные. Также полезно иметь управляемые версии файлов R-кода.