Перекодирование переменных с помощью R
Перекодирование переменных в R, кажется, самая большая головная боль. Какие функции, пакеты, процессы вы используете для обеспечения наилучшего результата?
Я нашел очень мало полезных примеров в Интернете, которые дают одноразовое решение для перекодирования, и мне интересно узнать, что вы, ребята и девочки, используете.
Примечание. Это может быть тема сообщества wiki.
Ответы
Ответ 1
Перекодирование может означать много вещей и существенно сложно.
Изменение уровней фактора может быть выполнено с помощью функции levels
:
> #change the levels of a factor
> levels(veteran$celltype) <- c("s","sc","a","l")
Преобразование непрерывной переменной просто связано с применением векторизованной функции:
mtcars $mpg.log < - log (mtcars $mpg)
Для непрерывных данных непрерывного поиска смотрите cut
и cut2
(в пакете hmisc). Например:
> #make 4 groups with equal sample sizes
> mtcars[['mpg.tr']] <- cut2(mtcars[['mpg']], g=4)
> #make 4 groups with equal bin width
> mtcars[['mpg.tr2']] <- cut(mtcars[['mpg']],4, include.lowest=TRUE)
Для перекодировки непрерывных или фактор-переменных в категориальную переменную в пакете автомобиля recode
и recode.variables
в пакете Deducer
> mtcars[c("mpg.tr2")] <- recode.variables(mtcars[c("mpg")] , "Lo:14 -> 'low';14:24 -> 'mid';else -> 'high';")
Если вы ищете графический интерфейс, Deducer реализует перекодировку с диалогами Transform и Recode:
http://www.deducer.org/pmwiki/pmwiki.php?n=Main.TransformVariables
http://www.deducer.org/pmwiki/pmwiki.php?n=Main.RecodeVariables
Ответ 2
Я нашел mapvalues
из plyr
пакет очень удобно. Пакет также содержит функцию revalue
, которая похожа на car:::recode
.
Следующий пример будет "перекодировать"
> mapvalues(letters, from = c("r", "o", "m", "a", "n"), to = c("R", "O", "M", "A", "N"))
[1] "A" "b" "c" "d" "e" "f" "g" "h" "i" "j" "k" "l" "M" "N" "O" "p" "q" "R" "s" "t" "u" "v" "w" "x" "y" "z"
Ответ 3
Я считаю, что это очень удобно, когда несколько значений должны быть преобразованы (как это делает код в Stata):
# load package and gen some data
require(car)
x <- 1:10
# do the recoding
x
## [1] 1 2 3 4 5 6 7 8 9 10
recode(x,"10=1; 9=2; 1:4=-99")
## [1] -99 -99 -99 -99 5 6 7 8 2 1
Ответ 4
Я обнаружил, что иногда бывает проще конвертировать не числовые коэффициенты в символ, прежде чем пытаться их изменить.
df <- data.frame(example=letters[1:26])
example <- as.character(df$example)
example[example %in% letters[1:20]] <- "a"
example[example %in% letters[21:26]] <- "b"
Кроме того, при импорте данных может быть полезно убедиться, что числа фактически являются числовыми, прежде чем пытаться преобразовать:
df <- data.frame(example=1:100)
example <- as.numeric(df$example)
example[example < 20] <- 1
example[example >= 20 & example < 80] <- 2
example[example >= 80] <- 3
Ответ 5
Если вы хотите перекодировать уровни фактора, forcats
может пригодиться. Вы можете прочитать раздел R для Data Science для обширного учебника, но вот суть этого.
library(tidyverse)
library(forcats)
gss_cat %>%
mutate(partyid = fct_recode(partyid,
"Republican, strong" = "Strong republican",
"Republican, weak" = "Not str republican",
"Independent, near rep" = "Ind,near rep",
"Independent, near dem" = "Ind,near dem",
"Democrat, weak" = "Not str democrat",
"Democrat, strong" = "Strong democrat",
"Other" = "No answer",
"Other" = "Don't know",
"Other" = "Other party"
)) %>%
count(partyid)
#> # A tibble: 8 × 2
#> partyid n
#> <fctr> <int>
#> 1 Other 548
#> 2 Republican, strong 2314
#> 3 Republican, weak 3032
#> 4 Independent, near rep 1791
#> 5 Independent 4119
#> 6 Independent, near dem 2499
#> # ... with 2 more rows
Вы можете даже позволить R решить, какие категории (уровни факторов) сливаются вместе.
Иногда вы просто хотите объединить все небольшие группы, чтобы упростить график или таблицу. Это задача fct_lump(). [...] Поведение по умолчанию состоит в том, чтобы постепенно объединить наименьшие группы, гарантируя, что агрегат все еще является самой маленькой группой.
gss_cat %>%
mutate(relig = fct_lump(relig, n = 10)) %>%
count(relig, sort = TRUE) %>%
print(n = Inf)
#> # A tibble: 2 × 2
#> relig n
#> <fctr> <int>
#> 1 Protestant 10846
#> 2 Other 10637