Элегантная функция R: смешанный случай, разделенный периодами, для подчеркивания отдельных нижних и/или верблюжьих корпусов
Я часто получаю наборы данных от коллаборационистов, которые имеют несогласованное обозначение переменных/столбцов в наборе данных. Одна из моих первых задач - переименовать их, и я хочу, чтобы решение было полностью выполнено внутри R.
as.Given <- c("ICUDays","SexCode","MAX_of_MLD","Age.Group")
underscore_lowercase <- c("icu_days", "sex_code", "max_of_mld","age_group")
camelCase <- c("icuDays", "sexCode", "maxOfMld", "ageGroup")
Учитывая разные мнения о соглашениях об именах и в духе что было предложено на Python, что пути от as.Given
до underscore_lowercase
и/или camelCase
по заданному пользователем способу в R?
Изменить: Также найден этот связанный пост в R/regex, особенно ответ @rengis.
Ответы
Ответ 1
Попробуйте это. Они, по крайней мере, работают над приведенными примерами:
toUnderscore <- function(x) {
x2 <- gsub("([A-Za-z])([A-Z])([a-z])", "\\1_\\2\\3", x)
x3 <- gsub(".", "_", x2, fixed = TRUE)
x4 <- gsub("([a-z])([A-Z])", "\\1_\\2", x3)
x5 <- tolower(x4)
x5
}
underscore2camel <- function(x) {
gsub("_(.)", "\\U\\1", x, perl = TRUE)
}
#######################################################
# test
#######################################################
u <- toUnderscore(as.Given)
u
## [1] "icu_days" "sex_code" "max_of_mld" "age_group"
underscore2camel(u)
## [1] "icuDays" "sexCode" "maxOfMld" "ageGroup"
Ответ 2
Чтобы получить строки underscore_lowercase
(g) и camelCase
( x),
> as.Given <- c("ICUDays","SexCode","MAX_of_MLD","Age.Group")
> r <- gsub("[^\\w]", "", as.Given, perl=T)
> f <- gsub("^.*?_.*$(*SKIP)(*F)|(?:[^A-Z]+|[A-Z_]+?)\\K([A-Z])(?=[A-Z_]+$|[a-z_]+$)", "_\\1", r,perl=T)
> g <- tolower(f)
> g
[1] "icu_days" "sex_code" "max_of_mld" "age_group"
> x <- gsub("_([a-z])", "\\U\\1", g,perl=T)
> x
[1] "icuDays" "sexCode" "maxOfMld" "ageGroup"
UPDATE
> as.Given = c("CRMLevel1Code", "MAX_of_RhD", "MAX_Of_MCa", "MAX_of_NCCexclusion","ICUDays","SexCode","MAX_of_MLD","Age.Group","admitRom")
> r <- gsub("[^\\w]", "", as.Given, perl=T)
> f <- gsub("(?:[^A-Z]|^)[A-Z][A-Z][A-Z]\\K(?=[a-zA-Z])|(?=\\d)|^[A-Z][a-z]+\\K(?=[A-Z][a-z]+$)|(?<=\\d)(?=[A-Za-z])|^[a-z]+\\K(?=[A-Z][a-z]+$)", "_", r, perl=T)
> underscore_lowercase <- tolower(f)
> underscore_lowercase
[1] "crm_level_1_code" "max_of_rhd" "max_of_mca"
[4] "max_of_ncc_exclusion" "icu_days" "sex_code"
[7] "max_of_mld" "age_group" "admit_rom"
> camelCase <- gsub("_([a-z]|\d)", "\\U\\1", underscore_lowercase, perl=T)
Error: '\d' is an unrecognized escape in character string starting ""_([a-z]|\d"
> camelCase <- gsub("_([a-z]|\\d)", "\\U\\1", underscore_lowercase, perl=T)
> camelCase
[1] "crmLevel1Code" "maxOfRhd" "maxOfMca"
[4] "maxOfNccExclusion" "icuDays" "sexCode"
[7] "maxOfMld" "ageGroup" "admitRom"
Ответ 3
Исходя из вашего вектора as.Given
и добавления admitROM
в список, это сделает трюк.
as.Given <- c('ICUDays', 'SexCode', 'MAX_of_MLD', 'Age.Group', 'admitROM')
invertd <- gsub('(?<=[a-z])(?=[A-Z])|(?<=[A-Z])(?=[A-Z][a-z])|\\.', '_', as.Given, perl=T)
toscore <- tolower(invertd)
## [1] "icu_days" "sex_code" "max_of_mld" "age_group" "admit_rom"
tocamel <- gsub("_([a-z])", "\\U\\1", toscore, perl=T)
## [1] "icuDays" "sexCode" "maxOfMld" "ageGroup" "admitRom"
Ответ 4
Это должно сделать трюк:
> install.packages("snakecase")
> library(snakecase)
> to_snake_case(as.Given, sep_in = "\\.")
[1] "icu_days" "sex_code" "max_of_mld" "age_group"
> to_lower_camel_case(as.Given, sep_in = "\\.")
[1] "icuDays" "sexCode" "maxOfMld" "ageGroup"
Githublink для пакета snakecase: https://github.com/Tazinho/snakecase