Согласование строки с различными возможностями с помощью grep
Я хочу видеть, если "001"
или "100"
или "000"
происходит в строке из 4 символов 0
и 1
. Например, строка из 4 символов может быть как "1100"
или "0010"
или "1001"
или "1111"
. Как сопоставить многие строки в строке с помощью одной команды?
Я знаю, что grep можно использовать для сопоставления шаблонов, но используя grep, я могу проверить только одну строку за раз. Я хочу знать, можно ли использовать несколько строк с какой-либо другой командой или с самой grep.
Ответы
Ответ 1
Да, вы можете. |
в шаблоне grep
имеет то же значение, что и or
. Таким образом, вы можете проверить свой шаблон, используя "001|100|000"
в качестве шаблона. В то же время grep
векторизован, поэтому все это можно сделать за один шаг:
x <- c("1100", "0010", "1001", "1111")
pattern <- "001|100|000"
grep(pattern, x)
[1] 1 2 3
Это возвращает индекс того из ваших векторов, который содержит шаблон соответствия (в этом случае первые три.)
Иногда удобнее иметь логический вектор, который сообщает вам, какие из элементов в вашем векторе были сопоставлены. Затем вы можете использовать grepl
:
grepl(pattern, x)
[1] TRUE TRUE TRUE FALSE
См. ?regex
для справки о регулярных выражениях в R.
Edit:
Чтобы избежать создания шаблона вручную, мы можем использовать paste
:
myValues <- c("001", "100", "000")
pattern <- paste(myValues, collapse = "|")
Ответ 2
Вот одно решение, использующее stringr
package
require(stringr)
mylist = c("1100", "0010", "1001", "1111")
str_locate(mylist, "000|001|100")
Ответ 3
Используйте аргумент -e для добавления дополнительных паттернов:
echo '1100' | grep -e '001' -e '110' -e '101'
Ответ 4
Вы также можете использовать оператор %like%
из библиотеки data.table
.
library(data.table)
# input
x <- c("1100", "0010", "1001", "1111")
pattern <- "001|100|000"
# check for pattern
x %like% pattern
> [1] TRUE TRUE TRUE FALSE
Ответ 5
Если вам нужен логический вектор, вы должны проверить stri_detect
функцию из пакета stringi
. В вашем случае шаблон является регулярным выражением, поэтому используйте его:
stri_detect_regex(x, pattern)
## [1] TRUE TRUE TRUE FALSE
И некоторые ориентиры:
require(microbenchmark)
test <- stri_paste(stri_rand_strings(100000, 4, "[0-1]"))
head(test)
## [1] "0001" "1111" "1101" "1101" "1110" "0110"
microbenchmark(stri_detect_regex(test, pattern), grepl(pattern, test))
Unit: milliseconds
expr min lq mean median uq max neval
stri_detect_regex(test, pattern) 29.67405 30.30656 31.61175 30.93748 33.14948 35.90658 100
grepl(pattern, test) 36.72723 37.71329 40.08595 40.01104 41.57586 48.63421 100
Ответ 6
Извините за добавление дополнительного ответа, но слишком много строк для комментария.
Я просто хотел напомнить, что количество элементов, которые могут быть вставлены вместе через paste(..., collapse = "|")
для использования в качестве одного шаблона соответствия, ограничено - см. ниже. Может быть, кто-то может сказать, где именно предел? Разумеется, число может быть нереалистичным, но в зависимости от выполняемой задачи он не должен полностью исключаться из наших соображений.
Для действительно большого количества элементов для проверки каждого элемента шаблона потребуется цикл.
set.seed(0)
samplefun <- function(n, x, collapse){
paste(sample(x, n, replace=TRUE), collapse=collapse)
}
words <- sapply(rpois(10000000, 8) + 1, samplefun, letters, '')
text <- sapply(rpois(1000, 5) + 1, samplefun, words, ' ')
#since execution takes a while, I have commented out the following lines
#result <- grepl(paste(words, collapse = "|"), text)
# Error in grepl(pattern, text) :
# invalid regular expression
# 'wljtpgjqtnw|twiv|jphmer|mcemahvlsjxr|grehqfgldkgfu|
# ...
#result <- stringi::stri_detect_regex(text, paste(words, collapse = "|"))
# Error in stringi::stri_detect_regex(text, paste(words, collapse = "|")) :
# Pattern exceeds limits on size or complexity. (U_REGEX_PATTERN_TOO_BIG)