Выберите первую строку по группе
С такого кадра данных
test <- data.frame('id'= rep(1:5,2), 'string'= LETTERS[1:10])
test <- test[order(test$id), ]
rownames(test) <- 1:10
> test
id string
1 1 A
2 1 F
3 2 B
4 2 G
5 3 C
6 3 H
7 4 D
8 4 I
9 5 E
10 5 J
Я хочу создать новый с первой строкой каждой пары id/string. Если sqldf принимает код R внутри него, запрос может выглядеть следующим образом:
res <- sqldf("select id, min(rownames(test)), string
from test
group by id, string")
> res
id string
1 1 A
3 2 B
5 3 C
7 4 D
9 5 E
Есть ли решение за исключением создания нового столбца, как
test$row <- rownames(test)
и запустить тот же запрос sqldf с min (строка)?
Ответы
Ответ 1
Вы можете использовать duplicated
, чтобы сделать это очень быстро.
test[!duplicated(test$id),]
Тесты, для скоростных уродов:
ju <- function() test[!duplicated(test$id),]
gs1 <- function() do.call(rbind, lapply(split(test, test$id), head, 1))
gs2 <- function() do.call(rbind, lapply(split(test, test$id), `[`, 1, ))
jply <- function() ddply(test,.(id),function(x) head(x,1))
jdt <- function() {
testd <- as.data.table(test)
setkey(testd,id)
# Initial solution (slow)
# testd[,lapply(.SD,function(x) head(x,1)),by = key(testd)]
# Faster options :
testd[!duplicated(id)] # (1)
# testd[, .SD[1L], by=key(testd)] # (2)
# testd[J(unique(id)),mult="first"] # (3)
# testd[ testd[,.I[1L],by=id] ] # (4) needs v1.8.3. Allows 2nd, 3rd etc
}
library(plyr)
library(data.table)
library(rbenchmark)
# sample data
set.seed(21)
test <- data.frame(id=sample(1e3, 1e5, TRUE), string=sample(LETTERS, 1e5, TRUE))
test <- test[order(test$id), ]
benchmark(ju(), gs1(), gs2(), jply(), jdt(),
replications=5, order="relative")[,1:6]
# test replications elapsed relative user.self sys.self
# 1 ju() 5 0.03 1.000 0.03 0.00
# 5 jdt() 5 0.03 1.000 0.03 0.00
# 3 gs2() 5 3.49 116.333 2.87 0.58
# 2 gs1() 5 3.58 119.333 3.00 0.58
# 4 jply() 5 3.69 123.000 3.11 0.51
Попробуйте это снова, но только с претендентами от первого тепла и с большим количеством данных и более повторений.
set.seed(21)
test <- data.frame(id=sample(1e4, 1e6, TRUE), string=sample(LETTERS, 1e6, TRUE))
test <- test[order(test$id), ]
benchmark(ju(), jdt(), order="relative")[,1:6]
# test replications elapsed relative user.self sys.self
# 1 ju() 100 5.48 1.000 4.44 1.00
# 2 jdt() 100 6.92 1.263 5.70 1.15
Ответ 2
Что насчет
DT <- data.table(test)
setkey(DT, id)
DT[J(unique(id)), mult = "first"]
Изменить
Существует также уникальный метод для data.tables
, который вернет первую строку с помощью ключа
jdtu <- function() unique(DT)
Я думаю, что если вы заказываете test
за пределами теста, то вы можете также удалить преобразование setkey
и data.table
из теста (так как setkey в основном сортирует по id, так же, как order
).
set.seed(21)
test <- data.frame(id=sample(1e3, 1e5, TRUE), string=sample(LETTERS, 1e5, TRUE))
test <- test[order(test$id), ]
DT <- data.table(DT, key = 'id')
ju <- function() test[!duplicated(test$id),]
jdt <- function() DT[J(unique(id)),mult = 'first']
library(rbenchmark)
benchmark(ju(), jdt(), replications = 5)
## test replications elapsed relative user.self sys.self
## 2 jdt() 5 0.01 1 0.02 0
## 1 ju() 5 0.05 5 0.05 0
и с большим количеством данных
** Редактировать с помощью уникального метода **
set.seed(21)
test <- data.frame(id=sample(1e4, 1e6, TRUE), string=sample(LETTERS, 1e6, TRUE))
test <- test[order(test$id), ]
DT <- data.table(test, key = 'id')
test replications elapsed relative user.self sys.self
2 jdt() 5 0.09 2.25 0.09 0.00
3 jdtu() 5 0.04 1.00 0.05 0.00
1 ju() 5 0.22 5.50 0.19 0.03
Уникальный метод работает быстрее.
Ответ 3
Простой вариант ddply
:
ddply(test,.(id),function(x) head(x,1))
Если скорость является проблемой, аналогичный подход может быть использован с data.table
:
testd <- data.table(test)
setkey(testd,id)
testd[,.SD[1],by = key(testd)]
или это может быть значительно быстрее:
testd[testd[, .I[1], by = key(testd]$V1]
Ответ 4
(1) SQLite имеет встроенный псевдо-столбец rowid
, поэтому это работает:
sqldf("select min(rowid) rowid, id, string
from test
group by id")
даяние:
rowid id string
1 1 1 A
2 3 2 B
3 5 3 C
4 7 4 D
5 9 5 E
(2) Также sqldf
имеет аргумент row.names=
:
sqldf("select min(cast(row_names as real)) row_names, id, string
from test
group by id", row.names = TRUE)
даяние:
id string
1 1 A
3 2 B
5 3 C
7 4 D
9 5 E
(3) Третий вариант, который смешивает элементы двух вышеуказанных, может быть еще лучше:
sqldf("select min(rowid) row_names, id, string
from test
group by id", row.names = TRUE)
даяние:
id string
1 1 A
3 2 B
5 3 C
7 4 D
9 5 E
Обратите внимание, что все три из них полагаются на расширение SQLite для SQL, где использование min
или max
гарантировано приведет к тому, что другие столбцы будут выбраны из той же строки. (В других SQL-базах данных, которые могут быть не гарантированы.)
Ответ 5
Теперь для dplyr
добавим отдельный счетчик.
df %>%
group_by(aa, bb) %>%
summarise(first=head(value,1), count=n_distinct(value))
Вы создаете группы, их объединяют в группы.
Если данные числовые, вы можете использовать:
first(value)
[есть также last(value)
] вместо head(value, 1)
см.: http://cran.rstudio.com/web/packages/dplyr/vignettes/introduction.html
Полный:
> df
Source: local data frame [16 x 3]
aa bb value
1 1 1 GUT
2 1 1 PER
3 1 2 SUT
4 1 2 GUT
5 1 3 SUT
6 1 3 GUT
7 1 3 PER
8 2 1 221
9 2 1 224
10 2 1 239
11 2 2 217
12 2 2 221
13 2 2 224
14 3 1 GUT
15 3 1 HUL
16 3 1 GUT
> library(dplyr)
> df %>%
> group_by(aa, bb) %>%
> summarise(first=head(value,1), count=n_distinct(value))
Source: local data frame [6 x 4]
Groups: aa
aa bb first count
1 1 1 GUT 2
2 1 2 SUT 2
3 1 3 SUT 3
4 2 1 221 3
5 2 2 217 3
6 3 1 GUT 2
Ответ 6
Я поддерживаю подход dplyr.
library(dplyr)
test %>%
group_by(id) %>%
filter(row_number()==1)
# A tibble: 5 x 2
# Groups: id [5]
id string
<int> <fct>
1 1 A
2 2 B
3 3 C
4 4 D
5 5 E
Сгруппируйте по идентификатору и фильтру, чтобы получить только первую строку. В некоторых случаях может потребоваться расположение идентификаторов после group_by.
Ответ 7
Базовая опция R - это split()
- lapply()
- do.call()
idiom:
> do.call(rbind, lapply(split(test, test$id), head, 1))
id string
1 1 A
2 2 B
3 3 C
4 4 D
5 5 E
Более прямым вариантом является lapply()
функция [
:
> do.call(rbind, lapply(split(test, test$id), `[`, 1, ))
id string
1 1 A
2 2 B
3 3 C
4 4 D
5 5 E
Запястье 1, )
в конце вызова lapply()
важно, поскольку это эквивалентно вызову [1, ]
для выбора первой строки и всех столбцов.
Ответ 8
test_subset <- test[unique(test$id),]
Только эта строка будет генерировать нужное подмножество.