Подмножество неуравновешенное (реплицированное реплицирование), чтобы заполнить или сбалансировать набор данных в r

У меня есть набор данных, в котором неравное количество повторений. Я хочу подмножить данные, удалив те записи, которые являются неполными (т.е. Репликация меньше максимальной). Небольшой пример:

Я хочу избавиться от A, B, E от данных, поскольку они неполны. Таким образом, ожидаемый результат:

Обратите внимание, что набор данных большой, следующее может не иметь возможности:

Ответы

Ответ 1

Вот решение, использующее data.table:

library(data.table)
DT <- data.table(mydt, key = "name")
DT[, N := .N, by = key(DT)][N == max(N)]
#    name     var1     var2 N
# 1:    C 3.070508 2.033383 4
# 2:    C 3.129288 4.701356 4
# 3:    C 4.715065 3.527209 4
# 4:    C 3.460916 2.932176 4
# 5:    D 1.734939 3.782025 4
# 6:    D 2.313147 2.973996 4
# 7:    D 2.554338 3.271109 4
# 8:    D 4.224082 3.374961 4

.N дает вам количество случаев для каждой группы и с помощью опции data.table для сложных запросов вы можете сразу подмножество основываться на любом условии, которое вы хотите от этой новой переменной.

В базе R есть несколько подходов, наиболее очевидным из которых является table:

with(mydt, mydt[name %in% names(which(table(name) == max(table(name)))), ])

Вероятно, менее распространенный, но похожий подход к предложению data.table заключается в использовании ave():

counts <- with(mydt, as.numeric(ave(as.character(name), name, FUN = length)))
mydt[counts == max(counts), ]

Ответ 2

Вот простой способ, который не требует создания дополнительной структуры данных

tabl <- table(mydt[,1])
toRemove <- names(which(tabl < max(tabl)))
mydt[!mydt[,1] %in% toRemove, ]


     #    name     var1     var2
     # 4     C 3.070508 2.033383
     # 5     C 3.129288 4.701356
     # 6     C 4.715065 3.527209
     # 7     C 3.460916 2.932176
     # 8     D 1.734939 3.782025
     # 9     D 2.313147 2.973996
     # 10    D 2.554338 3.271109
     # 11    D 4.224082 3.374961

В качестве одной строки:

 mydt[!mydt[,1] %in% names(which(table(mydt[,1]) < max(table(mydt[,1])))), ]