Включение весов наблюдения в пакет randomForest
Как я могу использовать пакет R randomForest
с весами наблюдения? Я знаю, что такого варианта в этом пакете нет. У меня есть 2 вопроса:
-
Есть ли какие-либо решения этой проблемы с помощью пакета randomForest
? В этот момент я рисую образцы из данных с весами как вероятность, поэтому я могу хотя бы имитировать ее:
m = dim(data)[1]
sample(data, m, replace=TRUE, prob=weights)
В нем работают другие (лучшие) решения?
-
Есть ли альтернативы пакету randomForest
. Я нашел пакет party
(cforest), но это ужасно с точки зрения управления памятью (или я не могу использовать его так, как я использую пакет randomForest
). У меня около 200 тыс. Наблюдений и 30-40 переменных.
EDIT:
Извините, что не уточнил детали. Я использую пакет randomForest
для проблемы регрессии (не классификация). Это временный ряд, и каждое наблюдение имеет свой вес. Позже этот вес используется для определения производительности модели во время тестовых наблюдений. Переменная y непрерывна.
Ответы
Ответ 1
randomForest
имеет параметр "classwt", который должен позволять вам учитывать вероятности дифференциальных выборок или даже для дифференциальных затрат. По общему признанию, это игнорируется с регрессией. Возможно, вам следует объяснить, почему вам нужно использовать взвешивание и какую переменную y вы используете.
Ответ 2
Я искал тот же вариант, что и Pawel в Random Forest. И я понял, что пакет "рейнджер" в R включает его в функцию "рейнджер" (через параметр "case.weights" ).
Пакет, выпущенный в июне 2016 года, очень молод.
Бест,