Рекомендации по хранению и использованию фреймов данных, слишком больших для памяти?
Я работаю с большим фреймом данных и сталкиваюсь с ограничениями RAM. На этом этапе мне, вероятно, придется работать с сериализованной версией на диске. Есть несколько пакетов для поддержки операций с памятью, но я не уверен, какой из них подходит моим потребностям. Я бы предпочел сохранить все в кадрах данных, поэтому пакет ff
выглядит обнадеживающим, но есть проблемы совместимости, с которыми я не могу работать.
Каким будет первый инструмент, когда вы поймете, что ваши данные достигли шкалы из памяти?
Ответы
Ответ 1
Вероятно, вы захотите посмотреть эти пакеты:
- ff для хранения "плоских файлов" и очень эффективного поиска (можно делать data.frames, разные типы данных)
- bigmemory для вне-R-памяти, но все еще в ОЗУ (или с файловой поддержкой) (можно делать только матрицы, тот же тип данных)
- biglm для установки модели с отсутствием памяти с помощью моделей
lm()
и glm()
.
а также просмотр Высокопроизводительные вычисления.