Как создать сводную таблицу на чрезвычайно больших кадрах данных в Pandas

Мне нужно создать сводную таблицу из 2000 столбцов примерно на 30-50 миллионов строк из набора данных около 60 миллионов строк. Я пытался опрокинуть куски из 100 000 строк, и это работает, но когда я пытаюсь рекомбинировать DataFrames, выполняя .append(), за которым следует .groupby('someKey'). Sum(), вся моя память занята и python в конечном итоге сбой.

Как я могу сделать точку с данными с большим объемом ОЗУ?

Следующий код включает в себя различные тестовые выходы на этом пути, но последний отпечаток - это то, что нас действительно интересует. Обратите внимание, что если мы изменим segMax на 3, а вместо 4, код будет генерировать ложный положительный результат для правильного вывода, Основная проблема заключается в том, что, если запись shippingid не находится в каждом куске, на который рассчитывается сумма (wawa), она не отображается на выходе.

Ответы

Ответ 1

Вы можете сделать добавление с помощью HDF5/pytables. Это предотвращает его из ОЗУ.

Используйте формат :

store = pd.HDFStore('store.h5')
for ...:
    ...
    chunk  # the chunk of the DataFrame (which you want to append)
    store.append('df', chunk)

Теперь вы можете прочитать его как DataFrame за один раз (при условии, что этот DataFrame может поместиться в память!):

df = store['df']

Вы также можете запросить, чтобы получить только подразделы DataFrame.

Кроме того, вы также должны купить больше оперативной памяти, это дешево.

Изменить: вы можете группировать/суммировать из магазина итеративно, поскольку эта "карта уменьшает" по кускам:

# note: this doesn't work, see below
sum(df.groupby().sum() for df in store.select('df', chunksize=50000))
# equivalent to (but doesn't read in the entire frame)
store['df'].groupby().sum()

Edit2: Использование суммы, как указано выше, фактически не работает в pandas 0,16 (я думал, что это было в 0.15.2), вместо этого вы можете использовать reduce с add:

reduce(lambda x, y: x.add(y, fill_value=0),
       (df.groupby().sum() for df in store.select('df', chunksize=50000)))

В python 3 вы должны уменьшить импорт из functools.

Возможно, более питонно/читаемо, чтобы написать это как:

chunks = (df.groupby().sum() for df in store.select('df', chunksize=50000))
res = next(chunks)  # will raise if there are no chunks!
for c in chunks:
    res = res.add(c, fill_value=0)

Если производительность невысока/если имеется большое количество новых групп, тогда может быть предпочтительнее начать сброс как нуль нужного размера (путем получения уникальных групповых клавиш, например, путем циклического прохождения кусков), а затем добавить на месте.