Итеративно записывая в магазины HDF5 в Pandas

Pandas содержит следующие примеры хранения Series, DataFrames и Panels в файлах HDF5:

Подготовьте некоторые данные:

Сохраните его в хранилище:

Проверьте, что в магазине:

Закройте магазин:

Вопросы:

Ответы

Ответ 1

Как только вызывается выражение, например store['df'] = df. close просто закрывает фактический файл (который будет закрыт для вас, если процесс существует, но выведет предупреждение)
Прочтите раздел http://pandas.pydata.org/pandas-docs/dev/io.html#storing-in-table-format

Как правило, не рекомендуется размещать LOT узлов в файле .h5. Возможно, вы захотите добавить и создать меньшее количество узлов.

Вы можете просто перебирать свои .csv и store/append их по одному. Что-то вроде:
```
for f in files:
  df = pd.read_csv(f)
  df.to_hdf('file.h5',f,df)
```
Будет один способ (создание отдельного node для каждого файла)
Не добавляется - как только вы его запишете, вы можете получить его только сразу, например. вы не можете выбрать подраздел

Если у вас есть таблица, вы можете делать такие вещи, как:
```
pd.read_hdf('my_store.h5','a_table_node',['index>100'])
```
который похож на запрос базы данных, только получая часть данных

Таким образом, хранилище не является добавочным и не запрашивается, а таблица -.

Ответ 2

Отвечая на вопрос 2, pandas 0.18.0 вы можете сделать:

store = pd.HDFStore('compiled_measurements.h5')
for filepath in file_iterator:
    raw = pd.read_csv(filepath)
    store.append('measurements', raw, index=False)

store.create_table_index('measurements', columns=['a', 'b', 'c'], optlevel=9, kind='full')
store.close()

На основе этой части документов.

В зависимости от того, сколько данных у вас есть, создание индекса может потреблять огромные объемы памяти. В документах PyTables описываются значения optlevel.