Преобразование больших csv в hdf5

У меня есть CSV файл 100M (на самом деле много отдельных файлов csv) на 84GB. Мне нужно преобразовать его в файл HDF5 с одним набором данных с плавающей точкой. Я использовал h5py при тестировании без каких-либо проблем, но теперь я не могу сделать окончательный набор данных без нехватки памяти.

Как я могу записать на HDF5 без необходимости хранить весь набор данных в памяти? Я ожидаю действительный код здесь, потому что это должно быть довольно просто.

Я просто смотрел в pytables, но это не похоже на то, что класс массива (который соответствует набору данных HDF5) можно записать итеративно. Аналогично, pandas имеет методы read_csv и to_hdf в своем io_tools, но я не могу загрузить весь набор данных за один раз, так что это не сработает. Возможно, вы можете помочь мне правильно решить проблему с помощью других инструментов в pytables или pandas.

Ответы

Ответ 1

Используйте append=True при вызове to_hdf:

import numpy as np
import pandas as pd

filename = '/tmp/test.h5'

df = pd.DataFrame(np.arange(10).reshape((5,2)), columns=['A', 'B'])
print(df)
#    A  B
# 0  0  1
# 1  2  3
# 2  4  5
# 3  6  7
# 4  8  9

# Save to HDF5
df.to_hdf(filename, 'data', mode='w', format='table')
del df    # allow df to be garbage collected

# Append more data
df2 = pd.DataFrame(np.arange(10).reshape((5,2))*10, columns=['A', 'B'])
df2.to_hdf(filename, 'data', append=True)

print(pd.read_hdf(filename, 'data'))

дает

Обратите внимание, что вам нужно использовать format='table' при первом вызове df.to_hdf, чтобы сделать таблицу доступной. В противном случае формат 'fixed' по умолчанию, который быстрее для чтения и записи, но создает таблицу, к которой нельзя добавить.

Таким образом, вы можете обрабатывать каждый CSV один за раз, используйте append=True для создания файла hdf5. Затем перезапишите DataFrame или используйте del df, чтобы старый мусор был собран.

В качестве альтернативы вместо вызова df.to_hdf вы можете добавить в HDFStore:

import numpy as np
import pandas as pd

filename = '/tmp/test.h5'
store = pd.HDFStore(filename)

for i in range(2):
    df = pd.DataFrame(np.arange(10).reshape((5,2)) * 10**i, columns=['A', 'B'])
    store.append('data', df)

store.close()

store = pd.HDFStore(filename)
data = store['data']
print(data)
store.close()

дает

Ответ 2

Это должно быть возможно с помощью PyTables. Вам нужно будет использовать класс EArray.

В качестве примера приведено следующее: script Я написал для импортирования данных с каналами обучения, хранящихся в виде файлов .npy, в один файл .h5.

import numpy
import tables
import os

training_data = tables.open_file('nn_training.h5', mode='w')
a = tables.Float64Atom()
bl_filter = tables.Filters(5, 'blosc')   # fast compressor at a moderate setting

training_input =  training_data.create_earray(training_data.root, 'X', a,
                                             (0, 1323), 'Training Input',
                                             bl_filter, 4000000)
training_output = training_data.create_earray(training_data.root, 'Y', a,
                                             (0, 27), 'Training Output',
                                             bl_filter, 4000000)

for filename in os.listdir('input'):
    print "loading {}...".format(filename)
    a = numpy.load(os.path.join('input', filename))
    print "writing to h5"
    training_input.append(a)

for filename in os.listdir('output'):
    print "loading {}...".format(filename)
    training_output.append(numpy.load(os.path.join('output', filename)))

Взгляните на документы для подробных инструкций, но очень кратко, функция create_earray принимает 1) корень данных или родительский node; 2) имя массива; 3) атом типа данных; 4) форма с 0 в размерности, которую вы хотите расширить; 5) подробный дескриптор; 6) a фильтр сжатия; и 7) ожидаемое количество строк вдоль расширяемого размера. Требуются только первые два, но вы, вероятно, будете использовать все семь на практике. Функция принимает и другие необязательные аргументы; еще раз, см. документы для деталей.

Как только массив будет создан, вы можете использовать его метод append ожидаемым образом.