Pandas: импортировать несколько файлов csv в dataframe, используя цикл и иерархическую индексацию

Я хотел бы прочитать несколько CSV файлов (с различным количеством столбцов) из целевого каталога в один Python Pandas DataFrame для эффективного поиска и извлечения данных.

По существу, script ниже - это именно то, что я хочу (проверенный и проверенный), но должен быть зациклен через 10 или более файлов csv:

Я нашел много связанных ссылок, однако я все еще не могу заставить это работать:

Ответы

Ответ 1

Вам нужно решить, на какой оси вы хотите добавить свои файлы. Pandas всегда будет стараться делать правильные действия:

Предполагая, что каждый столбец из каждого файла отличается и добавляет цифры в столбцы с похожими именами в файлах, если необходимо, чтобы они не смешивались;
Элементы, относящиеся к одному и тому же индексу строки, хранятся рядом друг с другом под соответствующими столбцами.

Эффект эффективного добавления заключается в том, чтобы опрокинуть файлы сбоку, так что вы получите желаемое поведение в соответствии с тем, что будет делать pandas.concat. Это мой рецепт:

from pandas import *
files = !ls *.csv # IPython magic
d = concat([read_csv(f, index_col=0, header=None, axis=1) for f in files], keys=files)

Обратите внимание, что read_csv транспонируется с помощью axis=1, поэтому он будет конкатенироваться по оси столбца, сохраняя его имена. Если вам нужно, вы можете перенести полученный DataFrame с помощью d.T.

EDIT:

Для различного количества столбцов в каждом исходном файле вам необходимо указать заголовок. Я понимаю, что у вас нет заголовка в исходных файлах, поэтому создайте его с помощью простой функции:

def reader(f):
    d = read_csv(f, index_col=0, header=None, axis=1)
    d.columns = range(d.shape[1])
    return d

df = concat([reader(f) for f in files], keys=files)