Как написать/прочитать Pandas DataFrame с MultiIndex из/в ASCII файл?

Я хочу иметь возможность создавать Pandas DataFrame с помощью MultiIndexes для строк и индекса столбцов и читать их из текстового файла ASCII. Мои данные выглядят так:

Я пробовал df.to_csv() и read_csv(), но они не сохраняют индекс.

Я думал о создании нового формата с использованием дополнительных разделителей. Например, используя строку ----------------, чтобы пометить конец индексов столбцов и |, чтобы отметить конец индекса строки. Таким образом, это будет выглядеть так:

Есть ли у Pandas способ записи/чтения DataFrames в/из ASCII файлов с помощью MultiIndexes?

Ответы

Ответ 1

Не знаете, какую версию pandas вы используете, но с 0.7.3 вы можете экспортировать DataFrame в TSV файл и сохранить индексы, выполнив следующие действия:

df.to_csv('mydf.tsv', sep='\t')

Причина, по которой вам нужно экспортировать в TSV по сравнению с CSV, так как заголовки столбцов имеют в них символы ,. Это должно решить первую часть вашего вопроса.

Вторая часть становится немного сложнее, поскольку, насколько я могу судить, вам нужно заранее иметь представление о том, что вы хотите, чтобы ваш DataFrame содержал. В частности, вам нужно знать:

Какие столбцы вашего TSV представляют строку MultiIndex
и что остальные столбцы также должны быть преобразованы в MultiIndex

Чтобы проиллюстрировать это, давайте вернем сохраненный выше TSV файл в новый DataFrame:

In [1]: t_df = read_table('mydf.tsv', index_col=[0,1,2])
In [2]: all(t_df.index == df.index)
Out[2]: True

Таким образом, нам удалось прочитать mydf.tsv в DataFrame, который имеет тот же индекс строки, что и исходный df. Но:

In [3]: all(t_df.columns == df.columns)
Out[3]: False

И причина здесь в том, что pandas (насколько я могу судить) не имеет возможности правильно разбора строки заголовка в MultiIndex. Как я уже упоминал выше, если вы знаете, что ваш заголовок файла TSV представляет MultiIndex, вы можете сделать следующее, чтобы исправить это:

In [4]: from ast import literal_eval
In [5]: t_df.columns = MultiIndex.from_tuples(t_df.columns.map(literal_eval).tolist(), 
                                              names=['one','two','three'])
In [6]: all(t_df.columns == df.columns)
Out[6]: True

Ответ 2

Вы можете изменить параметры печати, используя set_option:

display.multi_sparse:
: boolean
& ЕПРС; & ЕПРС; По умолчанию True, "спарсинг" MultiIndex дисплей
& ЕПРС; & emsp; (не отображать повторяющиеся элементы на внешних уровнях внутри групп)

Теперь DataFrame будет напечатан по желанию:

In [11]: pd.set_option('multi_sparse', False)

In [12]: df
Out[12]: 
one             A   A   A   A   A   A   A   A   A  A2  A2  A2  A2  A2  A2  A2  A2  A2
two             B   B   B  B2  B2  B2  B3  B3  B3   B   B   B  B2  B2  B2  B3  B3  B3
three           C  C2  C3   C  C2  C3   C  C2  C3   C  C2  C3   C  C2  C3   C  C2  C3
n location sex                                                                       
0 North    M    2   1   6   4   6   4   7   1   1   0   4   3   9   2   0   0   6   4
1 East     F    3   5   5   6   4   8   0   3   2   3   9   8   1   6   7   4   7   2
2 West     M    7   9   3   5   0   1   2   8   1   6   0   7   9   9   3   2   2   4
3 South    M    1   0   0   3   5   7   7   0   9   3   0   3   3   6   8   3   6   1
4 South    F    8   0   0   7   3   8   0   8   0   5   5   6   0   0   0   1   8   7
5 West     F    6   5   9   4   7   2   5   6   1   2   9   4   7   5   5   4   3   6
6 North    M    3   3   0   1   1   3   6   3   8   6   4   1   0   5   5   5   4   9
7 North    M    0   4   9   8   5   7   7   0   5   8   4   1   5   7   6   3   6   8
8 East     F    5   6   2   7   0   6   2   7   1   2   0   5   6   1   4   8   0   3
9 South    M    1   2   0   6   9   7   5   3   3   8   7   6   0   5   4   3   5   9

Примечание: в старых версиях pandas это было pd.set_printoptions(multi_sparse=False).