Pandas concat ignore_index не работает
Я пытаюсь привязать столбцы к фреймворкам и проблема с pandas concat
, поскольку ignore_index=True
не работает:
df1 = pd.DataFrame({'A': ['A0', 'A1', 'A2', 'A3'],
'B': ['B0', 'B1', 'B2', 'B3'],
'D': ['D0', 'D1', 'D2', 'D3']},
index=[0, 2, 3,4])
df2 = pd.DataFrame({'A1': ['A4', 'A5', 'A6', 'A7'],
'C': ['C4', 'C5', 'C6', 'C7'],
'D2': ['D4', 'D5', 'D6', 'D7']},
index=[ 5, 6, 7,3])
df1
# A B D
# 0 A0 B0 D0
# 2 A1 B1 D1
# 3 A2 B2 D2
# 4 A3 B3 D3
df2
# A1 C D2
# 5 A4 C4 D4
# 6 A5 C5 D5
# 7 A6 C6 D6
# 3 A7 C7 D7
dfs = [df1,df2]
df = pd.concat( dfs,axis=1,ignore_index=True)
print df
и результат
0 1 2 3 4 5
0 A0 B0 D0 NaN NaN NaN
2 A1 B1 D1 NaN NaN NaN
3 A2 B2 D2 A7 C7 D7
4 A3 B3 D3 NaN NaN NaN
5 NaN NaN NaN A4 C4 D4
6 NaN NaN NaN A5 C5 D5
7 NaN NaN NaN A6 C6 D6
Даже если индекс reset, использующий
df1.reset_index()
df2.reset_index()
а затем попробуйте
pd.concat([df1,df2],axis=1)
он все равно дает тот же результат!
Ответы
Ответ 1
Если я правильно вас понял, это то, что вы хотели бы сделать.
import pandas as pd
df1 = pd.DataFrame({'A': ['A0', 'A1', 'A2', 'A3'],
'B': ['B0', 'B1', 'B2', 'B3'],
'D': ['D0', 'D1', 'D2', 'D3']},
index=[0, 2, 3,4])
df2 = pd.DataFrame({'A1': ['A4', 'A5', 'A6', 'A7'],
'C': ['C4', 'C5', 'C6', 'C7'],
'D2': ['D4', 'D5', 'D6', 'D7']},
index=[ 4, 5, 6 ,7])
df1.reset_index(drop=True, inplace=True)
df2.reset_index(drop=True, inplace=True)
df = pd.concat( [df1, df2], axis=1)
Что дает:
A B D A1 C D2
0 A0 B0 D0 A4 C4 D4
1 A1 B1 D1 A5 C5 D5
2 A2 B2 D2 A6 C6 D6
3 A3 B3 D3 A7 C7 D7
Собственно, я бы ожидал, что df = pd.concat(dfs,axis=1,ignore_index=True)
даст тот же результат.
Это отличное объяснение от jreback:
ignore_index=True
'игнорирует, то есть не выравнивает на оси соединения. он просто вставляет их вместе в том порядке, в котором они передаются, затем переназначает диапазон для фактического индекса (например, range(len(index))
) поэтому разница между объединением на неперекрывающихся индексах (предположим axis=1
в примере) заключается в том, что с ignore_index=False
(по умолчанию) вы получаете concat индексов, а с помощью ignore_index=True
вы получаете диапазон.
Ответ 2
Параметр ignore_index работает в вашем примере, вам просто нужно знать, что он игнорирует ось конкатенации, которая в вашем случае является столбцом. (Возможно, лучшим именем будет ignore_labels.) Если вы хотите, чтобы конкатенация игнорировала метки индекса, тогда ваша переменная оси должна быть установлена на 0 (по умолчанию).
Ответ 3
Согласитесь с комментариями, всегда лучше публиковать ожидаемый результат.
Это то, что вы ищете?
df1 = pd.DataFrame({'A': ['A0', 'A1', 'A2', 'A3'],
'B': ['B0', 'B1', 'B2', 'B3'],
'D': ['D0', 'D1', 'D2', 'D3']},
index=[0, 2, 3,4])
df2 = pd.DataFrame({'A1': ['A4', 'A5', 'A6', 'A7'],
'C': ['C4', 'C5', 'C6', 'C7'],
'D2': ['D4', 'D5', 'D6', 'D7']},
index=[ 5, 6, 7,3])
df1 = df1.transpose().reset_index(drop=True).transpose()
df2 = df2.transpose().reset_index(drop=True).transpose()
dfs = [df1,df2]
df = pd.concat( dfs,axis=0,ignore_index=True)
print df
0 1 2
0 A0 B0 D0
1 A1 B1 D1
2 A2 B2 D2
3 A3 B3 D3
4 A4 C4 D4
5 A5 C5 D5
6 A6 C6 D6
7 A7 C7 D7
Ответ 4
Спасибо, что спросили. Я была такая же проблема.
По какой-то причине "ignore_index = True" в моем случае не помогает.
Я хотел сохранить индекс из первого набора данных и игнорировать второй индекс a, который сработал у меня
X_train=pd.concat([train_sp, X_train.reset_index(drop=True, inplace=True)], axis=1)