Создание pandas DataFrame из столбцов других DataFrames со схожими индексами

У меня есть 2 DataFrames df1 и df2 с одинаковыми именами столбцов ['a', 'b', 'c'] и проиндексированы по датам. Индекс даты может иметь аналогичные значения. Я хотел бы создать DataFrame df3 только с данными из столбцов ['c'], переименованными соответственно в 'df1' и 'df2' и с правильным индексом даты. Моя проблема в том, что я не могу понять, как правильно объединить индекс.

Но с NaN в столбце df1 в качестве индекса даты df2 шире. (В этом примере я получу NaN за последующие даты: 2014-01-01, 2014-01-07 and 2014-01-08)

Ответы

Ответ 1

Вы можете использовать concat:

In [11]: pd.concat([df1['c'], df2['c']], axis=1, keys=['df1', 'df2'])
Out[11]: 
                 df1       df2
2014-01-01       NaN -0.978535
2014-01-02 -0.106510 -0.519239
2014-01-03 -0.846100 -0.313153
2014-01-04 -0.014253 -1.040702
2014-01-05  0.315156 -0.329967
2014-01-06 -0.510577 -0.940901
2014-01-07       NaN -0.024608
2014-01-08       NaN -1.791899

[8 rows x 2 columns]

Аргумент оси определяет способ размещения DataFrames:

df1 = pd.DataFrame([1, 2, 3])
df2 = pd.DataFrame(['a', 'b', 'c'])

pd.concat([df1, df2], axis=0)
   0
0  1
1  2
2  3
0  a
1  b
2  c

pd.concat([df1, df2], axis=1)

   0  0
0  1  a
1  2  b
2  3  c

Ответ 2

Ну, я не уверен, что слияние будет способом. Лично я бы построил новый фрейм данных, создав индекс дат, а затем построил столбцы, используя списки. Возможно, это не самый пифонический путь, но, похоже, он работает для меня!

import pandas as pd
import numpy as np

df1 = pd.DataFrame(np.random.randn(5,3), index=pd.date_range('01/02/2014',periods=5,freq='D'), columns=['a','b','c'] )
df2 = pd.DataFrame(np.random.randn(8,3), index=pd.date_range('01/01/2014',periods=8,freq='D'), columns=['a','b','c'] )

# Create an index list from the set of dates in both data frames
Index = list(set(list(df1.index) + list(df2.index)))
Index.sort()

df3 = pd.DataFrame({'df1': [df1.loc[Date, 'c'] if Date in df1.index else np.nan for Date in Index],\
                'df2': [df2.loc[Date, 'c'] if Date in df2.index else np.nan for Date in Index],},\
                index = Index)

df3