Ответ 1
Я понимаю, что на этот вопрос лучше ответить на этот пост.
Но вкратце, ответ OP на этот метод просто:
s1 = pd.merge(df1, df2, how='inner', on=['user_id'])
Что дает s1 с 5 столбцами: user_id и два других столбца из каждого из df1 и df2.
Предположим, у меня есть два фрейма данных этого формата (назовите их df1
и df2
):
+------------------------+------------------------+--------+
| user_id | business_id | rating |
+------------------------+------------------------+--------+
| rLtl8ZkDX5vH5nAx9C3q5Q | eIxSLxzIlfExI6vgAbn2JA | 4 |
| C6IOtaaYdLIT5fWd7ZYIuA | eIxSLxzIlfExI6vgAbn2JA | 5 |
| mlBC3pN9GXlUUfQi1qBBZA | KoIRdcIfh3XWxiCeV1BDmA | 3 |
+------------------------+------------------------+--------+
Я ищу, чтобы получить dataframe всех строк, которые имеют общий user_id
в df1
и df2
. (т.е. если a user_id
находится в df1
и df2
, включите две строки в выходной блок данных)
Я могу придумать много способов приблизиться к этому, но все они ударяют меня как неуклюжий. Например, мы могли бы найти все уникальные user_id
в каждом фрейме данных, создать набор из них, найти их пересечение, отфильтровать два кадра данных с результирующим набором и объединить два отфильтрованных файла данных.
Может быть, лучший подход, но я знаю, что Pandas умный. Есть ли более простой способ сделать это? Я посмотрел на merge
, но я не думаю, что мне нужно.
Я понимаю, что на этот вопрос лучше ответить на этот пост.
Но вкратце, ответ OP на этот метод просто:
s1 = pd.merge(df1, df2, how='inner', on=['user_id'])
Что дает s1 с 5 столбцами: user_id и два других столбца из каждого из df1 и df2.
Если вы правильно поняли, вы можете использовать комбинацию Series.isin()
и DataFrame.append()
:
In [80]: df1
Out[80]:
rating user_id
0 2 0x21abL
1 1 0x21abL
2 1 0xdafL
3 0 0x21abL
4 4 0x1d14L
5 2 0x21abL
6 1 0x21abL
7 0 0xdafL
8 4 0x1d14L
9 1 0x21abL
In [81]: df2
Out[81]:
rating user_id
0 2 0x1d14L
1 1 0xdbdcad7
2 1 0x21abL
3 3 0x21abL
4 3 0x21abL
5 1 0x5734a81e2
6 2 0x1d14L
7 0 0xdafL
8 0 0x1d14L
9 4 0x5734a81e2
In [82]: ind = df2.user_id.isin(df1.user_id) & df1.user_id.isin(df2.user_id)
In [83]: ind
Out[83]:
0 True
1 False
2 True
3 True
4 True
5 False
6 True
7 True
8 True
9 False
Name: user_id, dtype: bool
In [84]: df1[ind].append(df2[ind])
Out[84]:
rating user_id
0 2 0x21abL
2 1 0xdafL
3 0 0x21abL
4 4 0x1d14L
6 1 0x21abL
7 0 0xdafL
8 4 0x1d14L
0 2 0x1d14L
2 1 0x21abL
3 3 0x21abL
4 3 0x21abL
6 2 0x1d14L
7 0 0xdafL
8 0 0x1d14L
Это по существу алгоритм, который вы назвали "неуклюжим", используя идиоматические методы pandas
. Обратите внимание на повторяющиеся индексы строк. Также обратите внимание, что это не даст ожидаемого результата, если df1
и df2
не имеют перекрывающихся индексов строк, т.е. Если
In [93]: df1.index & df2.index
Out[93]: Int64Index([], dtype='int64')
Фактически, он не даст ожидаемого результата, если их индексы строк не равны.
В SQL эта проблема может быть решена несколькими способами:
select * from df1 where exists (select * from df2 where df2.user_id = df1.user_id)
union all
select * from df2 where exists (select * from df1 where df1.user_id = df2.user_id)
или присоединиться, а затем отключить (возможно на сервере SQL)
select
df1.user_id,
c.rating
from df1
inner join df2 on df2.user_i = df1.user_id
outer apply (
select df1.rating union all
select df2.rating
) as c
Второй можно записать в pandas с чем-то вроде:
>>> df1 = pd.DataFrame({"user_id":[1,2,3], "rating":[10, 15, 20]})
>>> df2 = pd.DataFrame({"user_id":[3,4,5], "rating":[30, 35, 40]})
>>>
>>> df4 = df[['user_id', 'rating_1']].rename(columns={'rating_1':'rating'})
>>> df = pd.merge(df1, df2, on='user_id', suffixes=['_1', '_2'])
>>> df3 = df[['user_id', 'rating_1']].rename(columns={'rating_1':'rating'})
>>> df4 = df[['user_id', 'rating_2']].rename(columns={'rating_2':'rating'})
>>> pd.concat([df3, df4], axis=0)
user_id rating
0 3 20
0 3 30