Сравните два столбца с помощью pandas
Используя это как отправную точку:
a = [['10', '1.2', '4.2'], ['15', '70', '0.03'], ['8', '5', '0']]
df = pd.DataFrame(a, columns=['one', 'two', 'three'])
Out[8]:
one two three
0 10 1.2 4.2
1 15 70 0.03
2 8 5 0
Я хочу использовать что-то вроде инструкции if
в pandas.
if df['one'] >= df['two'] and df['one'] <= df['three']:
df['que'] = df['one']
В принципе, проверьте каждую строку с помощью инструкции if
, создайте новый столбец.
Документы говорят использовать .all
, но нет примера...
Ответы
Ответ 1
Вы можете использовать np.where. Если cond
является булевым массивом, а A
и B
являются массивами, то
C = np.where(cond, A, B)
определяет C равным A
, где cond
- True, а B
, где cond
- False.
import numpy as np
import pandas as pd
a = [['10', '1.2', '4.2'], ['15', '70', '0.03'], ['8', '5', '0']]
df = pd.DataFrame(a, columns=['one', 'two', 'three'])
df['que'] = np.where((df['one'] >= df['two']) & (df['one'] <= df['three'])
, df['one'], np.nan)
дает
one two three que
0 10 1.2 4.2 10
1 15 70 0.03 NaN
2 8 5 0 NaN
Если у вас есть несколько условий, вы можете вместо этого использовать np.select.
Например, если вы хотите df['que']
равняться df['two']
, когда df['one'] < df['two']
, тогда
conditions = [
(df['one'] >= df['two']) & (df['one'] <= df['three']),
df['one'] < df['two']]
choices = [df['one'], df['two']]
df['que'] = np.select(conditions, choices, default=np.nan)
дает
one two three que
0 10 1.2 4.2 10
1 15 70 0.03 70
2 8 5 0 NaN
Если мы можем предположить, что df['one'] >= df['two']
, когда df['one'] < df['two']
Ложно, тогда условия и выбор можно упростить до
conditions = [
df['one'] < df['two'],
df['one'] <= df['three']]
choices = [df['two'], df['one']]
(Предположение может быть неверным, если df['one']
или df['two']
содержат NaNs.)
Обратите внимание, что
a = [['10', '1.2', '4.2'], ['15', '70', '0.03'], ['8', '5', '0']]
df = pd.DataFrame(a, columns=['one', 'two', 'three'])
определяет DataFrame со строковыми значениями. Поскольку они выглядят числовыми, вам может быть лучше преобразовать эти строки в float:
df2 = df.astype(float)
Это изменяет результаты, однако, поскольку строки сравниваются по характеру, в то время как поплавки сравниваются численно.
In [61]: '10' <= '4.2'
Out[61]: True
In [62]: 10 <= 4.2
Out[62]: False
Ответ 2
Вы можете использовать .equals
для столбцов или целых фреймов данных.
df['col1'].equals(df['col2'])
Если они равны, этот оператор вернет True
, else False
.
Ответ 3
Вы можете использовать apply() и сделать что-то вроде этого
df['que'] = df.apply(lambda x : x['one'] if x['one'] >= x['two'] and x['one'] <= x['three'] else "", axis=1)
или если вы предпочитаете не использовать лямбда
def que(x):
if x['one'] >= x['two'] and x['one'] <= x['three']:
return x['one']
else:
''
df['que'] = df.apply(que, axis=1)
Ответ 4
Один из способов - использовать булевскую серию для индексации столбца df['one']
. Это дает вам новый столбец, в котором записи True
имеют то же значение, что и в той же строке, что и df['one']
, а значения False
NaN
.
Булева серия задается только вашим утверждением if
(хотя вместо and
необходимо использовать &
):
>>> df['que'] = df['one'][(df['one'] >= df['two']) & (df['one'] <= df['three'])]
>>> df
one two three que
0 10 1.2 4.2 10
1 15 70 0.03 NaN
2 8 5 0 NaN
Если вы хотите, чтобы значения NaN
были заменены другими значениями, вы можете использовать метод fillna
в новом столбце que
. Я использовал 0
вместо пустой строки здесь:
>>> df['que'] = df['que'].fillna(0)
>>> df
one two three que
0 10 1.2 4.2 10
1 15 70 0.03 0
2 8 5 0 0
Ответ 5
Оберните каждое отдельное условие в круглых скобках, а затем используйте оператор &
для объединения условий:
df.loc[(df['one'] >= df['two']) & (df['one'] <= df['three']), 'que'] = df['one']
Вы можете заполнить несоответствующие строки, просто используя ~
(оператор "not" ), чтобы инвертировать соответствие:
df.loc[~ ((df['one'] >= df['two']) & (df['one'] <= df['three'])), 'que'] = ''
Вам нужно использовать &
и ~
, а не and
и not
, потому что операторы &
и ~
работают поэтапно.
Конечный результат:
df
Out[8]:
one two three que
0 10 1.2 4.2 10
1 15 70 0.03
2 8 5 0
Ответ 6
Я думаю, что наиболее близким к интуиции ОП является встроенное утверждение if:
df['que'] = (df['one'] if ((df['one'] >= df['two']) and (df['one'] <= df['three']))
Ответ 7
Используйте np.select
, если у вас есть несколько условий для проверки из кадра данных, и выведите конкретный выбор в другой столбец
conditions=[(condition1),(condition2)]
choices=["choice1","chocie2"]
df["new column"]=np.select=(condtion,choice,default=)
Примечание: ни одно из условий и ни один из вариантов не должны совпадать. Повторите выбор текста, если для двух разных условий у вас есть одинаковый выбор