Как заменить "любые строки" на nan в pandas DataFrame с помощью булевой маски?
У меня есть 227x4 DataFrame с названиями стран и численными значениями для очистки (спорить?).
Здесь абстракция DataFrame:
import pandas as pd
import random
import string
import numpy as np
pdn = pd.DataFrame(["".join([random.choice(string.ascii_letters) for i in range(3)]) for j in range (6)], columns =['Country Name'])
measures = pd.DataFrame(np.random.random_integers(10,size=(6,2)), columns=['Measure1','Measure2'])
df = pdn.merge(measures, how= 'inner', left_index=True, right_index =True)
df.iloc[4,1] = 'str'
df.iloc[1,2] = 'stuff'
print(df)
Country Name Measure1 Measure2
0 tua 6 3
1 MDK 3 stuff
2 RJU 7 2
3 WyB 7 8
4 Nnr str 3
5 rVN 7 4
Как заменить строковые значения на np.nan
во всех столбцах, не касаясь имен стран?
Я попытался использовать булевскую маску:
mask = df.loc[:,measures.columns].applymap(lambda x: isinstance(x, (int, float))).values
print(mask)
[[ True True]
[ True False]
[ True True]
[ True True]
[False True]
[ True True]]
# I thought the following would replace by default false with np.nan in place, but it didn't
df.loc[:,measures.columns].where(mask, inplace=True)
print(df)
Country Name Measure1 Measure2
0 tua 6 3
1 MDK 3 stuff
2 RJU 7 2
3 WyB 7 8
4 Nnr str 3
5 rVN 7 4
# this give a good output, unfortunately it missing the country names
print(df.loc[:,measures.columns].where(mask))
Measure1 Measure2
0 6 3
1 3 NaN
2 7 2
3 7 8
4 NaN 3
5 7 4
Я рассмотрел несколько вопросов, связанных с моим ([1], [2], [3], [4], [5], [6], [7], [ 8]), но не смог найти тот, который ответил на мою озабоченность.
Ответы
Ответ 1
Назначьте только интересующие столбцы:
cols = ['Measure1','Measure2']
mask = df[cols].applymap(lambda x: isinstance(x, (int, float)))
df[cols] = df[cols].where(mask)
print (df)
Country Name Measure1 Measure2
0 uFv 7 8
1 vCr 5 NaN
2 qPp 2 6
3 QIC 10 10
4 Suy NaN 8
5 eFS 6 4
Мета-вопрос. Нормально ли, что мне требуется более 3 часов, чтобы сформулировать вопрос здесь (в том числе исследование)?
По-моему, да, создать хороший вопрос очень сложно.
Ответ 2
cols = ['Measure1','Measure2']
df[cols] = df[cols].applymap(lambda x: x if not isinstance(x, str) else np.nan)
или
df[cols] = df[cols].applymap(lambda x: np.nan if isinstance(x, str) else x)
Результат:
In [22]: df
Out[22]:
Country Name Measure1 Measure2
0 nBl 10.0 9.0
1 Ayp 8.0 NaN
2 diz 4.0 1.0
3 aad 7.0 3.0
4 JYI NaN 10.0
5 BJO 9.0 8.0
Ответ 3
Использовать число с ошибкой coerce i.e
cols = ['Measure1','Measure2']
df[cols] = df[cols].apply(pd.to_numeric,errors='coerce')
Country Name Measure1 Measure2
0 PuB 7.0 6.0
1 JHq 2.0 NaN
2 opE 4.0 3.0
3 pxl 3.0 6.0
4 ouP NaN 4.0
5 qZR 4.0 6.0