Удалить группу, если NaN присутствует в нескольких столбцах

Я пытаюсь очистить мой фрейм данных таким образом, чтобы, если мои столбцы "Base_2007" и "Base_2011" содержали NA, я должен был полностью отбросить этот округ. В моем случае, поскольку оба округа содержат NA, они оба будут исключены. Таким образом, пустой набор данных будет возвращен. Можно ли сделать что-то подобное?

Примечание. В приведенном выше dput Base_2007 = HPI1990, BASE_2011 = HPI2000

Ответы

Ответ 1

Я испытал это на рисунке набора данных (это также требует NA, чтобы заменить np.nan как df = df.replace('NA', np.nan), если они являются строками)

print(df)

  State  Year  Base_2007  Base_2011           County
0    AL  2012        NaN       14.0  Alabama_Country
1    AL  2013       12.0       20.0  Alabama_Country
2    AL  2014       13.0        NaN  Alabama_Country
3    DC  2011        NaN       20.0          Trenton
4    DC  2012       19.0        NaN          Trenton
5    DC  2013       20.0       21.0          Trenton
6    DC  2014       25.0       30.0          Trenton
7    DM  2013       34.0       45.0            Dummy
8    DM  2012       34.0       45.0            Dummy

Удаление County содержащего произведения NaN, используя:

df_new=df.loc[~df.County.isin(df.loc[df[['Base_2007','Base_2011']].isna().\
                                        any(axis=1),'County'])]
print(df_new)

  State  Year  Base_2007  Base_2011 County
7    DM  2013       34.0       45.0  Dummy
8    DM  2012       34.0       45.0  Dummy

Я обновлю объяснение в ближайшее время.

объяснение

Следующее находит любые строки NaN, основанные на подмножестве Base_2007 и Base_2011

df[['Base_2007','Base_2011']].isna().any(axis=1)
0     True
1    False
2     True
3     True
4     True
5    False
6    False
7    False
8    False

Взяв вышеприведенный вывод в качестве логической маски, мы вызываем df.loc[] как:

df.loc[df[['Base_2007','Base_2011']].isna().any(axis=1),'County']

который дает:

0    Alabama_Country
2    Alabama_Country
3            Trenton
4            Trenton

Обратите внимание, что мы берем только столбец County под ** df.loc[]**. Причиной этого является следующий шаг.

Мы берем вышеприведенный вывод и находим, существует ли какая-либо из ячеек в столбце County из исходного кадра данных в выводе, который мы получили выше с помощью s.isin()

Это возвращает True для строк в County которые присутствуют в выходных данных df.loc[].

Затем мы отрицаем их инвертированием ~ которое превращает все True в False и наоборот.

~df.County.isin(df.loc[df[['Base_2007','Base_2011']].isna().any(axis=1),'County'])
0    False
1    False
2    False
3    False
4    False
5    False
6    False
7     True
8     True

Как только у нас все будет готово, мы применяем ту же логику, что и df.loc[].

Наконец, мы получаем кадр данных, который возвращает только те округа, которые не имеют NaN в Base_2007 и Base_2011.

Примечание: если мы хотим, чтобы индекс начинался с 0, а не среза информационного кадра, мы можем добавить reset_index(drop=True) в конец кода как:

df_new=df.loc[~df.County.isin(df.loc[df[['Base_2007','Base_2011']].isna().\                                 
                    any(axis=1),'County'])].reset_index(drop=True)

   State  Year  Base_2007  Base_2011 County
0    DM  2013       34.0       45.0  Dummy
1    DM  2012       34.0       45.0  Dummy

Ответ 2

Использование query в пандах для проверки нуля и поиска unique округа

county = data.query("Base_2011.isnull() or Base_2007.isnull()", engine='python').County.unique()

выберите всю строку с оставшимся округом из списка

data[~data.County.isin(county)]

State   Year    Base_2007   Base_2011   County
7   DM  2013    34.0    45.0    Dummy
8   DM  2012    34.0    45.0    Dummy

Ответ 3

Просто удалите Нан, используя

    df.dropna()

            State  Year  Base_2007  Base_2011           County
          1    AL  2013       12.0       20.0  Alabama_Country
          5    DC  2013       20.0       21.0          Trenton
          6    DC  2014       25.0       30.0          Trenton
          7    DM  2013       34.0       45.0            Dummy
          8    DM  2012       34.0       45.0            Dummy