Преобразование строковых объектов в int/float с помощью pandas

В файле csv "100 & life_180_data.csv" содержатся такие столбцы, как возраст, bmi, сигареты, Alocohol и т.д.

Сигаретная колонка содержит "Никогда" "1-5 Сигареты/день", "10-20 сигарет/день". Я хочу присвоить весу этим объектам (Никогда, 1-5 Cigarettes/day,....)

Ожидаемый вывод - это новый столбец CigarNum, который содержит только числа 0,1,2 CigarNum как ожидается до 8 строк, а затем показывает Nan до последнего ряда в столбце CigarNum

Результат, который я получаю, не дает NaN после нескольких первых строк.

Ответы

Ответ 1

ОК, первая проблема заключается в том, что у вас есть встроенные пространства, из-за которых функция неправильно применяется:

исправить это с помощью векторизованного str:

mydf['Cigarettes'] = mydf['Cigarettes'].str.replace(' ', '')

теперь создайте новый столбец, который должен работать:

mydf['CigarNum'] = mydf['Cigarettes'].apply(numcigar.get).astype(float)

UPDATE

Благодаря @Jeff, как всегда, указывая на превосходные способы делать вещи:

Итак, вы можете вызвать replace вместо вызова apply:

mydf['CigarNum'] = mydf['Cigarettes'].replace(numcigar)
# now convert the types
mydf['CigarNum'] = mydf['CigarNum'].convert_objects(convert_numeric=True)

вы также можете использовать метод factorize.

Размышление об этом, почему бы не просто установить значения dict в качестве плавающих в любом случае, а затем избежать преобразования типов?

Итак:

numcigar = {"Never":0.0 ,"1-5 Cigarettes/day" :1.0,"10-20 Cigarettes/day":4.0}

Версия 0.17.0 или новее

convert_objects устарел с 0.17.0, это было заменено на to_numeric

mydf['CigarNum'] = pd.to_numeric(mydf['CigarNum'], errors='coerce')

Здесь errors='coerce' будет возвращать NaN, где значения не могут быть преобразованы в числовое значение, без этого оно приведет к возникновению исключения

Ответ 2

Попробуйте использовать эту функцию для всех задач такого рода:

def get_series_ids(x):
    '''Function returns a pandas series consisting of ids, 
       corresponding to objects in input pandas series x
       Example: 
       get_series_ids(pd.Series(['a','a','b','b','c'])) 
       returns Series([0,0,1,1,2], dtype=int)'''

    values = np.unique(x)
    values2nums = dict(zip(values,range(len(values))))
    return x.replace(values2nums)