Pandas, как использовать pd.cut()
Вот фрагмент:
test = pd.DataFrame({'days': [0,31,45]})
test['range'] = pd.cut(test.days, [0,30,60])
Выход:
days range
0 0 NaN
1 31 (30, 60]
2 45 (30, 60]
Я удивлен, что 0 не находится в (0, 30), что мне делать, чтобы классифицировать 0 как (0, 30]?
Ответы
Ответ 1
test['range'] = pd.cut(test.days, [0,30,60], include_lowest=True)
print (test)
days range
0 0 (-0.001, 30.0]
1 31 (30.0, 60.0]
2 45 (30.0, 60.0]
См. Разницу:
test = pd.DataFrame({'days': [0,20,30,31,45,60]})
test['range1'] = pd.cut(test.days, [0,30,60], include_lowest=True)
#30 value is in [30, 60) group
test['range2'] = pd.cut(test.days, [0,30,60], right=False)
#30 value is in (0, 30] group
test['range3'] = pd.cut(test.days, [0,30,60])
print (test)
days range1 range2 range3
0 0 (-0.001, 30.0] [0, 30) NaN
1 20 (-0.001, 30.0] [0, 30) (0, 30]
2 30 (-0.001, 30.0] [30, 60) (0, 30]
3 31 (30.0, 60.0] [30, 60) (30, 60]
4 45 (30.0, 60.0] [30, 60) (30, 60]
5 60 (30.0, 60.0] NaN (30, 60]
Или используйте numpy.searchsorted
, но значения days
должны быть отсортированы:
arr = np.array([0,30,60])
test['range1'] = arr.searchsorted(test.days)
test['range2'] = arr.searchsorted(test.days, side='right') - 1
print (test)
days range1 range2
0 0 0 0
1 20 1 0
2 30 1 1
3 31 2 1
4 45 2 1
5 60 2 2
Ответ 2
Документация pd.cut
Включить параметр right=False
test = pd.DataFrame({'days': [0,31,45]})
test['range'] = pd.cut(test.days, [0,30,60], right=False)
test
days range
0 0 [0, 30)
1 31 [30, 60)
2 45 [30, 60)
Ответ 3
Пример работы .cut
s=pd.Series([168,180,174,190,170,185,179,181,175,169,182,177,180,171)
pd.cut(s,3)
#To add labels to bins
pd.cut(s,3,labels=["Small","Medium","Large"])
Это может быть использовано непосредственно в диапазоне
Ответ 4
Вы также можете использовать метки для pd.cut(). Следующий пример содержит оценку учеников в диапазоне от 0 до 10. Мы добавляем новый столбец под названием "grade_cat" для классификации оценок.
интервалы представляют интервалы: 0-4 - один интервал, 5-6 - один интервал и т.д. Соответствующие метки - "плохие", "нормальные" и т.д.
bins = [0, 4, 6, 10]
labels = ["poor","normal","excellent"]
student['grade_cat'] = pd.cut(student['grade'], bins=bins, labels=labels)
Ответ 5
@jezrael объяснил почти все варианты использования pd.cut()
Я хотел бы добавить один вариант использования:
pd.cut(np.array([1,2,3,4,5,6]),3)
количество бинов определяется вторым параметром, поэтому мы имеем следующий вывод
[(0.995,2.667],(0.995,2.667],(2.667,4.333],(2.667,4.333], (4.333,6.0], (4.333,6.0]]
Categories (3, interval[float64]): [(0.995,2.667] < (2.667,4.333] < (4.333,6.0]]
Точно так же, если мы используем номер параметра bin (второй параметр), в качестве следующих 2 будет вывод
[(0.995, 3.5], (0.995, 3.5], (0.995, 3.5], (3.5, 6.0], (3.5, 6.0], (3.5, 6.0]]
Categories (2, interval[float64]): [(0.995, 3.5] < (3.5, 6.0]]