Получить предыдущий рабочий день в DataFrame
У меня есть DataFrame с двумя столбцами, датой и категорией. Я хочу создать новый столбец даты в соответствии с правилом: если категория равна B
тогда значение должно быть ближе к дате рабочего дня (только из прошлого или самого дня), иначе это значение самого столбца даты.
Я определяю рабочий день как любой день, который не находится на выходных, и не присутствует в списке holidays
указанных в минимальном примере ниже.
Пожалуйста, рассмотрите следующий DataFrame df
:
import datetime as dt
import pandas as pd
from IPython.display import display
holidays = [dt.datetime(2018, 10, 11)]
df = pd.DataFrame({"day": ["2018-10-10", "2018-10-11", "2018-10-12",
"2018-10-13", "2018-10-14", "2018-10-15"
],
"category":["A", "B", "C", "B", "C", "A"]
}
)
df["day"] = pd.to_datetime(df.day, format="%Y-%m-%d")
display(df)
day category
0 2018-10-10 A
1 2018-10-11 B
2 2018-10-12 C
3 2018-10-13 B
4 2018-10-14 C
5 2018-10-15 A
Как получить третий столбец, значения которого перечислены ниже?
2018-10-10
2018-10-10
2018-10-12
2018-10-12
2018-10-14
2018-10-15
У меня есть функция, которая находит последний рабочий день при работе со списками, если это поможет.
# creates a list whose elements are all days in the years 2017, 2018 and 2019
days = [dt.datetime(2017, 1 , 1) + dt.timedelta(k) for k in range(365*3)]
def lastt_bus_day(date):
return max(
[d for d in days if d.weekday() not in [5, 6]
and d not in holidays
and d <= date
]
)
for d in df.day:
print(last_bus_day(d))
#prints
2018-10-10 00:00:00
2018-10-10 00:00:00
2018-10-12 00:00:00
2018-10-12 00:00:00
2018-10-12 00:00:00
2018-10-15 00:00:00
Ответы
Ответ 1
Pandas поддерживает предоставление собственных праздников через пользовательские рабочие дни.
Преимущество этого решения заключается в том, что он поддерживает смежные праздники без проблем; например, День подарков и Рождество в некоторых регионах.
# define custom business days
weekmask = 'Mon Tue Wed Thu Fri'
holidays = ['2018-10-11']
bday = pd.tseries.offsets.CustomBusinessDay(holidays=holidays, weekmask=weekmask)
# construct mask to identify when days must be sutracted
m1 = df['category'] == 'B'
m2 = df['day'].dt.weekday.isin([5, 6]) | df['day'].isin(holidays)
# apply conditional logic
df['day'] = np.where(m1 & m2, df['day'] - bday, df['day'])
print(df)
category day
0 A 2018-10-10
1 B 2018-10-10
2 C 2018-10-12
3 B 2018-10-12
4 C 2018-10-14
5 A 2018-10-15
Изменить: исходя из вашего комментария: "Я просто понял, что не спросил точно, что я хотел. Я хочу найти предыдущий рабочий день", вы можете просто использовать:
df['day'] -= bday
Ответ 2
Вы уже довольно близко:
holidays = [dt.date(2018, 10, 11)]
days = [dt.date(2017, 1 , 1) + dt.timedelta(k) for k in range(365*3)]
def lastt_bus_day(date, format='%Y-%m-%d'):
if not isinstance(date, dt.date):
date = dt.datetime.strptime(date, format).date()
return max(
[d for d in days if d.weekday() not in [5, 6]
and d not in holidays
and d <= date
]
)
Затем просто примените это к файловому кадру:
df['business_day'] = df['day']
df['business_day'].loc[df['category'] == 'B'] = df.loc[df['category'] == 'B', 'day'].apply(lastt_bus_day)
Ответ 3
Используя pandas
BDay
df.day.update(df.loc[(df.category=='B')&((df.day.dt.weekday.isin([5,6])|(df.day.isin(holidays )))),'day']-pd.tseries.offsets.BDay(1))
df
Out[22]:
category day
0 A 2018-10-10
1 B 2018-10-10
2 C 2018-10-12
3 B 2018-10-12
4 C 2018-10-14
5 A 2018-10-15
Ответ 4
Вы можете использовать pd.merge_asof
в подмножестве, где category == 'B'
со всеми рабочими днями, не относящимися к празднику, и назначить дату для всех других категорий. Установите allow_exact_matches=False
чтобы убедиться, что вы не allow_exact_matches=False
с тем же днем для B
import pandas as pd
mask = df.category == 'B'
# DataFrame of all non-holiday days
df_days = pd.DataFrame(days, columns=['day'])
df_days = df_days.loc[(df_days.day.dt.weekday<5) & ~df_days.day.isin(holidays)]
dfb = pd.merge_asof(
df.loc[mask],
df_days.assign(new_day=df_days.day),
on='day',
direction='backward',
allow_exact_matches=False)
dfnb = df.assign(new_day = df.day)[~mask]
pd.concat([dfnb, dfb], ignore_index=True).sort_values('day')
Выход:
day category new_day
0 2018-10-10 A 2018-10-10
4 2018-10-11 B 2018-10-10
1 2018-10-12 C 2018-10-12
5 2018-10-13 B 2018-10-12
2 2018-10-14 C 2018-10-14
3 2018-10-15 A 2018-10-15
Ответ 5
Вы можете сделать это просто, вычислив рабочие дни и выбрав ближайший к нему по вашей категории.
df['day2'] = df.day
bd = pd.date_range(min(df.day), max(df.day), freq='b')
bd = bd[~bd.isin(holidays)]
df.loc[df.category=='B', 'day2'] = df.loc[df.category=='B', 'day'].apply(lambda x: bd[bd.searchsorted(x)-1])
Выход
category day day2
0 A 2018-10-10 2018-10-10
1 B 2018-10-11 2018-10-10
2 C 2018-10-12 2018-10-12
3 B 2018-10-13 2018-10-12
4 C 2018-10-14 2018-10-14
5 A 2018-10-15 2018-10-15