Как сгруппировать DataFrame на определенный промежуток времени?

У меня есть некоторые данные из файлов журналов и вы хотите группировать записи на минуту:

Каков правильный способ группировки по времени? Как я могу сгруппировать данные на минуту и по столбцу "Источник", например. groupby([TimeGrouper(freq='Min'), df.Source])?

Ответы

Ответ 1

Вы можете группировать любые массивы/серии той же длины, что и ваш DataFrame, даже вычисляемый коэффициент, который фактически не является столбцом DataFrame. Таким образом, вы можете сделать следующее:

df.groupby(df.index.map(lambda t: t.minute))

Если вы хотите группировать поминутно и что-то еще, просто смешайте это с колонкой, которую вы хотите использовать:

df.groupby([df.index.map(lambda t: t.minute), 'Source'])

Лично я считаю полезным добавлять столбцы в DataFrame для хранения некоторых из этих вычисленных вещей (например, столбец "Минута" ), если я хочу часто группировать их, поскольку он делает код группировки менее подробным.

Или вы можете попробовать что-то вроде этого:

df.groupby([df['Source'],pd.TimeGrouper(freq='Min')])

Ответ 2

Поскольку первоначальный ответ довольно старый и панды вводили периоды, в настоящее время существует другое решение:

df.groupby(df.index.to_period('T'))

Кроме того, вы можете повторно попробовать

df.resample('T')