Pandas: группируется по календарной неделе, затем группируется сгруппированные штрих-коды для реального времени

Я нашел довольно приятное решение и разместил его ниже в качестве ответа. Результат будет выглядеть следующим образом:

Некоторые примеры данных, которые вы можете создать для этой проблемы:

Я хотел бы группировать по календарной неделе и по значению col1. Вот так:

Затем я хочу, чтобы сюжет был сгенерирован следующим образом:

Это означает: календарь-неделя и год (дата-время) на оси х и для каждой из сгруппированных col1 одной бары.

Проблема, с которой я сталкиваюсь, такова: у меня есть целые числа, описывающие календарную неделю (KW в сюжете), но мне как-то придется смириться с датой на ней, чтобы получить отметки по годам. Кроме того, я могу не только построить сгруппированную календарную неделю, потому что мне нужен правильный порядок предметов (kw 47, kw 48 (2013 год) должны быть на левой стороне kw 1 (потому что это 2014 год)).

ИЗМЕНИТЬ

Я понял отсюда: http://pandas.pydata.org/pandas-docs/stable/visualization.html#visualization-barplot, что сгруппированные столбцы должны быть столбцами вместо строк. Поэтому я подумал о том, как преобразовать данные и нашел метод pivot, который оказывается отличной функцией. reset_index необходимо преобразовать мультииндекс в столбцы. В конце я набираю NaN на ноль:

который выглядит как пример данных в документах, которые будут отображаться в сгруппированных барах:

тогда как у меня проблема с осью, так как теперь она сортируется (от 1-52), что фактически неверно, потому что календарная неделя 52 относится к 2013 году в этом случае... Любые идеи о том, как объединить реальное время-время для календарных недель и использовать их в качестве х-осевых тиков?

Ответы

Ответ 1

Хорошо, я сам отвечаю на вопрос, когда я, наконец, понял это. Ключ состоит в том, чтобы не группировать по календарной неделе (поскольку вы потеряете информацию о году), а скорее группируете по строке, содержащей календарную неделю и год.

Затем измените макет (переформатирование), как уже упоминалось в вопросе, используя pivot. Датой будет индекс. Используйте reset_index(), чтобы сделать текущий date -index столбец и вместо этого получить целочисленный диапазон как индекс (который затем находится в правильном порядке, чтобы быть нанесенным на график (самый низкий год/календарная неделя - индекс 0 и самый высокий год/календарная неделя - наивысшее целое число).

Выберите date -column в качестве новой переменной ticks в качестве списка и удалите этот столбец из DataFrame. Теперь нарисуйте полосы и просто установите метки на xticks на ticks. Полное решение довольно просто и здесь:

codes = list('ABCDEFGH'); 
dates = pd.Series(pd.date_range('2013-11-01', '2014-01-31')); 
dates = dates.append(dates)
dates.sort()
df = pd.DataFrame({'amount': np.random.randint(1, 10, dates.size), 'col1': np.random.choice(codes, dates.size), 'col2': np.random.choice(codes, dates.size), 'date': dates})

kw = lambda x: x.isocalendar()[1]; 
kw_year = lambda x: str(x.year) + ' - ' + str(x.isocalendar()[1])
grouped = df.groupby([df['date'].map(kw_year), 'col1'], sort=False, as_index=False).agg({'amount': 'sum'})
A = grouped.pivot(index='date', columns='col1', values='amount').fillna(0).reset_index()

ticks = A.date.values.tolist()
del A['date']
ax = A.plot(kind='bar')
ax.set_xticklabels(ticks)

РЕЗУЛЬТАТ:

Ответ 2

Я думаю, что resample ('W') - лучший способ сделать это - по умолчанию он группируется по неделям, заканчивающимся в воскресенье ('W' - это то же самое, что и "W-SUN" ), но вы можете указать, что хотите.

В вашем примере попробуйте следующее:

grouped = (df
    .groupby('col1')                
    .apply(lambda g:               # work on groups of col1
        g.set_index('date')        
        [['amount']]
        .resample('W', how='sum')  # sum the amount field across weeks
    )
    .unstack(level=0)              # pivot the col1 index rows to columns
    .fillna(0)
)
grouped.columns=grouped.columns.droplevel()   # drop the 'col1' part of the multi-index column names
print grouped
grouped.plot(kind='bar')

который должен печатать вашу таблицу данных и делать сюжет, похожий на ваш, но с "настоящими" метками даты:

col1         A   B   C   D   E   F   G   H
date                                      
2013-11-03  18  0   9   0   8   0   0   4 
2013-11-10  4   11  0   1   16  2   15  2 
2013-11-17  10  14  19  8   13  6   9   8 
2013-11-24  10  13  13  0   0   13  15  10
2013-12-01  6   3   19  8   8   17  8   12
2013-12-08  5   15  5   7   12  0   11  8 
2013-12-15  8   6   11  11  0   16  6   14
2013-12-22  16  3   13  8   8   11  15  0 
2013-12-29  1   3   6   10  7   7   17  15
2014-01-05  12  7   10  11  6   0   1   12
2014-01-12  13  0   17  0   23  0   10  12
2014-01-19  10  9   2   3   8   1   18  3 
2014-01-26  24  9   8   1   19  10  0   3 
2014-02-02  1   6   16  0   0   10  8   13

Ответ 3

Добавьте неделю до 52 раз в год, так что недели заказываются "по годам". Установите метки метки, которые могут быть нетривиальными, к тому, что вы хотите.

То, что вы хотите, так это, чтобы недели так увеличились

nth week → (n+1)th week → (n+2)th week → etc.

но когда у вас новый год, он падает на 51 (52 → 1).

Чтобы компенсировать это, обратите внимание, что год увеличивается на единицу. Поэтому добавьте увеличение года, умноженное на 52, и общее изменение будет -51 + 52 = 1 по желанию.