Преобразование измерений с неправильным измерением времени в равные интервалы, взвешенные по времени средние значения

У меня есть серия измерений, которые имеют временную печать и нерегулярно разнесены. Значения в этих рядах всегда представляют собой изменения измерения - т.е. Без изменения никакого нового значения. Простой пример такой серии:

То, что я хочу достичь, - это равномерно распределенная серия взвешенных по времени средних значений. Для данного примера я мог бы стремиться к частоте, основанной на секундах, и, следовательно, иметь следующий результат:

Я ищу библиотеку Python, которая решает эту проблему. Для меня это кажется стандартной проблемой, но до сих пор я не мог найти такую функциональность в стандартных библиотеках, таких как pandas.

Использование pandas

выполняет части работы. Предоставление пользовательской функции для агрегирования позволит формировать средневзвешенные средние значения, но поскольку начало интервала игнорируется, это среднее значение также будет неверным. Хуже того: дырки в серии заполняются средними значениями, ведущими в примере сверху, чтобы значения секунд 3, 4 и 5 были отличными от нуля.

делает трюк с определенной точностью, но есть - в зависимости от точности - очень дорого. В моем случае, слишком дорого.

Изменить: решение

Ответы

Ответ 1

Здесь вы найдете решение, возможно, вам понадобится настройка, чтобы соответствовать вашим требованиям.

Добавьте секунды к вашему индексу и заполните вперед:

tees = pd.Index(datetime(2000, 1, 1, 23, 0, n) for n in xrange(8))
df2 = df1.reindex(df1.index + tees)
df2['value'] = df2.value.ffill()

In [14]: df2
Out[14]:
                            value
2000-01-01 23:00:00           NaN
2000-01-01 23:00:00.100000     10
2000-01-01 23:00:01            10
2000-01-01 23:00:01.200000      8
2000-01-01 23:00:01.600000      0
2000-01-01 23:00:02             0
2000-01-01 23:00:03             0
2000-01-01 23:00:04             0
2000-01-01 23:00:05             0
2000-01-01 23:00:06             0
2000-01-01 23:00:06.300000      4
2000-01-01 23:00:07             4

Возьмите разницу во времени (используя shift) до следующего значения и умножьте (значение * секунды):

df3['difference'] = df3['index'].shift(-1) - df3['index']
df3['tot'] = df3.apply(lambda row: np.nan
                                   if row['difference'].seconds > 2  # a not very robust check for NaT
                                   else row['difference'].microseconds * row['value'] / 1000000,
                        axis=1)

In [17]: df3
Out[17]:
                        index  value      difference  tot
0         2000-01-01 23:00:00    NaN 00:00:00.100000  NaN
1  2000-01-01 23:00:00.100000     10 00:00:00.900000  9.0
2         2000-01-01 23:00:01     10 00:00:00.200000  2.0
3  2000-01-01 23:00:01.200000      8 00:00:00.400000  3.2
4  2000-01-01 23:00:01.600000      0 00:00:00.400000  0.0
5         2000-01-01 23:00:02      0        00:00:01  0.0
6         2000-01-01 23:00:03      0        00:00:01  0.0
7         2000-01-01 23:00:04      0        00:00:01  0.0
8         2000-01-01 23:00:05      0        00:00:01  0.0
9         2000-01-01 23:00:06      0 00:00:00.300000  0.0
10 2000-01-01 23:00:06.300000      4 00:00:00.700000  2.8
11        2000-01-01 23:00:07      4             NaT  NaN

Затем сделайте повторный выбор в секундах (суммируйте значение * секунды):

In [18]: df3.set_index('index')['tot'].resample('S', how='sum')
Out[18]:
index
2000-01-01 23:00:00    9.0
2000-01-01 23:00:01    5.2
2000-01-01 23:00:02    0.0
2000-01-01 23:00:03    0.0
2000-01-01 23:00:04    0.0
2000-01-01 23:00:05    0.0
2000-01-01 23:00:06    2.8
2000-01-01 23:00:07    NaN
Freq: S, dtype: float64

Примечание: конечная точка нуждается в некотором принуждении (сумма умна и игнорирует NaN)...

Ответ 2

Это не ответ, но мне нужен граф, чтобы определить, что такое взвешенное по времени усреднение. Вот график, который отображает ваши данные:

Вы хотите, чтобы среднее значение каждого вертикального диапазона? Первый диапазон равен 0-1, так как он включает неизвестные данные, результатом является NaN. Второй блок равен 1-2, значение рассчитывается по: (10 * 0,2 + 8 * 0,4 + 0 * 0,4), что совпадает с вашим. Но я не знаю, как значение 5-6 cames:

23:00:06     2.8 ( 0*0.3 + 2*0.7 )

Можете ли вы объяснить, как вычислить это значение?

Ответ 3

Вы можете сделать это с помощью traces.

from datetime import datetime
import traces

ts = traces.TimeSeries(data=[
    (datetime(2016, 9, 27, 23, 0, 0, 100000), 10),
    (datetime(2016, 9, 27, 23, 0, 1, 200000), 8),
    (datetime(2016, 9, 27, 23, 0, 1, 600000), 0),
    (datetime(2016, 9, 27, 23, 0, 6, 300000), 4),
])

regularized = ts.moving_average(
    start=datetime(2016, 9, 27, 23, 0, 1),
    sampling_period=1,
    placement='left',
)

Результат:

[(datetime(2016, 9, 27, 23, 0, 1), 5.2),
 (datetime(2016, 9, 27, 23, 0, 2), 0.0),
 (datetime(2016, 9, 27, 23, 0, 3), 0.0),
 (datetime(2016, 9, 27, 23, 0, 4), 0.0),
 (datetime(2016, 9, 27, 23, 0, 5), 0.0),
 (datetime(2016, 9, 27, 23, 0, 6), 2.8)]