Построение временных рядов данных с использованием морского

Скажем, я создаю полностью случайный Dataframe, используя следующее:

что приводит к тому, что в нижней части этого сообщения отображается информационный кадр. Я хотел бы построить мои столбцы A, B, C и D, используя функции визуализации timeseries в seaborn, чтобы я получил что-то в этих строках:

Как я могу подойти к этой проблеме? Из того, что я читал на этом ноутбуке, вызов должен быть:

но это, по-видимому, требует, чтобы кадр данных представлялся по-другому, причем столбцы каким-то образом кодировали time, unit, condition и value, что не является моим делом. Как я могу преобразовать свой фрейм данных (показано ниже) в этот формат?

В конце концов, то, что я ищу, - это наложение графиков (по одному на столбец), где каждый из них выглядит следующим образом (обратите внимание, что разные значения CI получают разные значения альфа):

Ответы

Ответ 1

Я не думаю, что tsplot будет работать с данными, которые у вас есть. Предположения, которые он делает о входных данных, это то, что вы выбрали одни и те же единицы в каждой временной точке (хотя у вас могут отсутствовать временные точки для некоторых единиц).

Например, скажите, что вы измеряли кровяное давление у тех же людей каждый день в течение месяца, а затем вы хотели построить среднее кровяное давление по условию (где, возможно, переменная "состояние" - это диета, на которой они находятся). tsplot мог бы сделать это, с вызовом, который будет выглядеть примерно как sns.tsplot(df, time="day", unit="person", condition="diet", value="blood_pressure")

Этот сценарий отличается от того, что большие группы людей на разных диетах и каждый день случайным образом отбирают некоторые из каждой группы и измеряют их кровяное давление. В примере, который вы указали, кажется, что ваши данные структурированы как это.

Однако, не так сложно придумать сочетание matplotlib и pandas, которые будут делать то, что я думаю, что вы хотите:

# Read in the data from the stackoverflow question
df = pd.read_clipboard().iloc[1:]

# Convert it to "long-form" or "tidy" representation
df = pd.melt(df, id_vars=["date"], var_name="condition")

# Plot the average value by condition and date
ax = df.groupby(["condition", "date"]).mean().unstack("condition").plot()

# Get a reference to the x-points corresponding to the dates and the the colors
x = np.arange(len(df.date.unique()))
palette = sns.color_palette()

# Calculate the 25th and 75th percentiles of the data
# and plot a translucent band between them
for cond, cond_df in df.groupby("condition"):
    low = cond_df.groupby("date").value.apply(np.percentile, 25)
    high = cond_df.groupby("date").value.apply(np.percentile, 75)
    ax.fill_between(x, low, high, alpha=.2, color=palette.pop(0))

Этот код создает: