Ответ 1
Я согласен с вами на 100%. В случае неудачи до reset электронная матрица в начале каждого эпизода имеет именно те проблемы, которые вы описываете. Насколько я могу судить, это ошибка в псевдокоде. Ссылка, которую вы цитируете, очень популярна, поэтому ошибка распространилась на многие другие ссылки. Тем не менее, этот хорошо цитируемый документ очень четко указывает, что e-matrix следует повторно инициализировать между эпизодами:
Трассировочные трассы инициализируются до нуля, а в эпизодических задачах они повторно инициализируются до нуля после каждого эпизода.
В качестве еще одного доказательства, методы этой статьи:
След, e, устанавливается в 0 в начале каждого эпизода.
и сноска № 3 от этой статьи:
... следы соответствия были reset равными нулю в начале каждого испытания.
предполагают, что это обычная практика, так как оба относятся к повторной инициализации между эпизодами. Я ожидаю, что таких примеров гораздо больше.
На практике многие применения этого алгоритма не связаны с несколькими эпизодами или имеют такие длинные эпизоды относительно их скоростей распада, что это не является проблемой. Я ожидаю, что именно поэтому он еще не уточняется в других местах в Интернете.