Почему использование последовательности происходит намного медленнее, чем использование списка в этом примере

Фон: У меня есть последовательность смежных данных с меткой времени. В последовательности данных есть отверстия в ней, некоторые крупные, а другие - только одно пропущенное значение.
Всякий раз, когда отверстие является всего лишь одним отсутствующим значением, я хочу исправить отверстия с помощью фиктивного значения (большие отверстия будут проигнорированы).

Я хотел бы использовать ленивое поколение исправленной последовательности, и поэтому я использую Seq.unfold.

Я сделал две версии метода для исправления дыр в данных.

Первый использует последовательность данных с отверстиями в нем и создает исправленную последовательность . Это то, что я хочу, но методы работают ужасно медленно, когда количество элементов во входной последовательности растет выше 1000, и оно постепенно ухудшается, чем больше элементов содержит входная последовательность.

Второй метод использует список данных с отверстиями и создает исправленную последовательность, и она выполняется быстро. Это, однако, не то, что я хочу, поскольку это заставляет создать экземпляр всего входного списка в памяти.

Я хотел бы использовать метод (последовательность → последовательность), а не метод (список → последовательность), чтобы избежать одновременного ввода всего списка ввода в память.

1) Почему первый метод настолько медленный (постепенно ухудшается с большими входными списками) (Я подозреваю, что это связано с многократным созданием новых последовательностей с Seq.skip 1, но я не уверен)

2) Как я могу быстро выполнить исправление дыр в данных, используя входную последовательность, а не входной список?

Ответы

Ответ 1

Seq.skip создает новую последовательность. Я думаю, поэтому ваш оригинальный подход медленный.

Мой первый наклон заключается в использовании выражения последовательности и Seq.pairwise. Это быстро и легко читать.

let insertDummyValuesWhereASingleValueIsMissingSeq (timeBetweenContiguousValues : TimeSpan) (values : seq<(DateTime * float)>) =
  let sizeOfHolesToPatch = timeBetweenContiguousValues.Add timeBetweenContiguousValues // Only insert dummy-values when the gap is twice the normal
  seq {
    yield Seq.hd values
    for ((prevTime, _), ((currentTime, _) as next)) in Seq.pairwise values do
      let timeDiffBetweenPrevAndCurrentValue = currentTime.Subtract(prevTime)
      if timeDiffBetweenPrevAndCurrentValue = sizeOfHolesToPatch then
        let dummyValue = (prevTime.Add timeBetweenContiguousValues, 42.0) // 42 is chosen here for obvious reasons, making this comment superfluous
        yield dummyValue
      yield next
  }

Ответ 2

При разрыве seq с помощью Seq.hd и Seq.skip 1 вы почти наверняка попадаете в ловушку перехода O (N ^ 2). IEnumerable<T> - ужасный тип для рекурсивных алгоритмов (включая, например, Seq.unfold), поскольку эти алгоритмы почти всегда имеют структуру "первого элемента" и "остатка элементов", и нет эффективного способа создания нового IEnumerable, который представляет "остаток элементов". (IEnumerator<T> работоспособен, но его модель программирования API не так забава/легко работать.)

Если вам нужны исходные данные, чтобы "оставаться ленивыми", вам следует использовать LazyList (в F # PowerPack). Если вам не нужна лень, тогда вы должны использовать конкретный тип данных, например, "список", который вы можете "вставить" в O (1).

(Вы также должны проверить Предотвращение (с бесконечными последовательностями последовательностей F #) в качестве FYI, хотя оно только касательно применимо к этой проблеме.)