Выполнение последовательностей с помощью while и for-do, по сравнению с прямой реализацией `IEnumerable <T>`

(извините за длинный пост, чтобы перейти непосредственно к вопросу (-ам), см. внизу)
(ОБНОВЛЕНИЕ: если вы пересматриваете, см. Разделы с надписью "update";)

Я решил лучше понять, что происходило под капотом с последовательностями F #. Задача, которую мне нужно было оптимизировать, включала преобразование строк в последовательность кодов Unicode, и мне было интересно, могу ли я заменить изменяемый цикл, который мы использовали, в неизменяемый, не жертвуя слишком высокой производительностью.

Одна из проблем заключается в том, что возвращаемая последовательность не имеет такой же длины, как и входная последовательность, из-за суррогатных пар, которые вместе возвращают одно целое число. Это был оригинальный код, похожий на:

Попытка 1: for-do

Я понял, что проще всего было превратить его в цикл for-do (не для цикла in-do-do, у них слишком много дополнительных накладных расходов):

Это выполнялось в 3,2 раза медленнее, чем измененный аналог выше. Более высокий фактор, чем я себе представлял.

Попытка 2: Seq.mapi

Так как строка уже является последовательностью (ок, там IEnumerable<char> обертка), я думал использовать ее с существующими функциями последовательности из модуля Seq, надеясь, что это может повысить производительность:

Странно, если я заменил value на value.AsEnumerable(), он выполняет значительно быстрее, чем stocp1: коэффициент 3.0.

После нескольких тестов мне стало ясно, что каждый |> создает новый слой IEnumerable<T> со всеми задействованными операциями цепочки (это также можно наблюдать в исходном коде FSharp Seq). Но размер накладных расходов удивил меня. Поскольку ни одно из вышеперечисленных действий не давало даже отдаленной производительности оригинала, я решил попытаться предотвратить лишние накладные расходы для ввода и создать функцию Seq.mapiAndFilter для выполнения обоих действий сразу.

Попытка 3: Seq.mapiAndFilter

Так как это такой тонкий цикл, и мне нужно только фильтровать текущий символ и возвращать его на основе текущей позиции, возможно, я смогу удалить дополнительный шаг, связанный с Seq.mapi, который кажется дорогим.

Для этого мне нужно было подражать поведению существующих функций Seq.xxx, и моя первая попытка заключалась в том, чтобы сделать это с циклом while-yield. Это будет ближе всего к исходному изменяемому подходу, но добавляет один слой служебных данных IEnumerable<T>.

Я написал следующую функцию, которая принимает функцию, которая возвращает логическое значение, и если true, она применяет вторую функцию в позиции текущего элемента.

Результат был намного лучше, чем предыдущие попытки, и он в 1,5 раза превышал производительность изменчивого решения. Тем не менее, все еще неутешительно медленно, однако, казалось, подразумевается, что добавленные накладные расходы с счетчиками составляют около 50% в жестких циклах.

Попытка 4: улучшена Seq.mapiAndFilter

Чтобы узнать, что происходит под капотом, я решил явно написать перечислимый тип, который должен дать мне возможность выяснить, что какие-либо шаблонные проверки, добавленные в библиотеках FSharp, имели какое-то отношение к низкой производительности характеристики.

Без охранников функции FSharp Seq используются внутри (чтобы поднять ошибку при незаконном использовании Current и т.д.), я придумал следующее:

Это стало нашим нынешним победителем! Казалось, что часы в 1,1 раза медленнее, чем исходная изменяемая функция. Конечно, он использует изменчивое состояние, но все же все функции Seq.xxx все равно.

Обзор сравнения производительности

Общее примечание о всех вышеперечисленных попытках: я также тестировал с помощью ToCharArray(), что улучшает производительность при входе от малого до среднего, но становится вредным для больших входных строк, особенно. когда не все элементы должны быть перечислены. Многие другие подходы я не учитывал, потому что их производительность была намного хуже (Seq.choose over Seq.filter намного медленнее, Seq.collect, очень медленно и т.д.).

Я использовал для сравнения производительности (по-видимому, Seq.length - самый быстрый способ принудительного итерации, Seq.last и Seq.iter намного медленнее):

stocp' - это версия, которая использует AsEnumerable() в строке до передачи ее в функции Seq.xxx. Все остальные функции уже используют это.

Я также тестировал с более длинными и с очень большими (50 МБ) строками, что является нашим типичным прецедентом, и хотя тайминги на последующих прогонах менее устойчивы, эффективные факторы примерно такие же, как указано выше.

Update:Я добавил ответ latkin как stocp5, но ему пришлось настроить, добавив к нему Array.toSeq. Без него он работает на 0.234, который быстрее, чем исходный while-loop. К сожалению, мне нужна последовательность (мы должны использовать ленивую загрузку и не можем хранить целые строки в памяти).

(обновление) Сравнение производительности, включая доступ к элементу

В приведенном выше сравнении проверяется только итерация, которая помогает находить проблемы, вызванные сложными итераторами. Тем не менее, тайминги немного отличаются, если вы добавляете элемент доступа к уравнению. Я выполнил его с помощью добавленного Seq.map id:

(Обновление) Сравнение производительности, включая ограниченный доступ к элементу

Поскольку наши типичные прецеденты не требуют полной итерации, я добавил тест, который повторяется только до второй пары суррогатов в позиции 6 с более крупным размером (3932160 символов).

OutOfMemoryException с латынским ответом меня немного удивил, это означает, что созданные массивы не были очищены при использовании в замкнутом цикле, как указано выше. Моя машина выделила 8 ГБ несколько раз за несколько секунд, и капель (GC'ed?) Между ними, но в итоге все еще не удается. Странно:

Другие характеристики производительности, как можно ожидать, основываются на более ранних наблюдениях.

Заключение, вопросы

С последним упражнением, описанным выше, я узнал, чего я не ожидал: компилятор F # только вызывает не-общий IEnumerator.Current и никогда не вызывает IEnumerator<T>.Current. Это может частично объяснить, почему ухудшение производительности с помощью цепочечных фильтров настолько заметно, когда объект, на котором вы его выполняете, является типом значения: бокс помещает его в кучу и обратно, что ужасно.

У меня есть еще много вопросов, но SO-формат обычно хочет, чтобы вы задали простой вопрос, который я, очевидно, не сделал. Извините, что был настолько сложным, я надеюсь, что я не стану слишком много людей, чтобы прийти с некоторыми проницательными наблюдениями.

UPDATE:, как указано в комментариях, кажется, что бокс появляется только при запуске из FSharp Interactive (FSI). Если вы возьмете stocp4 и измените код вызова, добавив избыточное Seq.filter ((<>) 0) (или что-то подобное), он вместо этого вызовет unboxed accessor. Зачем? Не знаю.

Ответы

Ответ 1

Хорошо, я сделаю снимок. Все результаты кода и тестов можно найти здесь.

Lazy v Eager Секвенции медленные. Понимание медленное. Они представляют собой удобную абстракцию, которая включает в себя множество генерируемых компилятором решений и распределений, и их вообще следует избегать вообще, если первичность важна. Все рассматриваемые иммы легко поддаются простому нелакому решению.

// ~50% faster for given test case
// still ~20% faster even for length 1.5M string
let eager1 (value: string) =
    let result = ResizeArray(value.Length)
    for i in 0 .. value.Length - 1 do
        if not (Char.IsLowSurrogate(value.[i]))
        then result.Add(Char.ConvertToUtf32(value, i))
    result.ToArray()

Generic v Non. В тестовой функции вызывается общий код.

Добавьте оператор регистрации для обоих .Current impls и передайте свою выходную последовательность на |> Seq.iter (printfn "%d"), и вы увидите ее генерируемую.

Вы тестировали в FSI? По какой-то причине FSI "печатает несколько элементов этой последовательности на консоль", код завершается в не-общий путь, но это не влияет на исполняемый код. Может быть, это то, что вы видели?

Циклы в seq {} Петли внутри seq { }, а другие выражения вычислений не являются регулярными циклами. (на самом деле почти ничего "нормального" взгляда внутри вычисляющих выражений на самом деле нормально, что является видом точки:)) Как указано в выражении вычисления docs, цикл for заканчивается кодированием как итерация по другому перечислимому. Циклы while немного проще.

Это более или менее объясняет, почему ваша "попытка 1" намного медленнее - цикл for приводит к распределению и повторению еще одного seq внутри вашего seq.

Трубопровод через API-интерфейсы Seq. Да, на каждом шаге это создаст новые сегменты. Если "реальная работа" задействована очень маленькая, как в этом примере, тогда накладные расходы начинают доминировать.

Быстрее. Ваши последующие оптимизации удаляют слои абстракции, и поэтому, хотя у меня нет точных объяснений, кажется разумным, что они немного ускоряются.

.AsEnumerable() Это довольно странно, я могу воспроизвести значительное ускорение, которое вы видите. Очень странно, учитывая, что метод расширения AsEnumerable ничего не делает, но возвращает свой вход напрямую!

Структура сгенерированного кода в этом случае очень различна. Возможно, это как-то патологический случай в оптимизаторе. Интересная находка.

Вариации. Я обнаружил, что результаты значительно меняются при включении/отключении оптимизаций и при выборе x64 vs x86. Возьмите это за то, что это стоит.

Обновить после изменения контрольных показателей и требований OP

Array.toSeq Здесь нет необходимости использовать Array.toSeq и предсказуемо перетащить производительность моего предлагаемого решения. Array.toSeq и Seq.ofArray больше для безопасности (убедитесь, что полученный seq не может быть преобразован обратно в массив потребителем и мутирован), чем преобразование типа.

Лучший выбор:

Просто верните массив seq<_> при его возврате
Обновите свои другие API, чтобы принять гибкий тип #seq<'t>, тогда даже простой массив в порядке

Обновленные требования С учетом вновь выявленных ограничений:

Обработка строк настолько велика, что даже 1 или 2 копии вызовут OOM
Частая ранняя выручка при обработке

тогда ясно, что ленивый подход будет более уместным, по крайней мере в некоторых случаях.

Тем не менее, даже с учетом этих требований, при тестировании с вашими новыми критериями, не-ленивые решения по-прежнему очень хорошо работают во всех случаях, кроме OOM или огромного ввода с ранней выдачей.

См. мой gist, приведенный выше для получения результатов. Он включает в себя альтернативные нелазные реализации:

let eager2 (value: string) =
    let result = ResizeArray(value.Length)
    for i in 0 .. value.Length - 1 do
        if not (Char.IsLowSurrogate(value.[i]))
        then result.Add(Char.ConvertToUtf32(value, i))
    // cast result so that return type isn't array
    (result.ToArray()) :> seq<_>

let eager3 (value: string) =
    let result = ResizeArray(value.Length)
    for i in 0 .. value.Length - 1 do
        if not (Char.IsLowSurrogate(value.[i]))
        then result.Add(Char.ConvertToUtf32(value, i))
    // ToArray() causes another copy to be generated.
    // Avoiding that is a win in large-input scenarios, but at a cost
    // of otherwise slower processing
    (result) :> seq<_>

Улучшение ленивого решения

Вот дальнейшая оптимизация ленивого подхода, прямое интегрирование всей логики, исключение использования перечислителя строк и исключение рекурсии.

В большинстве случаев этот парень, по-видимому, избивает не-ленивые решения!

let lazy5 (value : string) =         
    let inline getEnum() = 
        let i = ref -1
        { new IEnumerator<int> with
              member __.Current = Char.ConvertToUtf32(value, !i)
          interface System.Collections.IEnumerator with
              member __.Current =  box (Char.ConvertToUtf32(value, !i))
              member __.MoveNext() = 
                      incr i
                      if !i >= value.Length then false else
                      if not (Char.IsLowSurrogate(value.[!i])) then true else
                      incr i
                      !i < value.Length                  
              member __.Reset() = failwith "reset"
          interface IDisposable with
              member __.Dispose() = () }
    { new IEnumerable<int> with
          member __.GetEnumerator() = getEnum()
      interface IEnumerable with
          member __.GetEnumerator() = getEnum() :> IEnumerator }

Резюме

Первое решение seq с открытым исходным кодом отлично смотрится и выполняет хорошо заданные ограничения. Я попытался дать некоторый контекст, почему предлагаемые альтернативы могут быть медленнее, надеюсь, это полезно. Мне удалось выжать немного больше перфоманса, объединив все в эксликт IEnumerable.

В зависимости от ограничений и ввода, решение, отличное от лени, может быть хорошим выбором. Я предложил несколько вариантов здесь. Как всегда, вам нужно будет протестировать в своей реальной среде.

Выполнение последовательностей с помощью while и for-do, по сравнению с прямой реализацией `IEnumerable <T>`

Попытка 1: `for-do`

Попытка 2: `Seq.mapi`

Попытка 3: `Seq.mapiAndFilter`

Попытка 4: улучшена `Seq.mapiAndFilter`

Обзор сравнения производительности

(обновление) Сравнение производительности, включая доступ к элементу

(Обновление) Сравнение производительности, включая ограниченный доступ к элементу

Заключение, вопросы

Ответы

Ответ 1

Выполнение последовательностей с помощью while и for-do, по сравнению с прямой реализацией `IEnumerable <T>`

Попытка 1: for-do

Попытка 2: Seq.mapi

Попытка 3: Seq.mapiAndFilter

Попытка 4: улучшена Seq.mapiAndFilter

Обзор сравнения производительности

(обновление) Сравнение производительности, включая доступ к элементу

(Обновление) Сравнение производительности, включая ограниченный доступ к элементу

Заключение, вопросы

Ответы

Ответ 1

Попытка 1: `for-do`

Попытка 2: `Seq.mapi`

Попытка 3: `Seq.mapiAndFilter`

Попытка 4: улучшена `Seq.mapiAndFilter`