Как улучшить push-конвейер данных в С# для соответствия F # в производительности

Рекуперация проекта для домашних животных для меня заключается в реализации push-based конвейеров данных в F #. Push-конвейеры проще и быстрее, чем тянуть трубопроводы, такие как LINQ (хотя они не имеют всех возможностей тянущих трубопроводов).

Что-то, что надвигало меня на некоторое время, заключается в том, что я, похоже, не реализую push-конвейер на С#, который эффективен, как мои push-конвейеры в F #. Я ищу информацию о том, как приблизить реализацию С# к F #.

Простой push-конвейер в F # может быть представлен следующим образом:

Идея здесь заключается в том, что Stream<> - это функция, которая задавала приемник значений, вызывающий приемник со всеми значениями в потоке.

Это позволяет нам определить map akaSelect ', как это в F #:

Мы можем реализовать другие функции, пока мы не сможем определить конвейер данных, который проверяет накладные расходы.

В этом конвейере каждая операция очень дешевая, поэтому любые накладные расходы из базовой реализации должны появляться, когда мы ее измеряем.

При сравнении 4 различных конвейеров данных, императивных (на самом деле не конвейер, но там для проверки работоспособности), trivialpush, trivialpush (С#) и linq - это числа на.NET 4.7.1/x64:

Императивное решение быстрее, и LINQ начинает тянуть канал данных, который является самым медленным. Это ожидается.

То, что не ожидалось, заключается в том, что, кажется, F # push-конвейер имеет на 3 раза меньше накладных расходов, чем конвейер С#, несмотря на очень похожую реализацию и используется аналогичным образом.

Как изменить конвейер данных С# так, чтобы он соответствовал или заменял конвейер данных F #? Я хочу, чтобы API конвейера данных был примерно таким же.

@scrwtp спросил, что произойдет, если я удалю inline в F #. Теперь я добавил inline для того, чтобы получить sum работы по назначению (в F # inline разрешено использование более продвинутых генериков)

Это значительно замедляет версию F #, но по-прежнему на 50% лучше, чем моя библиотека потока С#.

Интересно видеть, что inline оказывает такое глубокое влияние на производительность, когда единственное, что является встроенным, - это создание конвейера обратного вызова. Когда-то созданный конвейер обратного вызова должен выглядеть точно так же.

Я решил подробно изучить, в чем разница между конвейером данных F # и С#.

Вот как код jitted для Filter(fun v → v &&& 1L = 0L) ищет F #:

Единственная настоящая большая жалоба на этот код заключается в том, что джиттер не смог встроить хвостовой вызов, и мы закончили виртуальный хвостовой вызов.

Давайте посмотрим на тот же конвейер данных в С#

Сравнивая конвейер данных F #, легко видеть, что вышеописанный код дороже:

В 64-битном режиме кажется, что основные преимущества производительности

Мы видим, что шаги конвейеров данных F # не вложены, это построение кода конвейера данных, который является встроенным. Однако, похоже, это дает некоторые преимущества в плане производительности. Возможно, потому что информация легче доступна для джиттера?

Чтобы улучшить производительность конвейера С#, мне кажется, что мне нужно структурировать код С#, чтобы джиттер девиртуализировал и ввел вызовы. У дрожания есть эти возможности, но почему они не применяются?

Я могу структурировать свой код F # так, чтобы хвостовые звонки могли быть девиртуализированы вложенными?

Ответы

Ответ 1

Компилятор F # иногда выполняет встроенные функции без явных инструкций для этого. Вы можете аннотировать функции с помощью [<MethodImpl(MethodImplOptions.NoInlining)>] чтобы предотвратить это.

Обновление вашего TrivialStream следующим образом:

open System.Runtime.CompilerServices

[<MethodImpl(MethodImplOptions.NoInlining)>]
let range b s e : Stream<int> =
  fun r -> Loop.range s e r b

[<MethodImpl(MethodImplOptions.NoInlining)>]
let filter (f : 'T -> bool) (s : Stream<'T>) : Stream<'T> =
  fun r -> s (fun v -> if f v then r v)

[<MethodImpl(MethodImplOptions.NoInlining)>]
let map (m : 'T -> 'U) (s : Stream<'T>) : Stream<'U> =
  fun r -> s (fun v -> r (m v))

[<MethodImpl(MethodImplOptions.NoInlining)>]
let sum (s : Stream<'T>) : 'T =
  let mutable ss = LanguagePrimitives.GenericZero
  s (fun v -> ss <- ss + v)
  ss

а затем обновить сам тест следующим образом:

open System.Runtime.CompilerServices

[<MethodImpl(MethodImplOptions.NoInlining)>]
let parseToInt64 = int64

[<MethodImpl(MethodImplOptions.NoInlining)>]
let filterImpl = fun v -> v &&& 1L = 0L

[<MethodImpl(MethodImplOptions.NoInlining)>]
let mapImpl = ((+) 1L)

let trivialTest n =

  TrivialStream.range       0 1 n
  |> TrivialStream.map      parseToInt64
  |> TrivialStream.filter   filterImpl
  |> TrivialStream.map      mapImpl
  |> TrivialStream.sum

При запуске в виде 32-разрядного приложения это приводит к запуску F #, который на самом деле медленнее, чем версия С#. Существует еще некоторое странное поведение с хвостовыми вызовами для 32-битной версии.

Для 64-битной версии эти изменения приводят версии F # и С# в пределах 15% друг от друга.

Если вы замените Receiver F # и Stream для делегатов С# (или просто Action<'t> и Action<Action<'t>>), то производительность этих двух примерно эквивалентна, поэтому я подозреваю, что есть дополнительные оптимизации, используя FSharpFunc которые играют.

  open TrivialStreams
  // A very simple push stream
  //type Receiver<'T> = 'T            -> unit
  //type Stream<'T>   = Receiver<'T>  -> unit

  module Details =
    module Loop =
      let rec range s e (r:Receiver<'t> ) i = if i <= e then r.Invoke i; range s e r (i + s)

  open Details
  open System.Runtime.CompilerServices

  [<MethodImpl(MethodImplOptions.NoInlining)>]
  let range b s e =
    Stream<'t>(fun r -> (Loop.range s e r b))

  [<MethodImpl(MethodImplOptions.NoInlining)>]
  let filter f (s : Stream<'T>) =
    Stream<'T>(fun r -> s.Invoke (fun v -> if f v then r.Invoke v))

  [<MethodImpl(MethodImplOptions.NoInlining)>]
  let map m (s : Stream<'T>) =
    Stream<'U>(fun r -> s.Invoke (fun v -> r.Invoke (m v)))

  [<MethodImpl(MethodImplOptions.NoInlining)>]
  let sum (s : Stream<'T>) : 'T =
    let mutable ss = LanguagePrimitives.GenericZero
    s.Invoke (fun v -> ss <- ss + v)
    ss

Вы можете применить небольшую часть оптимизаций компилятора F # к С#, аннотируя свои методы с помощью [MethodImpl(MethodImplOptions.AggressiveInlining)], но это лишь незначительное улучшение.