Математическая характеристика Haskell при многократной добавке

Я пишу игру в Haskell, и мой текущий пропуск в пользовательском интерфейсе включает в себя много процедурного генерации геометрии. В настоящее время я сосредоточен на определении производительности одной конкретной операции (псевдокод C-ish):

То есть, стандартное многократное добавление четырех плавающих ботов - вид, созревший для оптимизации SIMD.

В результате мы получим буфер вершины OpenGL, поэтому в итоге он должен быть сброшен в плоский массив C. По этой же причине расчеты, вероятно, должны выполняться на типах C 'float'.

Я искал либо библиотеку, либо собственное идиоматическое решение, чтобы быстро делать это в Haskell, но каждое решение, которое я придумал, похоже, набирает около 2% производительности (то есть, в 50 раз медленнее ) по сравнению с C из GCC с правильными флагами. Конечно, я начал с Haskell пару недель назад, поэтому мой опыт ограничен, и именно поэтому я прихожу к вам, ребята. Может ли кто-нибудь из вас предложить предложения для более быстрой реализации Haskell или указатели на документацию о том, как писать высокопроизводительный код Haskell?

Во-первых, самое последнее решение Haskell (часы около 12 секунд). Я пробовал материал "bang-patterns" из этого сообщения SO, но это не повлияло на AFAICT. Замена "multAdd" на "(\ iv → v * 4)" привела к тому, что время выполнения сократилось до 1,9 секунды, поэтому побитовое вещество (и, следовательно, проблемы с автоматической оптимизацией), похоже, не слишком сильно виноваты.

Вот что я имею в C. В коде есть несколько #ifdefs, которые не позволяют скомпилировать его прямо; прокрутите вниз для тестового драйвера.

Этот script будет компилировать и запускать тесты с помощью ряда комбинаций флагов gcc. Наилучшая производительность была выполнена с помощью cmath-64-native-O3-limit-vector-nocopy в моей системе, занимая 0,22 секунды.

Ответы

Ответ 1

Роман Лещинкский отвечает:

Собственно, ядро выглядит в основном нормально меня. Использование unsafeIndex вместо (!) делает программу более чем в два раза быстро (см. мой ответ выше). ниже программа намного быстрее, хотя (и более чистых, ИМО). Я подозреваю, что оставшаяся разница между этим и программа C связана с общим GHC сосать, когда дело касается плавающей точка. HEAD создает лучшие результаты с NCG и - msse2

Сначала определите новый тип данных Vec4:

{-# LANGUAGE BangPatterns #-}

import Data.Vector.Storable
import qualified Data.Vector.Storable as V
import Foreign
import Foreign.C.Types

-- Define a 4 element vector type
data Vec4 = Vec4 {-# UNPACK #-} !CFloat
                 {-# UNPACK #-} !CFloat
                 {-# UNPACK #-} !CFloat
                 {-# UNPACK #-} !CFloat

Убедитесь, что мы можем сохранить его в массиве

instance Storable Vec4 where
  sizeOf _ = sizeOf (undefined :: CFloat) * 4
  alignment _ = alignment (undefined :: CFloat)

  {-# INLINE peek #-}
  peek p = do
             a <- peekElemOff q 0
             b <- peekElemOff q 1
             c <- peekElemOff q 2
             d <- peekElemOff q 3
             return (Vec4 a b c d)
    where
      q = castPtr p
  {-# INLINE poke #-}
  poke p (Vec4 a b c d) = do
             pokeElemOff q 0 a
             pokeElemOff q 1 b
             pokeElemOff q 2 c
             pokeElemOff q 3 d
    where
      q = castPtr p

Значения и методы этого типа:

a = Vec4 0.2 0.1 0.6 1.0
m = Vec4 0.99 0.7 0.8 0.6

add :: Vec4 -> Vec4 -> Vec4
{-# INLINE add #-}
add (Vec4 a b c d) (Vec4 a' b' c' d') = Vec4 (a+a') (b+b') (c+c') (d+d')

mult :: Vec4 -> Vec4 -> Vec4
{-# INLINE mult #-}
mult (Vec4 a b c d) (Vec4 a' b' c' d') = Vec4 (a*a') (b*b') (c*c') (d*d')

vsum :: Vec4 -> CFloat
{-# INLINE vsum #-}
vsum (Vec4 a b c d) = a+b+c+d

multList :: Int -> Vector Vec4 -> Vector Vec4
multList !count !src
    | count <= 0    = src
    | otherwise     = multList (count-1) $ V.map (\v -> add (mult v m) a) src

main = do
    print $ Data.Vector.Storable.sum
          $ Data.Vector.Storable.map vsum
          $ multList repCount
          $ Data.Vector.Storable.replicate arraySize (Vec4 0 0 0 0)

repCount, arraySize :: Int
repCount = 10000
arraySize = 20000

С ghc 6.12.1, -O2 -fasm:

1,752

С ghc HEAD (июнь 26), -O2 -fasm -msse2

1,708

Это похоже на самый идиоматический способ записи массива Vec4 и получает лучшую производительность (в 11 раз быстрее, чем ваш оригинал). (И это может стать эталоном для поддержки GHC LLVM)

Ответ 2

Хорошо, это лучше. 3.5s вместо 14s.

{-# LANGUAGE BangPatterns #-}
{-

-- multiply-add of four floats,
Vec4f multiplier, addend;
Vec4f vecList[];
for (int i = 0; i < count; i++)
    vecList[i] = vecList[i] * multiplier + addend;

-}

import qualified Data.Vector.Storable as V
import Data.Vector.Storable (Vector)
import Data.Bits

repCount, arraySize :: Int
repCount = 10000
arraySize = 20000

a, m :: Vector Float
a = V.fromList [0.2,  0.1, 0.6, 1.0]
m = V.fromList [0.99, 0.7, 0.8, 0.6]

multAdd :: Int -> Float -> Float
multAdd i v = v * (m `V.unsafeIndex` (i .&. 3)) + (a `V.unsafeIndex` (i .&. 3))

go :: Int -> Vector Float -> Vector Float
go n s
    | n <= 0    = s
    | otherwise = go (n-1) (f s)
  where
    f = V.imap multAdd

main = print . V.sum $ go repCount v
  where
    v :: Vector Float
    v = V.replicate (arraySize * 4) 0
            -- ^ a flattened Vec4f []

Что лучше, чем было:

$ ghc -O2 --make A.hs
[1 of 1] Compiling Main             ( A.hs, A.o )
Linking A ...

$ time ./A
516748.13
./A  3.58s user 0.01s system 99% cpu 3.593 total

multAdd просто компилируется:

        case readFloatOffAddr#
               rb_aVn
               (word2Int#
                  (and# (int2Word# sc1_s1Yx) __word 3))
               realWorld#
        of _ { (# s25_X1Tb, x4_X1Te #) ->
        case readFloatOffAddr#
               rb11_X118
               (word2Int#
                  (and# (int2Word# sc1_s1Yx) __word 3))
               realWorld#
        of _ { (# s26_X1WO, x5_X20B #) ->
        case writeFloatOffAddr#
               @ RealWorld
               a17_s1Oe
               sc3_s1Yz
               (plusFloat#
                  (timesFloat# x3_X1Qz x4_X1Te) x5_X20B)

Тем не менее, вы делаете 4 элемента за раз умножается на код C, поэтому нам нужно будет сделать это прямо, а не притворяться, зацикливая и маскировки. GCC, вероятно, также разворачивает цикл.

Таким образом, чтобы получить идентичную производительность, нам понадобится умножить вектор (немного сложнее, возможно, через бэкэнд LLVM) и развернуть цикл (возможно, слияние). Я отступлю от Романа здесь, чтобы увидеть, есть ли другие очевидные вещи.

Одной из идей может быть использование векторного Vec4, а не выравнивание.