Как применять параллелизм данных для быстрой преобразования Фурье haskell?

У меня есть код haskell для разрешения быстрого преобразования Фурье, и я хочу применить данные parallelism к нему. Тем не менее, каждая стратегия, которую я использую, генерирует слишком много искр, и большинство из них переполняются.

Кто-нибудь имеет представление о том, как применить хорошую стратегию данных parallelism по следующему алгоритму:

Ответ от leftaroundabout очень помог мне понять, как применять данные parallelism в коде. Тем не менее, я изучил парную монаду и попытался применить к ней задачу parallelism. Проблема в том, что он работает медленнее, чем исходный bflyS. Я думаю, что код, который я разработал, является способом дорогостоящего создания потоков по сравнению с относительной работой, которую я делаю. Кто-нибудь знает, как лучше использовать парную монаду?

Ответы

Ответ 1

Во-первых: там будет много оптимизации, прежде чем я начну думать о parallelism:

Перечисляет рок, но их непоследовательная модель памяти означает, что они просто не могут допускать обход почти так же быстро, как то, что вы можете достичь с помощью жестких массивов, таких как Data.Vector, потому что вы неизбежно оказываетесь в большом количестве промахи кэша. На самом деле, я редко видел, что алгоритм на основе списков сильно выигрывает от параллелизации, потому что они связаны памятью, а не с производительностью процессора.
Ваши переменные факторы вычисляются снова и снова, вы, очевидно, можете многое получить через воспоминания здесь.
Вы продолжаете называть length, но это очень расточительная функция (O (n) для чего-то, что может быть O (1)). Используйте некоторый контейнер, который, вероятно, обрабатывает длину; списки не предназначены (мы любим держать их способности бесконечными).

Сама параллелизация будет довольно простой; Я бы проверял длину, предложенную Джоном Л, действительно, я бы предпочел потребовать довольно большой размер перед тем, как исправить поток, по крайней мере, что-то вроде 256: поскольку производительность, вероятно, становится решающей только при размерах в несколько тысяч, это должно подойти будет достаточно потоков, чтобы ваши ядра были заняты.

import Data.Vector.Unboxed as UBV
import Control.Parallel.Strategies

type ℂ = Complex Float

fft' :: UBV.Vector ℂ -> UBV.Vector ℂ
fft' aₓs = interleave lᵥs rᵥs
 where (lᵥs, rᵥs) = (fft lₓs, fft rₓs)
                     `using` if UBV.length aₓs > 256 then parTuple2 else r0
       (lₓs, rₓs) = byflyS aₓs