Инструменты для анализа производительности программы Haskell

При решении некоторых проблем Project Euler для изучения Haskell (так что в настоящее время я полностью начинаю) я пришел Проблема 13. Я написал это (наивное) решение:

Это решение для n = 500 (sol 500) чрезвычайно медленное (работает более 2 часов), поэтому я подумал, как узнать, почему это решение так медленно. Есть ли какие-нибудь команды, которые говорят мне, где большая часть времени вычислений тратится, поэтому я знаю, какая часть моей программы haskell медленна? Что-то вроде простого профайлера.

Чтобы было ясно, я не прошу для более быстрого решения, но для пути, чтобы найти это решение. Как бы вы начали, если бы у вас не было знания haskell?

Я попытался написать две функции triaList, но не нашел способа проверить, какой из них быстрее, и вот где начинаются мои проблемы.

Ответы

Ответ 1

как узнать, почему это решение так медленно. Есть ли какие-нибудь команды, которые говорят мне, где большая часть времени вычислений тратится, поэтому я знаю, какая часть моей программы haskell медленна?

Точно! GHC предоставляет множество отличных инструментов, в том числе:

Учебник по использованию профилирования времени и пространства часть Real World Haskell.

Статистика GC

Во-первых, убедитесь, что вы компилируете с помощью ghc -O2. И вы можете убедиться, что это современный GHC (например, GHC 6.12.x)

Первое, что мы можем сделать, это проверить, что сбор мусора не является проблемой. Запустите свою программу с помощью + RTS -s

$ time ./A +RTS -s
./A +RTS -s 
749700
   9,961,432,992 bytes allocated in the heap
       2,463,072 bytes copied during GC
          29,200 bytes maximum residency (1 sample(s))
         187,336 bytes maximum slop
               **2 MB** total memory in use (0 MB lost due to fragmentation)

  Generation 0: 19002 collections,     0 parallel,  0.11s,  0.15s elapsed
  Generation 1:     1 collections,     0 parallel,  0.00s,  0.00s elapsed

  INIT  time    0.00s  (  0.00s elapsed)
  MUT   time   13.15s  ( 13.32s elapsed)
  GC    time    0.11s  (  0.15s elapsed)
  RP    time    0.00s  (  0.00s elapsed)
  PROF  time    0.00s  (  0.00s elapsed)
  EXIT  time    0.00s  (  0.00s elapsed)
  Total time   13.26s  ( 13.47s elapsed)

  %GC time       **0.8%**  (1.1% elapsed)

  Alloc rate    757,764,753 bytes per MUT second

  Productivity  99.2% of total user, 97.6% of total elapsed

./A +RTS -s  13.26s user 0.05s system 98% cpu 13.479 total

Что уже дает нам много информации: у вас есть только куча 2М, а GC занимает 0.8% времени. Поэтому не нужно беспокоиться о том, что выделение является проблемой.

Профили времени

Получение профиля времени для вашей программы прямо: скомпилируйте с помощью -prof -auto-all

 $ ghc -O2 --make A.hs -prof -auto-all
 [1 of 1] Compiling Main             ( A.hs, A.o )
 Linking A ...

И для N = 200:

$ time ./A +RTS -p                   
749700
./A +RTS -p  13.23s user 0.06s system 98% cpu 13.547 total

который создает файл A.prof, содержащий:

    Sun Jul 18 10:08 2010 Time and Allocation Profiling Report  (Final)

       A +RTS -p -RTS

    total time  =     13.18 secs   (659 ticks @ 20 ms)
    total alloc = 4,904,116,696 bytes  (excludes profiling overheads)

COST CENTRE          MODULE         %time %alloc

numDivs            Main         100.0  100.0

Указывая, что все ваше время потрачено на numDivs, и оно также является источником всех ваших распределений.

Профили кучи

Вы также можете получить разбивку этих распределений, выполнив с помощью + RTS -p -hy, который создает A.hp, который вы можете просмотреть, конвертировав его в файл postscript (hp2ps -c A.hp), генерации:

который говорит нам, что нет ничего плохого в использовании вашей памяти: он выделяется в постоянном пространстве.

Итак, ваша проблема - алгоритмическая сложность numDivs:

toInteger $ length [ x | x<-[2.. ((n `quot` 2)+1)], n `rem` x == 0] + 2

Исправьте это, что составляет 100% от вашего времени работы, и все остальное легко.

Оптимизация

Это выражение является хорошим кандидатом для оптимизации слияния потоков, поэтому я переписал его использовать Data.Vector, например:

numDivs n = fromIntegral $
    2 + (U.length $
        U.filter (\x -> fromIntegral n `rem` x == 0) $
        (U.enumFromN 2 ((fromIntegral n `div` 2) + 1) :: U.Vector Int))

Который должен сливаться в один цикл без ненужных распределений кучи. То есть, он будет иметь лучшую сложность (по постоянным факторам), чем версия списка. Вы можете использовать инструмент ghc-core (для опытных пользователей) для проверки промежуточного кода после оптимизации.

Тестирование этого, ghc -O2 -make Z.hs

$ time ./Z     
749700
./Z  3.73s user 0.01s system 99% cpu 3.753 total

Таким образом, это сократило время работы для N = 150 на 3,5x без изменения самого алгоритма.

Заключение

Ваша проблема - numDivs. Это 100% от вашего времени работы и имеет ужасную сложность. Подумайте о numDivs и о том, как, например, для каждого N вы генерируете [2.. n div 2 + 1] N раз. Попытайтесь запомнить это, поскольку значения не меняются.

Чтобы измерить, какая из ваших функций выполняется быстрее, рассмотрите возможность использования criterion, который предоставит статистически достоверную информацию о улучшениях в субмикросекундах время.

Addenda

Так как numDivs составляет 100% от вашего времени работы, касание других частей программы не будет иметь большого значения, однако для педагогических целей мы также можем переписать те, которые используют слияние потоков.

Мы также можем переписать trialList и полагаться на слияние, чтобы превратить его в цикл, который вы пишете вручную в trialList2, которая является функцией "префиксного сканирования" (aka scanl):

triaList = U.scanl (+) 0 (U.enumFrom 1 top)
    where
       top = 10^6

Аналогично для sol:

sol :: Int -> Int
sol n = U.head $ U.filter (\x -> numDivs x > n) triaList

С таким же общим временем работы, но с более чистым кодом.

Ответ 2

Ответ Dons велик, не будучи спойлером, давая прямое решение проблемы.
Здесь я хочу предложить немного инструмент, который я написал недавно. Это экономит ваше время для записи аннотаций SCC вручную, если вы хотите получить более подробный профиль, чем по умолчанию ghc -prof -auto-all. Кроме того, это красочно!

Вот пример кода, который вы дали (*), зеленый - в порядке, красный - медленный:

Все время идет о создании списка делителей. Это говорит о нескольких вещах, которые вы можете сделать:
1. Сделайте фильтрацию n rem x == 0 быстрее, но поскольку это встроенная функция, вероятно, она уже быстрая.
2. Создайте более короткий список. Вы уже сделали что-то в этом направлении, проверяя только до n quot 2.
3. Полностью отбросьте создание списка и используйте математику для получения более быстрого решения. Это обычный способ для задач Эйлера проекта.

(*) Я получил это, поставив ваш код в файл с именем eu13.hs, добавив основную функцию main = print $ sol 90. Затем запустите visual-prof -px eu13.hs eu13, и результат будет в eu13.hs.html.

Ответ 3

Замечание, связанное с Haskell: triaList2, конечно, быстрее, чем triaList, потому что последнее выполняет множество ненужных вычислений. Для вычисления n первых элементов triaList потребуется квадратичное время, но линейно для triaList2. Существует еще один элегантный (и эффективный) способ определения бесконечного ленивого списка чисел треугольника:

triaList = 1 : zipWith (+) triaList [2..]

Примечание, связанное с математикой: нет необходимости проверять все делители до n/2, достаточно проверить до sqrt (n).

Ответ 4

Вы можете запустить свою программу с помощью флагов, чтобы включить профилирование времени. Что-то вроде этого:

./program +RTS -P -sprogram.stats -RTS

Это должно запустить программу и создать файл под названием program.stats, который будет иметь, сколько времени было потрачено на каждую функцию. Дополнительную информацию о профилировании с помощью GHC можно найти в руководстве пользователя . Для бенчмаркинга существует библиотека Criterion. Я нашел этот пост в блоге имеет полезное введение.