Есть ли способ быстрее сделать программу подсчета слов без использования нечистых трюков?

Как небольшое упражнение, я сделал следующую программу подсчета слов в haskell. Он подсчитывает различные слова в текстовом файле и выводит 50 наиболее часто встречающихся вместе с их частотами.

Проблема в том, что он в 16 раз медленнее, чем моя реализация python с изменяемым dict:

Я думаю, что проблема связана с тем, что ghc является, по сути, реализацией новых карт, когда он может повторно использовать одно и то же снова и снова. Статистика времени выполнения показывает много распределений:

Мой вопрос: есть ли способ сделать эту программу более эффективной, не прибегая к грязным трюкам, таким как работа в монаде IO, использование изменяемых структур данных и т.д.?

Ответы

Ответ 1

Вот несколько быстрых и простых оптимизаций, которые я пробовал.

Оригинальная версия на моей машине:

real    0m1.539s
user    0m1.452s
sys 0m0.076s

Вместо использования insert и foldl' вы можете использовать fromListWith для подсчета слова.
```
count = Map.toList . Map.fromListWith (+) . flip zip (repeat 1)
```
Это более чем вдвое быстрее.
```
real    0m0.687s
user    0m0.648s
sys 0m0.032s
```
Тип String - это связанный список символов, который позволяет манипулировать струны довольно изящные, но неэффективные. Мы можем использовать тип Text, чтобы получить больше эффективная обработка строк. Я также переписал вашу функцию pp для использования unlines вместо foldl' и используйте words вместо splitOn для исходного раскола.
```
{-# LANGUAGE OverloadedStrings #-}

import Data.Monoid
import Data.Text (Text)
import qualified Data.Text as T
import qualified Data.Text.IO as T

pp :: Show a => [(Text,a)] -> IO()
pp = T.putStrLn . T.unlines . map format where
    format (x,y) = x <> "\t" <> (T.pack $ show y)

main = T.readFile  "pg13951.txt" >>= pp . take 50 .countAndSort . T.words
```
Опять же, в два раза быстрее, чем предыдущий шаг.
```
real    0m0.330s
user    0m0.316s
sys 0m0.008s
```
Используйте строгую версию Map
```
import qualified Data.Map.Strict as Map
```
Увеличение скорости на 20%
```
real    0m0.265s
user    0m0.252s
sys 0m0.008s
```