Haskell или F # с высокой пропускной способностью двоичного ввода-вывода

Насколько хороши производительность двоичных библиотек ввода/вывода на этих двух языках > Я размышляю о повторной записи уродливого (но очень быстрого) кода на С++, который обрабатывает двоичные файлы размером около 5-10 ГБ, используя стандартные функции fread и fwrite, Какой фактор замедления следует ожидать для оптимизированной реализации в F # и Haskell?

EDIT: здесь выполняется реализация C для подсчета нулевых байтов (буфер выделен на кучу).

Ответы

Ответ 2

Haskell, использующий ленивый IO на основе ByteString, с "двоичным" парсером должен быть примерно такой же, как и код C, выполняющий одно и то же задание, в тех же типах данных.

Ключевые пакеты, о которых нужно знать:

Ответ 3

Учитывая, что это сообщение влечет за собой:

Haskell
оптимизация кода
тесты производительности

... безопасно сказать, что я нахожусь над моей головой. Тем не менее, я всегда чему-то научился, когда попадаю себе в голову, так что здесь.

Я пошел по модулю Data.ByteString.Lazy.* Haskell через Hoogle и нашел length для измерения длины ленивой байтовой строки. Он реализуется таким образом:

length :: ByteString -> Int64
length cs = foldlChunks (\n c -> n + fromIntegral (S.length c)) 0 cs

Хм. Джон сказал, что "... Складывание более фрагментов файла в F # является важной частью того, почему это быстро..." (мой акцент). И эта функция length, как представляется, реализована с использованием короткой складки. Таким образом, кажется, что эта функция намного больше похожа на "яблоки на яблоки" на код Jon F #.

Есть ли разница в практике? Я сравнил пример Джона со следующим:

import System
import Data.List
import Data.ByteString.Lazy as B

main =
    getArgs
    >>= B.readFile . Data.List.head
    >>= print . B.length

Пример Jon Haskell на моем компьютере для файла с 1,2 ГБ: 10,5 с

Версия 'chunky': 1.1s

"Короткая" версия кода Haskell быстрее десять раз. Это говорит о том, что он, вероятно, в несколько раз быстрее, чем Джон оптимизировал код F #.

ИЗМЕНИТЬ

Хотя я не совсем полностью согласен с критикой Джона на моем примере, я хотел бы сделать его максимально возможным. Таким образом, я профилировал следующий код:

import System
import Data.List
import Data.ByteString.Lazy as B

main =
    getArgs
    >>= B.readFile . Data.List.head
    >>= print . B.count 0

Этот код загружает содержимое целевого файла в ByteString, а затем "подсчитывает" каждое появление байта с 0 значениями. Если я что-то не хватает, эта программа должна загружать и оценивать каждый байт целевого файла.

Вышеупомянутая программа работает примерно в 4 раза быстрее, чем самая быстрая программа Haskell, представленная Джоном, скопированная здесь для справки (в случае ее обновления):

import System
import Data.Int
import Data.List
import Data.ByteString.Lazy as B

main =
    getArgs
    >>= B.readFile . Data.List.head
    >>= print . B.foldl (\n c -> n + 1) (0 :: Data.Int.Int64)

Haskell или F # с высокой пропускной способностью двоичного ввода-вывода

Ответы

Ответ 1

Ответ 2

Ответ 3