Почему моя реализация Mapreduce (реальный мир haskell) с использованием iteratee IO также терпит неудачу с "Слишком много открытых файлов",

Я реализую программу haskell, которая сравнивает каждую строку файла с каждой другой линией в файле. Который может быть реализован с одиночной резьбой следующим образом

Это будет работать в O (n ^ 2) времени и должно содержать полный список целых чисел в памяти все время. В моей реальной программе строка содержит больше чисел, из которых я строю немного сложный тип данных, чем Int. Это привело к ошибкам памяти для данных, которые я должен обработать.

Таким образом, есть два улучшения в вышеупомянутом однопоточном решении. Во-первых, ускорьте фактическое время работы. Во-вторых, найдите способ не хранить весь список в памяти на полный рабочий день. Я знаю, что это требует разбора полного файла n раз. Таким образом, будет проведено сравнение O (n ^ 2) и проанализированы строки O (n ^ 2). Это нормально для меня, поскольку я предпочел бы медленную успешную программу, чем неудачная программа. Когда входной файл достаточно мал, я всегда могу найти более простую версию.

Чтобы использовать несколько ядер процессора, я взял реализацию Mapreduce из Real World Haskell (глава 24, доступная здесь).

Я изменил функцию chunking из книги, вместо того, чтобы делить полный файл на куски, вернуть столько кусков, сколько строк с каждым фрагментом, представляющим один элемент

Поскольку я хочу, чтобы программа также была масштабируемой в размере файла, я изначально использовал lazy IO. Однако это приводит к сбою "Слишком много открытых файлов" , о чем я спросил в предыдущем вопросе (файлы обрабатывались слишком поздно GC). Полная ленивая версия IO размещена там.

Как объясняет принятый ответ, строгий IO может решить проблему. Это действительно решает проблему "Слишком много открытых файлов" для файлов строк 2k, но не получается "из памяти" в файле 50k.

Обратите внимание, что первая реализация однопоточная (без mapreduce) способна обрабатывать файл 50k.

Альтернативное решение, которое мне больше всего нравится, заключается в использовании iteratee IO. Я ожидал, что это решит как дескриптор файла, так и ресурс памяти. Однако моя реализация все еще не выполняется с ошибкой "Слишком много открытых файлов" в файле строки 2k.

Итерационная версия IO имеет ту же функцию mapReduce, что и в книге, но имеет модифицированный chunkedFileEnum, позволяющий ей работать с Enumerator.

Таким образом, мой вопрос: что не так со следующей итерационной базой IO? Где Лень?.

Btw, я бегу HaskellPlatform 2011.2.0 на Mac OS X 10.6.7 (снежный барс)
со следующими пакетами:
bytestring 0.9.1.10
параллельный 3.1.0.1
перечислитель 0.4.8, с руководством здесь

Ответы

Ответ 1

Как говорится в ошибке, слишком много открытых файлов. Я ожидал, что Haskell будет запускать большую часть программы последовательно, но некоторые "искры" параллельны. Однако, как упоминалось выше, Haskell всегда искривляет оценки.

Это обычно не проблема в чистой функциональной программе, но это когда вы работаете с IO (ресурсами). Я масштабировал parallelism, как описано в книге Real World Haskell слишком далеко. Поэтому мой вывод состоит в том, чтобы сделать parallelism только в ограниченном масштабе при работе с ресурсами ввода-вывода в искрых. В чистой функциональной части может произойти чрезмерное parallelism.

Таким образом, ответ на мой пост - не использовать MapReduce для всей программы, а внутри внутренней чистой функциональной части.

Чтобы показать, где программа действительно не удалось, я настроил ее с помощью -enable-executable-profiling -p, построил ее и запустил с помощью + RTS -p -hc -L30. Поскольку исполняемый файл не работает немедленно, профиль распределения памяти отсутствует. Результирующий профиль распределения времени в файле .prof начинается со следующего:

                                                                                               individual    inherited
COST CENTRE              MODULE                                               no.    entries  %time %alloc   %time %alloc

MAIN                     MAIN                                                   1            0   0.0    0.3   100.0  100.0
  main                    Main                                                1648           2   0.0    0.0    50.0   98.9
    sumOfDistancesOnFileWithIt MapReduceTest                                  1649           1   0.0    0.0    50.0   98.9
      chunkedFileEnum       MapReduceTest                                     1650           1   0.0    0.0    50.0   98.9
        chunkedEnum          MapReduceTest                                    1651         495   0.0   24.2    50.0   98.9
          lineOffsets         MapReduceTest                                   1652           1  50.0   74.6    50.0   74.6

chunkedEnum возвращает IO ([Enumerator Text m b], [Handle]) и, по-видимому, получает 495 записей. Входной файл был файлом строки 2k, поэтому единственная запись в lineOffsets вернула список смещений 2000. В distancesUsingMapReduceIt нет ни одной записи, поэтому фактическая работа даже не началась!