Сбой памяти при переносе [(K, [V])] в [(V, [K])]

У меня есть файл размером 279 МБ, содержащий ~ 10 миллионов пар ключ/значение, с ~ 500 000 уникальными ключами. Он сгруппирован по ключу (каждая клавиша должна быть записана только один раз), поэтому все значения для данного ключа будут вместе.

Что я хочу сделать, это транспонировать ассоциацию, создать файл, в котором пары сгруппированы по значению, а все ключи для заданного значения сохраняются вместе.

В настоящее время я использую Parsec для чтения в парах в виде списка кортежей (K,[V]) (используя ленивый IO, поэтому я могу обрабатывать его как поток, в то время как Parsec обрабатывает входной файл), где:

Я попытался вставить кортежи в Data.HashMap.Map V [K], чтобы транспонировать ассоциацию:

Я мог бы подумать о нескольких вещах, которые я делаю неправильно:

Сейчас я склоняюсь к (1), но я не уверен ни в коем случае.

Ответы

Ответ 1

Возможно ли, что данные будут увеличиваться? Если да, то я предлагаю не читать файл while в памяти и обрабатывать данные по-другому.

Одна простая возможность - использовать для этого реляционную базу данных. Это довольно просто - просто загрузите свои данные, создайте правильный индекс и отсортируйте его по мере необходимости. База данных сделает всю работу за вас. Я определенно рекомендую это.

Другой вариант - создать собственный файловый механизм. Например:

Выберите некоторый предел l, который разумно загрузить в память.
Создайте n = d `div` l файлы, где d - общая сумма ваших данных. (Надеюсь, это не будет превышать лимит дескриптора файла. Вы также можете закрыть и снова открыть файлы после каждой операции, но это сделает процесс очень медленным.)
Обработать вход последовательно и поместить каждую пару (k,v) в номер файла hash v `mod` l. Это гарантирует, что пары с одинаковым значением v попадут в один и тот же файл.
Обработать каждый файл отдельно.
Объедините их вместе.

Это по существу хэш-таблица с файловыми ковшиками. Это решение предполагает, что каждое значение имеет примерно одинаковое количество ключей (в противном случае некоторые файлы могут быть исключительно большими).

Вы также можете реализовать внешний вид который позволит вам сортировать в основном любой объем данных.

Ответ 2

Чтобы разрешить файлы, размер которых превышает доступную память, рекомендуется обрабатывать их в кусках размером с укусом за раз.

Вот твердый алгоритм для копирования файла A в новый файл B:

Создайте файл B и заблокируйте его на своем компьютере.
Начало цикла
- Если в файле A нет следующей строки, то завершите цикл
- Читайте в следующей строке файла A
- Применить обработку к строке
- Убедитесь, что файл B содержит строку уже
- Если файл B не содержит строку уже, добавьте строку в файл B
- Перейти к началу цикла
Разблокировать файл B

Также полезно сделать копию файла A во временную папку и заблокировать ее во время работы с ней, чтобы другим людям в сети не мешали изменять оригинал, но у вас есть моментальный снимок файла как это было в момент начала процедуры.

Я намерен пересмотреть этот ответ в будущем и добавить код.