Как уменьшить накладные расходы на рассылку Haskell?

Я пытаюсь понять производительность рассылки Haskell.

У меня длинный список (длинa > 1000), который я оцениваю параллельно, используя параллельный parMap.

Вот полный вывод статистики с использованием +RTS -s для одного потока (EDIT: полная статистика):

Если я запускаю два потока, используя +RTS -N2, я получаю:

Таким образом, согласно прошедшему времени (последнее число в каждом выходе), с двумя ядрами программа занимает ~ 66% однопоточной версии, а с четырьмя ядрами она занимает 54% времени. Это ускорение не так уж плохо, но намного хуже, чем теоретически ожидаемое линейное улучшение с количеством ядер, что приведет к 25% времени выполнения с четырьмя ядрами.

Теперь, смотря на приведенные выше статистические выходы, я вижу, что фактическое рабочее время процессора для программы (строки, начинающиеся с MUT) значительно увеличивается с использованием большего количества ядер. С 1, 2 и 4 ядрами я получаю процессорное время 19.76s, 25.31s и 37.26s, и это увеличение - это то, что, как я полагаю, - потребление моей производительности параллелизации.

Типичные причины для таких издержек времени выполнения процессора с несколькими ядрами, которые мне приходят в голову:

Каковы другие причины столь сильных накладных расходов и как их смягчить?

Ответы

Ответ 1

Я вижу, что люди голосуют, чтобы закрыть вопрос, потому что данных недостаточно, но я считаю, что ответ можно найти, используя уже предоставленную информацию (хотя более подробная информация всегда приветствуется.)

Мой нос говорит мне, что вы ограничены пропускной способностью памяти. Я постараюсь описать, почему я так думаю, но я не эксперт по аппаратным средствам, поэтому я мог быть частично или полностью ошибаюсь. В конце концов, он основан на моем личном наборе мифов об архитектуре оборудования.

Предположим, что предел находится где-то между 50-100Gb в секунду (я не уверен, что это правильный номер, пожалуйста, исправьте меня, если у вас есть лучший.)

Вы выделяете 54 ГБ за 10 секунд (случай -N4), поэтому вы имеете пропускную способность 5 Гбит/с. Он довольно высокий, но обычно это не проблема сама по себе.

Большинство распределений обычно являются короткими, и они являются GC'd, когда область выделения gen0 (питомник) заполнена. По умолчанию размер детской составляет 512 Кбайт, поэтому все распределения происходят в кеше L2. Таким образом, короткие живые данные никогда не войдут в основную память, поэтому почти свободны.

Но вы увеличили размер питомника до 100 Мб. Он не будет соответствовать кэшу L2 и будет перенесен в основную память. Это уже плохой знак.

Ну, 5Gb/sec далек от предела. Но есть причина, по которой вы увеличили размер детского сада - ваши данные недолговечны. Он будет использоваться где-то еще после некоторого запаздывания. Это означает, что этот 54Gb будет загружен из основной памяти обратно в кеши рано или поздно. Таким образом, вы, по крайней мере, имеете пропускную способность 10 Гбит/с.

Это еще далеко, но обратите внимание, что это лучший сценарий - последовательный паттерн доступа к памяти. В действительности вы получаете доступ к памяти в случайном порядке, поэтому одни и те же линии кэша загружаются и выгружаются несколько раз, и вы легко достигаете 100 Гбит/с.

Чтобы устранить эту проблему, вы должны определить, почему наши данные не являются краткосрочными и пытаются это исправить. Если это невозможно, вы можете попытаться увеличить локальность данных и изменить шаблон доступа к памяти, чтобы сделать его последовательным.

Я хотел бы знать, что эксперты по аппаратуре думают о моем наивном объяснении:)