Случайный доступ к памяти MMAP до 16% медленнее, чем доступ к данным кучи

Наше программное обеспечение создает структуру данных в памяти, которая составляет около 80 гигабайт. Затем он может либо использовать эту структуру данных непосредственно для выполнения своих вычислений, либо выгружать ее на диск, чтобы впоследствии ее можно было повторно использовать несколько раз. В этой структуре данных происходит много случайных обращений к памяти.

Для большего ввода эта структура данных может расти еще больше (наш самый большой из них был более 300 гигабайт), а наши серверы имеют достаточно памяти для хранения всего в ОЗУ.

Если структура данных сбрасывается на диск, она загружается обратно в адресное пространство с помощью mmap, принудительно вставляется в кеш файл os и, наконец, помещается (код в конце).

Проблема заключается в том, что разница в производительности составляет примерно 16% между простое использование вычисленной структуры данных непосредственно в куче (см. версию Malloc) или mmaping сбрасываемый файл (см. mmap-версию). У меня нет хорошего объяснения, почему это так. Есть ли способ узнать, почему mmap работает намного медленнее? Могу ли я как-то закрыть этот разрыв производительности?

Я сделал измерения на сервере под управлением Scientific Linux 7.2 с ядром 3.10, он имеет 128 ГБ оперативной памяти (достаточно, чтобы соответствовать всем), и повторил их несколько раз с аналогичными результатами. Иногда разрыв немного меньше, но не намного.

Новое обновление (2017/05/23):

Я подготовил минимальный тестовый пример, где эффект можно увидеть. Я пробовал разные флаги (MAP_SHARED и т.д.) Без успеха. Версия mmap все еще медленнее.

Извините С++, его случайный класс проще в использовании. Я скомпилировал его следующим образом:

На этом сервере я получаю следующие времена (несколько раз выполнял все команды):

Ответы

Ответ 1

malloc() back-end может использовать THP (Transparent Huge Pages), что невозможно при использовании mmap(), поддерживаемого файлом.

Использование огромных страниц (даже прозрачно) может значительно сократить количество пропусков TLB при запуске приложения.

Интересным тестом может быть отключить прозрачные огромные страницы и снова запустить тест malloc(). echo never > /sys/kernel/mm/transparent_hugepage/enabled

Вы также можете измерить пропуски TLB с помощью perf:

perf stat -e dTLB-load-misses,iTLB-load-misses ./command

Для получения дополнительной информации о THP см. https://www.kernel.org/doc/Documentation/vm/transhuge.txt

Люди ждут долгое время, чтобы иметь кеш страницы, который обладает огромной способностью к работе, что позволяет отображать файлы с использованием огромных страниц (или сочетание огромных страниц и стандартных страниц 4K). В LWN есть куча статей о прозрачном огромном кеше страниц, но пока еще не достигло производственного ядра.

Прозрачные огромные страницы в кеше страниц (май 2016 года): https://lwn.net/Articles/686690

Существует также презентация с января этого года о будущем кеша страницы Linux: https://youtube.com/watch?v=xxWaa-lPR-8

Кроме того, вы можете избежать всех вызовов на mlock на отдельных страницах в своей реализации mmap(), используя флаг MAP_LOCKED. Если вы не являетесь привилегированным, для этого может потребоваться настройка предела блокировки.

Ответ 2

Возможно, я ошибаюсь, но...

Мне кажется, что проблема не в mmap, а в том, что код отображает память в файл.

Linux malloc возвращается к mmap для больших распределений, поэтому оба атрибута выделения памяти по существу используют один и тот же бэкэнд (mmap)... однако единственное отличие состоит в том, что malloc использует mmap без сопоставления с конкретным файлом на жестком диске.

Синхронизация информации о памяти с диском может быть причиной "более медленной" производительности. Это похоже на сохранение файла почти постоянно.

Вы можете рассмотреть возможность тестирования mmap без файла, используя флаг MAP_ANONYMOUS (и fd == -1 в некоторых системах) для проверки любой разницы.

С другой стороны,, я не уверен, что "медленный" доступ к памяти на самом деле не ускоряется в долгосрочной перспективе - вы бы заблокировали все это до шага 300Gb на диск? Как долго это займет?...

... тот факт, что вы делаете это автоматически с небольшими приращениями, может быть скорее усилением производительности, чем штрафом.