Общая память IPC для скриптов Python в отдельных контейнерах Docker

Я написал классификатор нейронной сети, который принимает большие изображения (~ 1-3 ГБ за штуку), исправляет их и передает патчи по сети индивидуально. Обучение шло очень медленно, поэтому я провел сравнительный анализ и обнаружил, что для загрузки патчей из одного изображения в память (с использованием библиотеки Openslide) требуется ~ 50 с, а для прохождения их через модель - ~ 0,5 с.

Тем не менее, я работаю над суперкомпьютером с 1,5 ТБ ОЗУ, из которых используется только ~ 26 ГБ. Набор данных составляет ~ 500 Гб. Я думаю, что если бы мы могли загрузить весь набор данных в память, это значительно ускорило бы обучение. Но я работаю с исследовательской группой, и мы проводим эксперименты на нескольких скриптах Python. Поэтому в идеале я хотел бы загрузить весь набор данных в память одним сценарием и иметь доступ к нему для всех сценариев.

Возможные решения

Я нашел много постов о том, как делиться объектами Python или необработанными данными в памяти между несколькими скриптами Python:

Обмен данными Python между скриптами

Модуль sysv_ipc для Python. Это демо выглядит многообещающе.

Я также нашел этот список опций для IPC/сетей в Python.

Некоторые обсуждают настройки сервера-клиента, некоторые обсуждают сериализацию/десериализацию, которая, боюсь, займет больше времени, чем просто чтение с диска. Ни один из ответов, которые я нашел, не отвечает на мой вопрос о том, приведут ли они к повышению производительности ввода-вывода.

Совместное использование памяти через контейнеры Docker

Нам нужно не только разделять объекты/память Python между скриптами; нам нужно поделиться ими через контейнеры Docker.

Docker документация объясняет --ipc флаг очень хорошо. Что имеет смысл для меня по документации работает:

Но когда я запускаю свой клиент и сервер в отдельных контейнерах с подключением --ipc настроенным, как описано выше, они не могут общаться друг с другом. Вопросы, которые я прочитал (1, 2, 3, 4), не касаются интеграции разделяемой памяти между скриптами Python в отдельных контейнерах Docker.

Мои вопросы:

Минимальный рабочий пример - Обновлено. Не требует никаких внешних зависимостей!

Это мой наивный подход к разделению памяти между скриптами Python в отдельных контейнерах. Это работает, когда скрипты Python запускаются в одном и том же контейнере, но не когда они запускаются в отдельных контейнерах.

Эти сценарии прекрасно работают для обмена изображениями, когда сценарии запускаются в одном и том же контейнере. Но когда они запускаются в отдельных контейнерах, вот так:

Ответы

Ответ 1

Я рекомендую вам попробовать использовать tmpfs.

Это функция Linux, позволяющая вам создать виртуальную файловую систему, которая хранится в оперативной памяти. Это обеспечивает очень быстрый доступ к файлу и требует всего одну команду bash для настройки.

Помимо того, что он очень быстрый и понятный, он имеет много преимуществ в вашем случае:

Не нужно трогать текущий код - структура набора данных остается неизменной
Никакой дополнительной работы по созданию общего набора данных - просто cp набор данных в tmpfs
Общий интерфейс - будучи файловой системой, вы можете легко интегрировать набор данных -r AM с другим компонентом вашей системы, который не обязательно написан на python. Например, это было бы легко использовать внутри ваших контейнеров, просто передав в них каталог монтирования.
Подходит для других сред - если ваш код должен будет работать на другом сервере, tmpfs может адаптировать и поменять страницы на жестком диске. Если вам придется запускать это на сервере без свободной оперативной памяти, вы можете просто хранить все свои файлы на жестком диске с нормальной файловой системой и вообще не трогать ваш код.

Шаги для использования:

Создайте tmpfs - sudo mount -t tmpfs -o size=600G tmpfs/mnt/mytmpfs
Копировать набор данных - cp -r dataset/mnt/mytmpfs
Изменить все ссылки из текущего набора данных на новый набор данных
наслаждаться

Редактировать:

ramfs может быть быстрее чем tmpfs в некоторых случаях, так как он не реализует перестановку страниц. Чтобы использовать его, просто замените tmpfs на ramfs в инструкциях выше.

Ответ 2

Я думаю, что shared memory или решение mmap является правильным.

Общая память:

Сначала прочитайте набор данных в памяти в процессе сервера. Для python просто используйте multiprocessing оболочку для создания объекта в разделяемой памяти между процессами, например: multiprocessing.Value или multiprocessing.Array, затем создайте Process и передайте общий объект как аргументы.

ММАП:

Храните набор данных в файле на хосте. Затем каждый контейнер монтирует файл в контейнер. Если один контейнер откроет файл и отобразит файл в его виртуальную память, другому контейнеру не потребуется считывать файл с диска в память при открытии файла, поскольку файл уже находится в физической памяти.

PS Я не уверен, как реализация cpython большая общая память между процессами, вероятно, общая память cpython использует внутреннюю mmap.