Почему каждые несколько минут активность на local.oplog.rs блокирует клиентов mongo

Каждые одну или две минуты клиенты монго останавливаются примерно на 3 секунды. Нормальное время работы для обновлений составляет около 1 или 2 миллисекунды. Когда появится эта медлительность, у нас есть куча обновлений продолжительностью от 1 до 3 секунд.

Журнал медленных запросов не показывает ничего, что связано с этим. Также не выполняется отладка клиента mongo (mongo-php-client).

Текущая архитектура имеет 1 мастер, 1 ведомый и один арбитр в наборе реплик.

Выполненные запросы всегда одинаковы (upsert by _id, insert with new MongoId). Нет "каждые несколько минут, когда мы запускаем это супердорожное обновление"

Блокировка, по-видимому, вызвана local.oplog.rs. По крайней мере, это то, что показывает вывод mongotop ниже. Я не нашел никаких указаний на то, что вторичная проблема вызывает эту проблему, так как выходы всех следующих команд кажутся стабильными. Я не нашел никакой информации, указывающей, что медленность вызвана конкретным запросом.

Идея того, как мы храним данные, - это предварительно агрегированные отчеты. У нас много обновлений (пара сотен в секунду), но очень низкий уровень запросов. Индексы привязаны к дате (кроме _id, который вычисляется из составного ключа на основе всех измерений, содержащихся в записи. В отличие от этого, я имею в виду, что _id не является инкрементным, как это было бы с индексом ObjectId). Чтобы дать представление, индексы в самой большой коллекции (в Mb):

Большинство других коллекций имеют индексы размером 100 МБ или меньше. Во всех коллекциях индекс _id является самым большим. Стоит отметить, что эти идентификаторы создаются вручную (на основе метаданных, поэтому вставка выполняется как upsert и не является инкрементной)

Followup:

Edit1: После более глубокой обработки, кажется, что блокировка связана с процессом rsync журнала, когда он сбрасывается на диск. Журнал находится в той же файловой системе, что и файлы данных, но медленность не ожидается, поскольку диски являются быстрыми ssd-устройствами.

Edit2: После некоторых тестов способность записи дисков не является проблемой. Обычно мы пишем со скоростью несколько мегабайт в секунду. Выполняя некоторые тесты на диске, он без проблем принимает 150 МБ/с.

Ожидаемый ответ:

Проблема Объяснение:

Следующие команды запускаются в основном node

Каждый раз, когда появляется медлительность, мы видим следующее в монгостате (два примера)

в столбце обновления есть сокращение и следующее много больше обновлений. Заметим также, что мы используем мангостат с задержкой в 1 секунду. Когда появляется медленность, монгостат перестает отвечать на несколько секунд. Стоп присутствует только в главном, а не на подчиненном сервере.

Это результат работы mongotop при возникновении этой проблемы (в 2015-07-07T13: 29: 38):

(пример с немного более контекстом можно найти здесь)

Отладка клиента php mongo, который показывает проблему (последние две строки отладки PhpMongoClient):

(пример с чуть более контекстом можно найти здесь)

Mongo Информация:

Ответы

Ответ 1

Эта проблема теперь исчезла. Было предпринято два действия:

Переработал систему с предварительными агрегатами. Рабочая нагрузка монго уменьшилась в 10 раз.
Обновленная версия mongo to 3.0.6

К сожалению, эти два изменения были переведены в онлайн с большим количеством времени между ними. У меня есть подозрение, что сокращение рабочей нагрузки сделало трюк (который может или не может быть связан с проблемой, о которой @steve-brisk указал) по крайней мере на данный момент (мы увидим, когда мы снова удалим предыдущие уровни рабочей нагрузки). Но, поскольку версия также обновляется, возможно, что даже с предыдущими уровнями рабочей нагрузки мы могли бы не столкнуться с этой проблемой еще раз.

У меня нет доказательств, указывающих на одно из двух решений. Но после взятия обоих из них проблема решена.