Почему мой узел Cassandra застрял с увеличением MutationStage?

Я использую Cassandra для хранения фотографий. В настоящее время мы осуществляем массовую миграцию изображений из старой системы. Все работает отлично на некоторое время, но в конечном итоге мы получим TimedOutException при сохранении, которое я предполагаю, потому что рабочая очередь была заполнена.

Однако, после ожидания (несколько часов) для его завершения, ситуация остается неизменной (она не восстанавливается после остановки миграции)

Кажется, что проблема tpstats только с одним узлом, на котором команда tpstats показывает следующие данные

Ожидаемые операции MutationStage продолжают увеличиваться, даже несмотря на то, что мы прекратили вставки за несколько часов назад.

Что я могу проверить, чтобы понять, почему он так долго не стабилизируется? Все остальные серверы в кольце находятся в 0 незавершенных операциях.

Любая новая вставка, которую мы TimedOutException исключение TimedOutException....

Ответы

Ответ 1

Я предполагаю, что вы просто перегружаете один из ваших узлов записью - т.е. вы пишете быстрее, чем можете переваривать. Это довольно легко, если ваши записи огромны.

MutationStage увеличивается даже после того, как вы перестали записывать в кластер, потому что другие узлы все еще обрабатывают очереди запросов на мутацию и отправляют реплики на этот перегруженный узел.

Я не знаю, почему один из узлов перегружен, потому что может быть несколько причин:

узел медленнее остальных (другое оборудование или другая конфигурация)
кластер не сбалансирован должным образом (однако начало вашего вывода кольца nodetool предполагает, что это не так)
вы направляете все свои записи на этот конкретный узел, а не распределяете их по всем узлам одинаково, например, с помощью циклического
вы сконфигурировали слишком большой общий размер или размер кэша memtables для слишком маленького полного пространства кучи, и ваши узлы борется с GC, и только что случилось, что этот был первым, кто попал в спираль смерти GC