Производительность агрегирования MongoDB медленнее, чем миллионы документов

Наша система носит носитель и очень надежна, она тестировалась на нагрузку для обработки 5000 транзакций в секунду, и для каждой транзакции документ вставляется в единую коллекцию MongoDB (без обновлений или запросов в этом приложении, только). Это составляет ~ 700 млн. Документов в день, что является нашим эталоном.

Развертывание MongoDB еще не очерчено, у нас есть 1x replicaset с 1 master и 2 slaves, все из которых являются типами m2.2xlarge экземпляров на ec2. Каждый экземпляр поддерживается 1ТБ RAID0-полосой, состоящей из 8 томов (без PIOPS). Мы используем родной драйвер node -mongodb с собственным синтаксическим анализатором BSON С++ для оптимальной производительности записи и попытались соответствующим образом моделировать структуру документа.

Примечание

требование

Документ

Индекс

запрос агрегации

результат агрегации

Объяснение агрегации

вопросы

Ответы

Ответ 1

Вы задаетесь вопросом, почему ваша агрегировка занимает так много времени. Помимо пунктов, сделанных @Avish в его ответе (вы делаете некоторые ненужные шаги), вам также нужно учитывать ваши физические ресурсы и время, в которое идет время.

Вот часть вашего объяснения:

    "n" : 9844935,
    "nscannedObjects" : 0,
    "nscanned" : 9844935,
    "scanAndOrder" : false,
    "indexOnly" : true,
    "nYields" : 27,
    "millis" : 32039,

Следует отметить, что агрегация заняла 32 секунды (не 50), ей никогда не приходилось извлекать один документ, поскольку он получил всю информацию из самого индекса. Это не нужно было делать в памяти. Но он должен был дать 27 раз... Почему? Есть две причины, по которым возникают процессы чтения: один - когда есть ожидание записи (авторы имеют приоритет, а длинные чтения должны уступать им), либо произошла ошибка страницы - все операции должны выполняться, когда любые данные, к которым они пытаются получить доступ не находится в ОЗУ (это значит, что процесс не блокирует других от выполнения работы, пока они ожидают, что их данные будут загружены в ОЗУ).

Вопросы, которые приходят на ум, были: был ли холод DB? Соответствуют ли индексы в ОЗУ? Были ли записи в то же время, что читатели должны были бороться?

Я бы проверял, что индекс может поместиться в ОЗУ, запустите команду "touch" , чтобы убедиться, что она находится в ОЗУ, упростить мою агрегацию конвейер не делать ненужной работы, а затем запускать его снова, пару раз подряд и посмотреть, как выглядят тайминги.

Ответ 2

Я не понимаю, почему вам нужно $unwind значения a и почему вам нужно группировать по сумме в любой точке. Это также кажется ошибкой, так как для каждого разворотного значения a вы выведете то же значение t, рассчитанное для всего времени.

Насколько я понимаю, ваш запрос должен выглядеть так:

col.aggregate([
  // Pre-filter
  { $match: { /* ... */ } },

  // Pre-sort to aid in grouping
  { $sort: { c: 1, y: 1, m: 1, a: 1 },      

  // Group by month, customer and `a` to find unique `a` values and their totals
  { $group: { 
     _id: { c: '$c', y: '$y', m: '$m', a: '$a' },
     t: { $sum: 1 } 
    }
  },

  // Not sure if another sort is required at this point, I'd assume MongoDB
  // is smart enough to understand we're grouping by a subset of the original 
  // grouping key

  // Group by month and customer to count unique `a` values and grand total 
  { $group: {
    _id: { c: '$_id.c', y: '$_id.y', m: '$_id.m' },
    a: { sum: 1 }, // number of unique `a` values in group
    t: { sum: '$t' } // rolled-up total of all `a`-totals in group
  },

  // You can tack on further groupings by year and customer here,
  // although I believe these would be better done in the UI layer
]);

В принципе, начало конвейера с разматыванием и повторной группировкой, а также промежуточные сорта могут замедлить вас. Посмотрите, работает ли эта версия лучше, и попытайтесь добавить сортировки между группировками, если они помогут.

Ответ 3

Я бы предложил попробовать индекс на y, m и d (год, месяц, дата?) в этом порядке, поскольку они известны как int, а не текущие, которые c могут быть int или строку. Поскольку данные основаны на времени, может также иметь смысл.