Индексирование Solr - репликация Master/Slave, как обрабатывать огромный индекс и высокий трафик?

В настоящее время я сталкиваюсь с проблемой с SOLR (точнее, с репликацией подчиненных), и, проведя довольно много времени, читая онлайн, я обнаружил, что мне нужно просить просветления.

- У Solr есть некоторые ограничения по размеру для своего индекса?

Когда вы работаете с одним мастером, когда это подходящий момент, чтобы решить использовать несколько ядер или несколько индексов? Есть ли какие-либо указания при достижении определенного размера индекса, рекомендуется разбиение на разделы?

- Есть ли максимальный размер при репликации сегментов от ведущего к подчиненному?

При тиражировании существует ли ограничение размера сегмента, когда ведомое устройство не сможет загрузить контент и проиндексировать его? Каков порог, которому подчиненный не сможет реплицировать, когда есть много трафика для получения информации и множество новых документов для репликации.

Чтобы быть более фактическим, вот контекст, который привел меня к этим вопросам: Мы хотим индексировать достаточное количество документов, но когда сумма достигает более десятка миллионов, ведомые не могут справиться с этим и начинают терпеть неудачу с помощью ошибки SnapPull. Документы состоят из нескольких текстовых полей (имя, тип, описание,... около 10 других полей, допустим, не более 20 символов).

У нас есть один мастер и 2 подчиненных устройства, которые реплицируют данные от ведущего.

Это мой первый опыт работы с Solr (я обычно работаю на webapps с помощью spring, hibernate... но не пользуюсь Solr), поэтому я не уверен, как решить эту проблему.

Наша идея заключается в том, чтобы добавить к серверу несколько ядер, а также иметь подчиненное репликацию из каждого этого ядра. Это правильный путь?

Если это так, как определить количество необходимых ядер? Сейчас мы просто попытаемся посмотреть, как он себя ведет и при необходимости скорректировать, но мне было интересно, есть ли какие-либо передовые методы или какие-то тесты, которые были сделаны по этой конкретной теме.

Для этого количества документов с этим средним размером необходимы x ядер или индексы...

Спасибо за любую помощь в том, как я могу справиться с огромным количеством документов среднего размера!

Вот копия ошибки, возникающей при попытке репликации подчиненного:

ИЗМЕНИТЬ: После ответа Маурисио библиотеки solr были обновлены до 1.4.1, но эта ошибка все еще была поднята. Я увеличил commitReserveDuration и даже если ошибка "SnapPull Failed", похоже, исчезла, другой начал подниматься, не уверен, почему, поскольку я не могу найти много ответа в Интернете:

Я все еще удивляюсь, какие лучшие методы обработки большого индекса (более 20G) содержат много документов с solr. Я где-то пропустил некоторые очевидные ссылки? Учебники, документация?

Ответы

Ответ 1

Ядра - это инструмент, в основном используемый для разных схем в одном экземпляре Solr. Также используется как индексы на палубе. Осколки и репликация - это ортогональные проблемы.
Вы упоминаете "много трафика". Это очень субъективная мера. Вместо этого попытайтесь определить, сколько QPS (запросов в секунду) вам нужно от Solr. Кроме того, достаточно ли один экземпляр Solr ответить на ваши запросы? Только тогда вы сможете определить, нужно ли масштабировать. Один экземпляр Solr может обрабатывать много трафика, возможно, вам даже не нужно масштабировать.
Убедитесь, что вы запускаете Solr на сервере с большим количеством памяти (и убедитесь, что Java имеет к нему доступ). Solr довольно голоден, если вы наденете его на сервер с ограниченным объемом памяти, производительность будет страдать.
Как объясняет вилка в Solr, используйте sharding, если один запрос занимает слишком много времени для запуска и репликация, если один экземпляр Solr не может обрабатывать трафик. "Слишком длинный" и "трафик" зависят от вашего конкретного приложения. Измерьте их.
Solr имеет множество настроек, которые влияют на производительность: автоматическое нагревание кеша, сохраненные поля, коэффициент слияния и т.д. Проверьте SolrPerformanceFactors.
Здесь нет жестких правил. Каждое приложение имеет разные поисковые запросы. Имитировать и измерить для вашего конкретного сценария.
О ошибке репликации убедитесь, что вы используете 1.4.1, поскольку в версии 1.4.0 была ошибка с репликацией.