Что делает хороший запрос автосогласования в Solr и как они работают?

Этот вопрос является продолжением этого вопроса об редких изолированных таймаутах чтения в установке solr.

В качестве возможной проблемы отсутствовали/плохие запросы автосогласования для новых поисковиков.

Теперь я смущен тем, как хорошие автосогласованные запросы должны "выглядеть".

Я прочитал, но не смог найти хорошую документацию по этому вопросу.

Должны ли они ударить по большому количеству документов в индекс? Или они должны иметь совпадения во всех разных полях, которые существуют в индексе?

Не лучше *:* быть лучшим поиском автосогласования или почему бы и нет?

В примере solr config есть следующие примеры запросов:

Почему? Потому что в индексе содержатся объекты фильма с полями для названий и актеров. Это самые обыденные. И Джордж появляется в названиях и актерах.

Я действительно не знаю, имеет ли это смысл. Поэтому мой вопрос:

Это пример документа из индекса. Индекс содержит около 70 000 документов, и все они выглядят так (только разные значения): пример документа:

Большинство запросов - это точные совпадения запросов в полях актеров с некоторыми фильтрами.

Ответы

Ответ 1

Существует 2 типа потепления. Кэширование кеша и кеширование кеша документа (также фильтрует, но похож на запросы). Погрешность кеша запросов может быть выполнена с помощью параметра, который будет просто повторно запускать X число последних запросов до того, как индекс будет перезагружен. Согревание кеша документов отличается.

Цель кеширования документов - получить большое количество наиболее часто используемых документов в кэша документов, чтобы их не нужно было читать с диска. Итак, ваши запросы должны быть сосредоточены на этом. Вам нужно попытаться выяснить, какие ваши наиболее часто просматриваемые документы и загрузить их. Предпочтительно с минимальным количеством запросов. Это не имеет никакого отношения к фактическому содержанию полей. EDIT: уточнить. При нагревании кэша документов основной интерес представляют документы, которые чаще всего появляются в результатах поиска, независимо от того, как они запрашиваются.

Лично я запускаю поиск таких вещей, как:

Загрузка по странам, если большинство ваших поисков для американских фильмов.
Загрузка по годам, если большинство ваших поисков для более поздних фильмов.
Загрузка по жанру, если у вас есть короткий список жанров с интенсивным поиском.

Последняя возможность - загрузить их все. Ваши документы выглядят небольшими. В настоящее время 70 000 из них не имеют ничего общего с серверной памятью. Если ваш кэш документов достаточно велик, и у вас достаточно свободного места, подойдите к нему. В качестве побочного примечания, некоторые из ваших самых больших преимуществ будут из вашего кэша документов. Кэш запросов полезен только для повторных запросов, что может быть неутешительно низким. Вы почти всегда извлекаете выгоду из большого кэша документов.