Разница в производительности: условие, установленное в позиции INNER JOIN vs WHERE

Мне нужно получить все строки из order, которые для того же clientid на одном и том же date имеют противоположные значения type. Помните, что type может иметь только одно из двух значений - B или S. В приведенном выше примере это будут строки 23 и 24.

Другим ограничением является то, что соответствующая строка в processed должна быть true для orderid.

ВОПРОС: Сохранение processed = true как части предложения соединения замедляет запрос вниз. Если я переведу его в предложение WHERE, производительность будет намного лучше. Это вызвало мой интерес и , я хотел бы знать, почему.

Первичные ключи и соответствующие столбцы внешнего ключа индексируются, а столбцы значений (value, processed и т.д.) не являются.

Отказ от ответственности: я унаследовал эту структуру БД, а разница в производительности составляет примерно 6 секунд.

Ответы

Ответ 1

Причина, по которой вы видите разницу, связана с планом выполнения, который планировщик собирает вместе, это, очевидно, отличается в зависимости от запроса (возможно, он должен оптимизировать два запроса одинаковыми, и это может быть ошибкой). Это означает, что планировщик считает, что он должен работать определенным образом, чтобы получить результат в каждом утверждении.

Когда вы делаете это в JOIN, планировщику, вероятно, придется выбирать из таблицы, фильтровать по "True", а затем присоединяться к наборам результатов. Я бы предположил, что это большая таблица и, следовательно, много данных для просмотра, и она не может эффективно использовать индексы.

Я подозреваю, что если вы делаете это в предложении WHERE, планировщик выбирает более эффективный маршрут (например, на основе индекса или предварительно отфильтрованного набора данных).

Возможно, вы могли бы сделать работу соединения быстрой (если не быстрее), добавив индекс в два столбца (не уверены, включены ли включенные столбцы и несколько индексов столбцов в Postgres).

Короче говоря, планировщик - это проблема, когда он выбирает 2 разных маршрута для получения результатов, и один из них не так эффективен, как другой. Невозможно для нас узнать, в чем причина, без полной информации таблицы и информации EXPLAIN ANALYZE.

Если вы хотите узнать, почему именно ваш конкретный запрос делает это, вам нужно предоставить дополнительную информацию. Однако причина заключается в том, что планировщик выбирает разные маршруты.

Дополнительный материал для чтения:

http://www.postgresql.org/docs/current/static/explicit-joins.html

Просто снимок, кажется, что планировщик postgres не переупорядочивает объединения для его оптимизации. попробуйте изменить порядок объединений в своем заявлении, чтобы узнать, получится ли тогда такая же производительность... просто мысль.