Случай использования фильтрованной статистики

Я просмотрел отфильтрованные данные в ссылке ниже.

Данные сильно искажены, одна область имеет 0 строк, остальные - из разных областей. Ниже приведен весь код для воспроизведения проблемы.

Мой вопрос заключается в том, что мы имеем ниже статистики, доступные в обеих таблицах

1.Почему оценка пошла не так для следующих запросов

2.Когда я создал отфильтрованный stat в соответствии с автором, я мог видеть оценки правильно, но почему нам нужно создавать отфильтрованные статистические данные, как я могу сказать, что мне нужно фильтровать статистику для моих запросов, так как даже когда я создал простую статистику, я получил тот же результат.

Лучше всего я натолкнулся 1.Компьютерная искаженная статистика 2.Технологическая статистика

Но все еще не в состоянии понять, почему отфильтрованные данные здесь имеют значение

Перефразируя вопрос после ответов Мартина и Джеймса:

1.Есть ли способ избежать перекос данных кроме kimberely script, еще один способ оценить - подсчитать количество строк для значения.

2. Вы столкнулись с какими-либо проблемами с перекосом данных в своем опыте. Я полагаю, что это зависит от больших таблиц. Но я ищу подробный ответ

3. Мы должны брать стоимость ввода-вывода для sql для сканирования таблицы и вместе с некоторыми блокированиями иногда для запроса, который выпадает во время запуска статистики обновления. Если вы видите какие-либо накладные расходы, кроме этого, при сохранении статистики.

Причина в том, что я собираюсь создать файловую статистику на основе нескольких условий, основанных на вводе DTA.

Ответы

Ответ 1

Я бы предположил, что это так. Вы получаете те же самые оценки (500.5), потому что у этого SQL Server нет статистики, которая бы указывала, какие идентификаторы являются теми, которые связаны с каким регионом. У статистики ix_Region_id_name есть оба поля, но поскольку гистограмма существует только для первого столбца, это действительно не помогает в оценках относительно того, сколько строк будет в таблице Sales.

Если вы запустите dbcc show_statistics ('Region','ix_Region_id_name'), результатом будет:

RANGE_HI_KEY   RANGE_ROWS   EQ_ROWS   DISTINCT_RANGE_ROWS   AVG_RANGE_ROWS
0              0            1         0                     1
1              0            1         0                     1

Итак, это говорит о том, что для каждого идентификатора есть 1 строка, но нет ссылки на имена.

Но когда вы создаете статистику Region_stats_id (для Dallas), dbcc show_statistics ('Region','Region_stats_id') покажет:

RANGE_HI_KEY   RANGE_ROWS   EQ_ROWS   DISTINCT_RANGE_ROWS   AVG_RANGE_ROWS
0              0            1         0                     1

Итак, SQL Server знает, что существует только одна строка, а ID 0.

Аналогично Region_stats_id2:

RANGE_HI_KEY   RANGE_ROWS   EQ_ROWS   DISTINCT_RANGE_ROWS   AVG_RANGE_ROWS
1              0            1         0                     1

И количество строк в продажах в ix_Sales_id_detail поможет определить строки на ID:

RANGE_HI_KEY   RANGE_ROWS   EQ_ROWS   DISTINCT_RANGE_ROWS   AVG_RANGE_ROWS
0              0            1         0                     1
1              0            1000      0                     1

Информация: теперь это копия ответа, удаленная @MartijnPieters, потому что это вопрос, на который я собирался ответить - и я не могу ничего сделать с удаленным ответом. Я случайно написал это первым в TheGameiswar другой вопрос статистики с сегодняшнего дня, но я уже удалил себя.