Oracle: полнотекстовый поиск с условием
Я создал индекс Oracle Text следующим образом:
create index my_idx on my_table (text) indextype is ctxsys.context;
И я могу сделать следующее:
select * from my_table where contains(text, '%blah%') > 0;
Но скажем, у нас есть еще один столбец в этой таблице, скажем group_id
, и я хотел бы сделать следующий запрос:
select * from my_table where contains(text, '%blah%') > 0 and group_id = 43;
С вышеуказанным индексом Oracle будет искать все элементы, содержащие 'blah'
, а затем проверить все их group_id
s.
В идеале, я бы предпочел только поиск элементов с group_id = 43
, поэтому мне нужен индекс вроде этого:
create index my_idx on my_table (group_id, text) indextype is ctxsys.context;
Как обычный индекс, поэтому для каждого group_id
можно сделать отдельный текстовый поиск.
Есть ли способ сделать что-то подобное в Oracle (я использую 10g, если это важно)
Изменить (пояснение)
Рассмотрим таблицу с миллионом строк и двумя другими столбцами, A
и B
, как числовыми. Допустим, что существует 500 различных значений A
и 2000 различных значений B
, и каждая строка уникальна.
Теперь рассмотрим select ... where A = x and B = y
Индекс на A
и B
отдельно, насколько я могу судить, выполняет поиск по индексу на B
, который вернет 500 разных строк, а затем сделает соединение/сканирование в этих строках. В любом случае нужно смотреть не менее 500 строк (кроме того, что база данных удачлива и нахожу нужную строку раньше.
В то время как индекс на (A,B)
намного эффективнее, он находит одну строку в одном поиске индекса.
Ввод отдельных индексов на group_id
, и текст, который я чувствую, оставляет только генератор запросов двумя вариантами.
(1) Используйте индекс group_id
и сканируйте все результирующие строки для текста.
(2) Используйте текстовый индекс и сканируйте все результирующие строки для group_id
.
(3) Используйте оба индекса и выполните объединение.
В то время как я хочу:
(4) Используйте индекс (group_id, "text")
, чтобы найти текстовый индекс под конкретным group_id
и сканировать этот текстовый индекс для конкретной строки/строк, в которых я нуждаюсь. Никакого сканирования и проверки или соединения не требуется, как при использовании индекса на (A,B)
.
Ответы
Ответ 1
Текст Oracle
1 - Вы можете повысить производительность, создав индекс CONTEXT с помощью FILTER BY:
create index my_idx on my_table(text) indextype is ctxsys.context filter by group_id;
В моих тестах filter by
определенно улучшил производительность, но было еще немного быстрее использовать индекс btree для group_id.
2 - Индексы CTXCAT используют "подиндексы" и, похоже, работают аналогично индексу с несколькими столбцами. Кажется, это вариант (4), который вы ищете:
begin
ctx_ddl.create_index_set('my_table_index_set');
ctx_ddl.add_index('my_table_index_set', 'group_id');
end;
/
create index my_idx2 on my_table(text) indextype is ctxsys.ctxcat
parameters('index set my_table_index_set');
select * from my_table where catsearch(text, 'blah', 'group_id = 43') > 0
Скорее всего, это самый быстрый подход. Используя вышеуказанный запрос против 120 МБ случайного текста, подобного вашему сценарию А и В, требуется только 18 последовательных запросов. Но с другой стороны, создание индекса CTXCAT заняло почти 11 минут и использовало 1,8 ГБ пространства.
(Примечание: Oracle Text, похоже, работает правильно здесь, но я не знаком с Text, и я не могу gaurentee, это не является неправильным использованием этих индексов, таких как @NullUserException.)
Множественные столбцы и индексы объединяются
В ситуации, которую вы описали в своем редактировании, обычно не было существенной разницы между использованием индекса на (A, B) и объединением отдельных индексов на A и B. Я построил несколько тестов с данными, подобными тому, что вы описали и для соединения индекса требуется только 7 последовательных попаданий по сравнению с 2 последовательностями для индекса с несколькими столбцами.
Причина этого в том, что Oracle извлекает данные в блоках. Блок обычно составляет 8K, а индексный блок уже отсортирован, поэтому вы, вероятно, можете подобрать значения от 500 до 2000 в нескольких блоках. Если вас беспокоит производительность, обычно IO для чтения и записи блоков - это единственное, что имеет значение. Независимо от того, требуется ли Oracle объединить несколько тысяч строк, это несущественное количество процессорного времени.
Однако это не относится к индексам Oracle Text. Вы можете присоединиться к индексу CONTEXT с индексом btree ( "растровое изображение" и "?" ), Но производительность низкая.
Ответ 2
Я бы поставил индекс на group_id
и посмотрел, достаточно ли это. Вы не говорите, сколько строк мы говорим или какая производительность вам нужна.
Помните, что порядок, в котором обрабатываются предикаты, не обязательно является порядком, в котором вы написали их в запросе. Не пытайтесь перехитрить оптимизатора, если у вас нет реальной причины.
Ответ 3
Краткая версия: Не нужно этого делать. Оптимизатор запросов достаточно умен, чтобы решить, какой лучший способ выбрать ваши данные. Просто создайте индекс btree на group_id
, то есть:
CREATE INDEX my_group_idx ON my_table (group_id);
Длинная версия: Я создал script (testperf.sql
), который вставляет 136 строк фиктивных данных,
DESC my_table;
Name Null Type
-------- -------- ---------
ID NOT NULL NUMBER(4)
GROUP_ID NUMBER(4)
TEXT CLOB
На group_id
есть индекс btree. Чтобы убедиться, что индекс действительно будет использоваться, запустите его как пользователь dba:
EXEC DBMS_STATS.GATHER_TABLE_STATS('<YOUR USER HERE>', 'MY_TABLE', cascade=>TRUE);
Здесь сколько строк имеет каждый group_id
и соответствующий процент:
GROUP_ID COUNT PCT
---------------------- ---------------------- ----------------------
1 1 1
2 2 1
3 4 3
4 8 6
5 16 12
6 32 24
7 64 47
8 9 7
Обратите внимание, что оптимизатор запросов будет использовать индекс только в том случае, если он считает его хорошей идеей, т.е. вы получаете до определенного процента строк. Итак, если вы спросите его о плане запроса на:
SELECT * FROM my_table WHERE group_id = 1;
SELECT * FROM my_table WHERE group_id = 7;
Вы увидите, что для первого запроса он будет использовать индекс, тогда как для второго запроса он выполнит полное сканирование таблицы, так как слишком большое количество строк для индекса будет эффективным, если group_id = 7
.
Теперь рассмотрим другое условие - WHERE group_id = Y AND text LIKE '%blah%'
(поскольку я не очень хорошо знаком с ctxsys.context
).
SELECT * FROM my_table WHERE group_id = 1 AND text LIKE '%ipsum%';
Посмотрев на план запроса, вы увидите, что он будет использовать индекс на group_id
. Обратите внимание, что порядок ваших условий не важен:
SELECT * FROM my_table WHERE text LIKE '%ipsum%' AND group_id = 1;
Создает один и тот же план запроса. И если вы попытаетесь запустить тот же запрос на group_id = 7
, вы увидите, что он возвращается к полному сканированию таблицы:
SELECT * FROM my_table WHERE group_id = 7 AND text LIKE '%ipsum%';
Обратите внимание, что статистика автоматически собирается Oracle каждый день (она должна запускаться каждую ночь и в выходные дни), чтобы постоянно повышать эффективность оптимизатора запросов. Короче говоря, Oracle делает все возможное, чтобы оптимизировать оптимизатор, поэтому вам не нужно.
Ответ 4
У меня нет экземпляра Oracle для тестирования, и я не использовал полнотекстовую индексацию в Oracle, но у меня обычно была хорошая производительность с встроенными представлениями, что может быть альтернативой тому индексу, который у вас был в уме. Является ли следующий синтаксис законным, когда задействован содержит()?
В этом встроенном представлении вы получите значения PK строк в группе 43:
(
select T.pkcol
from T
where group = 43
)
Если группа имеет нормальный индекс и не имеет малой мощности, выборка этого набора должна быть быстрой. Затем вы снова добавите внутреннее соединение, которое будет установлено с T:
select * from T
inner join
(
select T.pkcol
from T
where group = 43
) as MyGroup
on T.pkcol = MyGroup.pkcol
where contains(text, '%blah%') > 0
Надеюсь, оптимизатор сможет использовать индекс PK для оптимизации соединения, а затем применить предикат содержит только для строк группы 43.