Нечеткое соответствие SQL - программирование

Надеюсь, я не повторяю этот вопрос. Я сделал поиск здесь и google перед публикацией здесь.

Я запускаю eStore с SQL Server 2008R2 с включенным полным текстом.

Мои требования,

Я использую Hybrid Fulltext и обычно люблю делать поиск. Это дает более релевантные результаты. Все запросы, выполненные в таблицу temp и отдельные элементы, были возвращены.

Все вышеперечисленные комбинированные работы отлично работают с разумной скоростью и возвращают соответствующие продукты для ключевых слов.

Но я ищу для дальнейшего улучшения, когда продукта нет.

Скажем, если клиент ищет "CLC 2200npk" , и этого продукта там не было, мне нужно было показать рядом очень близко "CLC 2200" .

До сих пор я пытался использовать функцию Soundex(). Купите значение soundex для каждого слова в столбце TextSearch и сравнивайте его с значением судекса ключевого слова. Но это возвращает слишком много записей и замедляет работу.

Например, "CLC 2200npk" вернет такие продукты, как "CLC 1100" и т.д. Но это не будет хорошим результатом. Поскольку он не близок к CLC 2200npk

Здесь есть еще одна хорошая . но это использует функции CLR. Но я не могу установить CLR-функции на сервере.

если "CLC 2200npk" не найден, нажмите "CLC 2200" , если "CLC 2200" не найден, рядом с ним следует "CLC 1100"

Вопросы

Ответы

Ответ 1

Скорее быстрое решение для конкретного домена может заключаться в вычислении сходства строк с использованием SOUNDEX и числового расстояния между двумя строками. Это действительно поможет, когда у вас будет много кодов продуктов.

Используя простой UDF, как показано ниже, вы можете извлечь числовые символы из строки, чтобы затем получить 2200 из "CLC 2200npk" и 1100 из "CLC 1100", чтобы теперь можно было определить близость на основе вывода SOUNDEX каждого входа, а также близость числовой составляющей каждого входа.

CREATE Function [dbo].[ExtractNumeric](@input VARCHAR(1000))
RETURNS INT
AS
BEGIN
    WHILE PATINDEX('%[^0-9]%', @input) > 0
    BEGIN
        SET @input = STUFF(@input, PATINDEX('%[^0-9]%', @input), 1, '')
    END
    IF @input = '' OR @input IS NULL
        SET @input = '0'
    RETURN CAST(@input AS INT)
END
GO

Что касается алгоритмов общего назначения, то есть пара, которая может помочь вам с разной степенью успеха в зависимости от размера набора данных и требований к производительности. (обе ссылки имеют реализацию TSQL)

Двойной метафон - Этот алгоритм даст вам лучшее совпадение, чем soundex за счет скорости, но это действительно хорошо для коррекции орфографии.
Расстояние Левенштейна - это будет подсчитывать, сколько нажатий клавиши, чтобы перевести одну строку в другую, например, для перехода с CLC 2200npk на 'CLC 2200' 3, а от "CLC 2200npk" до "CLC 1100" - 5.

Здесь - интересная статья, в которой используются оба альгоса, которые могут дать вам несколько идей.

Ну, надеюсь, некоторые из них немного помогают.

EDIT: Здесь - это намного более быстрая частичная реализация Levenshtein Distance (прочитайте сообщение, которое он не вернет точно так же, как и обычный). В моей тестовой таблице из 125000 строк она работает через 6 секунд по сравнению с 60 секундами для первой, с которой я связан.