Алгоритм для поиска расстояния редактирования ко всем подстрокам

Учитывая 2 строки s и t. Мне нужно найти для каждой подстроки в s расстояние редактирования (расстояние Левенштейна) до t. На самом деле мне нужно знать для каждой позиции i в s, каково минимальное расстояние редактирования для всех подстрок, начатых в позиции i.

Я могу использовать алгоритм грубой силы для решения этой задачи, конечно. Но есть ли более быстрый алгоритм?

Ответы

Ответ 1

Алгоритм Вагнера-Фишера дает вам ответ на все префиксы "бесплатно".

http://en.wikipedia.org/wiki/Wagner%E2%80%93Fischer_algorithm

Последняя строка матрицы Вагнера-Фишера содержит расстояние редактирования от каждого префикса от s до t.

Итак, как первая трещина в вашей проблеме, для каждого i запустите Wagner-Fischer и выберите самый маленький элемент в последней строке.

Мне будет интересно узнать, знает ли кто-нибудь еще (или может найти) лучший подход.

Ответ 2

Найти подстроки в заданной строке очень легко. Вы берете обычный алгоритм Левенштейна и слегка его модифицируете.

ПЕРВЫЙ: Вместо заполнения первой строки матрицы 0,1,2,3,4,5,... Вы полностью заполняете его нулями. (зеленый прямоangularьник)

ВТОРОЙ: Затем вы запускаете алгоритм.

ТРЕТИЙ: Вместо того, чтобы возвращать последнюю ячейку последней строки, вы ищете наименьшее значение в последней строке и возвращаете его. (красный прямоangularьник)

Пример: игла: "аба", стог сена: "с аба с" → результат = 1 (преобразование аба → аба)

Я проверил это, и это работает.

Это намного быстрее, чем вы предлагаете пошагово проходить через строку, как вы это делаете в своем вопросе. Вы создаете матрицу только один раз.