Поиск всех общих подстрок заданных двух строк

Я столкнулся с оператором проблемы, чтобы найти все общие подстроки между данными двумя подстроками таким образом, чтобы в каждом случае вам приходилось печатать самую длинную подстроку. Оператор проблемы выглядит следующим образом:

Мой алгоритм выглядит следующим образом: я начинаю с грубой силы и переключусь на более оптимизированное решение, когда улучшу свое базовое понимание.

Попытка выяснить временную сложность моего подхода.

T _n= (n) (1) + (n-1) (2) + (n-2) (3) +..... + (2) (n- 1) + (1) (n)
где T _n - сумма длин всех подстрок.

Среднее будет деление этой суммы на общее количество созданных подстрок.

Это просто задача суммирования и деления, решение которой выглядит следующим образом: O (n)

В случае S1 и S2 выход должен быть: neerajis и great но в случае S1 и S3 выход должен был быть: neerajis, raj, great, eat, но все же я получаю neerajis и great как вывод. Мне нужно понять это.

Ответы

Ответ 1

Вам было бы лучше иметь правильный алгоритм для задачи, а не подход грубой силы. Википедия описывает два общих решения самая длинная общая проблема подстроки: suffix-tree и dynamic-programming.

Решение динамического программирования принимает время O (n m) и O (n m). Это довольно простой перевод на Java псевдокода Wikipedia для самой длинной общей подстроки:

public static Set<String> longestCommonSubstrings(String s, String t) {
    int[][] table = new int[s.length()][t.length()];
    int longest = 0;
    Set<String> result = new HashSet<>();

    for (int i = 0; i < s.length(); i++) {
        for (int j = 0; j < t.length(); j++) {
            if (s.charAt(i) != t.charAt(j)) {
                continue;
            }

            table[i][j] = (i == 0 || j == 0) ? 1
                                             : 1 + table[i - 1][j - 1];
            if (table[i][j] > longest) {
                longest = table[i][j];
                result.clear();
            }
            if (table[i][j] == longest) {
                result.add(s.substring(i - longest + 1, i + 1));
            }
        }
    }
    return result;
}

Теперь вам нужны все обычные подстроки, а не самые длинные. Вы можете улучшить этот алгоритм, включив в него более короткие результаты. Рассмотрим таблицу для входов eatsleepnightxyz и eatsleepabcxyz:

  e a t s l e e p a b c x y z
e 1 0 0 0 0 1 1 0 0 0 0 0 0 0
a 0 2 0 0 0 0 0 0 1 0 0 0 0 0
t 0 0 3 0 0 0 0 0 0 0 0 0 0 0
s 0 0 0 4 0 0 0 0 0 0 0 0 0 0
l 0 0 0 0 5 0 0 0 0 0 0 0 0 0
e 1 0 0 0 0 6 1 0 0 0 0 0 0 0
e 1 0 0 0 0 1 7 0 0 0 0 0 0 0
p 0 0 0 0 0 0 0 8 0 0 0 0 0 0
n 0 0 0 0 0 0 0 0 0 0 0 0 0 0
i 0 0 0 0 0 0 0 0 0 0 0 0 0 0
g 0 0 0 0 0 0 0 0 0 0 0 0 0 0
h 0 0 0 0 0 0 0 0 0 0 0 0 0 0
t 0 0 1 0 0 0 0 0 0 0 0 0 0 0
x 0 0 0 0 0 0 0 0 0 0 0 1 0 0
y 0 0 0 0 0 0 0 0 0 0 0 0 2 0
z 0 0 0 0 0 0 0 0 0 0 0 0 0 3

Результат eatsleep очевиден: диагональная полоса 12345678 в левом верхнем углу.
Результатом xyz является диагональ 123 в правом нижнем углу.
Результат a обозначается 1 около вершины (вторая строка, девятый столбец).
Результат t отображается 1 рядом с левым нижним левом.

Как насчет другого 1 слева, сверху и рядом с 6 и 7? Они не учитываются, потому что они появляются внутри прямоугольника, образованного диагональю 12345678 - другими словами, они уже покрыты eatsleep.

Я рекомендую сделать один проход, ничего не делая, кроме построения таблицы. Затем сделайте второй проход, итерации назад с нижнего правого, чтобы собрать результирующий набор.

Ответ 2

Обычно этот тип подстрочного соответствия выполняется с помощью отдельной структуры данных, называемой Trie (произносится как try). Конкретным вариантом, который лучше всего подходит для этой проблемы, является дерево суффиксов . Ваш первый шаг должен состоять в том, чтобы взять ваши входы и построить дерево суффикса. Затем вам нужно будет использовать дерево суффикса, чтобы определить самую длинную общую подстроку, которая является хорошим упражнением.