Чтобы найти всю повторяющуюся подстроку в заданной строке
Я натолкнулся на вопрос интервью:
Найти всю повторяющуюся подстроку в заданной строке с минимальным размером 2.
Алгоритм должен быть эффективным.
Код для вышеуказанного вопроса приведен ниже, но он не эффективен.
#include <iostream>
#include <algorithm>
#include <iterator>
#include <set>
#include <string>
using namespace std;
int main()
{
typedef string::const_iterator iterator;
string s("ABCFABHYIFAB");
set<string> found;
if (2 < s.size())
for (iterator i = s.begin() + 1, j = s.end(); i != j; ++i)
for (iterator x = s.begin(); x != i; ++x)
{
iterator tmp = mismatch(i, j, x).second;;
if (tmp - x > 1)
found.insert(string(x, tmp));
}
copy(found.begin(), found.end(),ostream_iterator<string>(cout, "\n"));
}
Мой вопрос в том, что существует ли какая-либо структура данных, которая может реализовать вышеупомянутый вопрос во времени
сложность O (N)?
Если ваш ответ - дерево суффикса или Хешинг, пожалуйста, уточните его.
Ответы
Ответ 1
Если вы анализируете вывод для строки "AAAAAAAAAAAAAA"
, то в ней есть символы O (n²), поэтому алгоритм не менее O (n²).
Чтобы достичь O (n²), просто создайте дерево сущностей для каждого суффикса s (индексы [1..n], [2..n], [3..n],..., [n..n]). Не имеет значения, если одна из строк не имеет собственного конца node, просто подсчитайте, как часто используется каждый node.
В конце проведите по каждому node со значением count > 1 и напечатайте его путь.
Ответ 2
Это просто дикая идея, но стоит попробовать (однако она потребляет память O (N), где N - длина первичной строки). Алгоритм не O (N), но, возможно, он может быть оптимизирован.
Идея состоит в том, что вы не хотите часто проводить сравнения строк. Вы можете собрать хэш данных чтения (например, сумму кодов ASCII считываемых символов) и сравнить хэши. Если хеши равны, строки могут быть равными (это нужно проверить позже). Например:
ABCAB
A -> (65)
B -> (131, 66)
C -> (198, 133, 67)
A -> (263, 198, 132, 65)
B -> (329, 264, 198, 131, 66)
Поскольку вам интересны только значения длины + +, вы должны опустить последнее значение (потому что оно всегда соответствует одиночному символу).
Мы видим два равных значения: 131 и 198. 131 означает AB и показывает пару, однако 198 стоит как для ABC, так и для BCA, которые должны быть отклонены вручную.
Это только идея, а не само решение. Хеш-функция может быть расширена для учета позиции символа в подстроке (или структуре последовательности). Метод хранения хеш-значений может быть изменен для повышения производительности (однако, это связано с увеличением использования памяти).
Надеюсь, я немного помог:)
Ответ 3
Я не знаю, как дерево суффиксов может получить всю повторяющуюся подстроку, строковое суффикс дерева "mississippi" выглядит следующим образом:
Извините, я вижу. "В конце проведите по каждой из node со счетом > 1 и напечатайте ее путь". "count" - это количество этого дочернего node
tree-->|---mississippi m..mississippi
|
|---i-->|---ssi-->|---ssippi i .. ississippi
| | |
| | |---ppi issip,issipp,issippi
| |
| |---ppi ip, ipp, ippi
|
|---s-->|---si-->|---ssippi s .. ssissippi
| | |
| | |---ppi ssip, ssipp, ssippi
| |
| |---i-->|---ssippi si .. sissippi
| |
| |---ppi sip, sipp, sippi
|
|---p-->|---pi p, pp, ppi
|
|---i p, pi
--- Suffix Tree for "mississippi" ---
Ответ 4
Я думаю, что эту проблему можно решить и с помощью динамического программирования.