Ответ 1
Попробуйте Инструмент семантического обнаружения. Он имеет реализацию по тексту/src/java/org/sd/text/radixtree
Я ищу реализацию Java обобщенного дерева суффикса (GST) со следующими функциями:
После создания GST из 1000 строк я хотел бы узнать, сколько из этих 1000 строк содержит некоторые другие строки '.
Поиск должен быть тихим быстро, так как мне нужно применить поиск примерно на 100 000 строк-кандидатов средней длины 10.
Попробуйте Инструмент семантического обнаружения. Он имеет реализацию по тексту/src/java/org/sd/text/radixtree
Существует реализация Java без общего дерева суффикса доступна по адресу: http://illya-keeplearning.blogspot.com/2009/04/suffix-trees-java-ukkonens-algorithm.html
Я создал дерево суффиксов в Java, которое позволяет вам легко добавлять собственные функции поиска и другие алгоритмы сопоставления. Мой блог, Суффикс Деревья в Java, содержит обзор, а также инструкции по загрузке последней версии. Моя реализация Java основана на Mark Nelson Быстрый поиск строк с деревьями суффикса.
Обновление 2016-06-18
Здесь вы можете найти реализацию Обобщенного дерева суффикса в Java. Я пытался документировать его как можно больше, поэтому вы можете найти его полезным.
Вот моя реализация SuffixTree: https://github.com/losvald/sglj/blob/master/src/main/java/org/sglj/util/PATTrie.java
Кроме всего прочего, он поддерживает хранение произвольных данных в узлах и поиск набора значений, связанных с префиксом.