Алгоритм сравнения подобия английских предложений
У меня есть набор предложений, и мне нужно проанализировать их, чтобы увидеть, насколько они похожи.
Существуют ли какие-либо установленные алгоритмы для этого?
Мне интересно:
- содержащий те же слова (без учета флексий на данный момент)
- содержащий те же слова в аналогичном порядке
Раньше я использовал расстояние Levenshtein и n-граммы для орфографии, хотя я не совсем уверен, если они переводят мои цели.
Наивно: "Меня не интересуют различия в орфографии, опечатки можно рассматривать как разные слова", хотя, возможно, было бы неплохо объяснить это.
возможно, какой-то гибрид расщепления предложения в пространствах и один из вышеупомянутых (или других) алгоритмов будет отправной точкой
Какие опции доступны? Любые советы?
Спасибо!
Ответы
Ответ 1
В этом документе сравнивается несколько мер сходства предложений. Возможно, вы можете использовать один из них как есть или изменить его для своих нужд.
В противном случае критерий подобия предложения является хорошим ключевым термином для google для.
Ответ 2
Чтобы игнорировать перегибы, вы должны изучить алгоритмы генерации: http://en.wikipedia.org/wiki/Porter_stemmer
Они сводят слова к их корневым формам.