Концепции скрытого семантического анализа
Я читал об использовании сингулярного декомпозиции значений (SVD) для выполнения скрытого семантического анализа (LSA) в тексте. Я понял, как это сделать, я также понимаю математические концепции SVD.
Но я не понимаю, почему он работает, применяя к текстам текстов (я считаю, что должно быть лингвистическое объяснение). Может ли кто-нибудь объяснить мне это с лингвистической точки зрения?
Спасибо
Ответы
Ответ 1
Нет лингвистической интерпретации, нет синтаксиса, нет обработки классов эквивалентности, синонимов, омонимов, истоков и т.д. Ни одна из семантик не связана, это просто слова, происходящие вместе.
Рассмотрим "документ" в качестве корзины покупок: он содержит комбинацию слов (покупок). И слова, как правило, встречаются вместе с "родственными" словами.
Например: слово "наркотик" может происходить одновременно с любовью, доктором, медициной, спортом, преступностью; каждый укажет вам в другом направлении. Но в сочетании со многими другими словами в документе ваш запрос, вероятно, найдет документы из аналогичного поля.
Ответ 2
Слова, встречающиеся вместе (т.е. рядом или в том же документе в корпусе), вносят свой вклад в контекст. Скрытый семантический анализ в основном группирует аналогичные документы в корпусе, исходя из того, насколько они похожи друг на друга с точки зрения контекста.
Я думаю, что пример и сюжет словесного документа на странице this помогут понять.
Ответ 3
Предположим, что у нас есть следующий набор из пяти документов
- d1: Ромео и Джульетта.
- d2: Джульетта: О счастливый кинжал!
- d3: Ромео умер от кинжала.
- d4: "Live free or die", т.е. девиз New-Hampshires.
- d5: Знаете ли вы, Нью-Хэмпшир находится в Новой Англии.
и поисковый запрос: умирает, кинжал.
Очевидно, что d3 следует занять в верхней части списка, так как он содержит оба штампа, кинжал. Тогда d2 и d4
должен следовать, каждый из которых содержит слово запроса. Однако как насчет d1 и d5? Должны ли они быть
как возможно интересные результаты этого запроса? Как люди, мы знаем, что d1 весьма взаимосвязано
к запросу. С другой стороны, d5 не столько связано с запросом. Таким образом, мы хотели бы d1, но
а не d5 или иначе говоря, мы хотим, чтобы d1 было ранжировано выше d5.
Вопрос: может ли машина вывести это? Ответ: да, LSI делает именно это. В этом
Например, LSI сможет увидеть, что термин кинжал связан с d1, поскольку он встречается вместе с
термины d1s Ромео и Джульетта, соответственно в d2 и d3. Кроме того, термические матрицы связаны с d1 и d5
потому что это происходит вместе с термином d1s Ромео и d5s термин New-Hampshire в d3 и d4,
соответственно. LSI также будет правильно взвешивать обнаруженные соединения; d1 больше связано с запросом
чем d5, поскольку d1 "вдвойне" связано с кинжалом через Ромео и Джульетту, а также связано с
умереть через Ромео, тогда как d5 имеет только одно соединение с запросом через Нью-Хэмпшир.
Ссылка: скрытый семантический анализ (Alex Thomo)