НЛП: Качественно "позитивное" и "отрицательное" предложение
Мне нужна ваша помощь в определении наилучшего подхода для анализа предложений, относящихся к конкретной отрасли (например, обзоры фильмов) для "положительных" и "отрицательных". Раньше я видел такие библиотеки, как OpenNLP, но слишком низкоуровневый - он просто дает мне основную композицию предложения; мне нужна структура более высокого уровня:
- надеюсь, со списками слов
- надеюсь, тренирующийся по моему набору данных
Спасибо!
Ответы
Ответ 1
То, что вы ищете, обычно называется Анализ настроений. Как правило, анализ настроений не способен обрабатывать тонкие тонкости, такие как сарказм или ирония, но он очень хорош, если вы бросаете на него большой набор данных.
Анализ настроений обычно требует довольно много предварительной обработки. По крайней мере, токенизация, определение границы предложения и таргетинг на части речи. Иногда синтаксический синтаксический анализ может быть важен. Правильное выполнение этой задачи - целая отрасль исследований в области вычислительной лингвистики, и я бы не посоветовал вам придумать собственное решение, если вы не потратите время на изучение поля в первую очередь.
В OpenNLP есть некоторые инструменты, помогающие анализу настроений, но если вы хотите что-то более серьезное, вы должны изучить инструментарий LingPipe. Он имеет встроенную функциональность SA и хороший tutorial. И вы можете обучать его на свой собственный набор данных, но не думайте, что это совершенно тривиально: -).
Google для этого термина, вероятно, также даст вам некоторые ресурсы для работы. Если у вас есть более конкретный вопрос, просто спросите, я внимательно наблюдаю за nlp-тегом; -)
Ответ 2
Некоторые подходы к анализу настроений используют стратегии, популярные в других задачах классификации текста. Наиболее распространенным является преобразование обзора фильма в векторный вектор и подача его в алгоритм классификатора в качестве данных обучения. Самые популярные пакеты интеллектуального анализа данных могут помочь вам здесь. Вы можете посмотреть этот учебник по классификации чувств, иллюстрирующий, как сделать эксперимент с использованием открытого источника Инструментарий RapidMiner.
Кстати, есть хороший набор данных, доступный для исследовательских целей, связанных с обнаружением мнения о просмотрах фильмов. Он основан на обзорах пользователей IMDB, и вы можете проверить многие связанные исследовательские работы в области и то, как они используют набор данных.
Следует иметь в виду, что эффективность этих методов может оцениваться только с статистической точки зрения, поэтому вы можете в значительной степени предположить, что будут ошибочные классификации и случаи, когда мнение трудно обнаружить. Как уже отмечалось в этой теме, обнаружить такие вещи, как ирония и сарказм, может быть очень сложно.