Данные обучения для анализа настроений
Где я могу получить корпус документов, которые уже были классифицированы как положительные/отрицательные для настроений в корпоративном домене? Мне нужен большой корпус документов, который предоставляет обзоры для компаний, например обзоры компаний, предоставляемых аналитиками и средствами массовой информации.
Я нахожу те корпуса, у которых есть обзоры продуктов и фильмов. Существует ли корпус для бизнес-домена, включая обзоры компаний, которые соответствуют языку бизнеса?
Ответы
Ответ 1
http://www.cs.cornell.edu/home/llee/data/
http://mpqa.cs.pitt.edu/corpora/mpqa_corpus
Вы можете использовать twitter с его смайлами, например: http://web.archive.org/web/20111119181304/http://deepthoughtinc.com/wp-content/uploads/2011/01/Twitter-as-a-Corpus-for-Sentiment-Analysis-and-Opinion-Mining.pdf
Надеюсь, что ты начнёшь. Там больше в литературе, если вас интересуют конкретные подзадачи, такие как отрицание, сфера чувств и т.д.
Чтобы сосредоточиться на компаниях, вы можете связать метод с обнаружением темы, или дешево просто много упоминаний о данной компании. Или вы можете получить ваши данные, аннотированные механическими тюркерами.
Ответ 2
Это список, который я написал несколько недель назад, из моего блога. Некоторые из этих наборов данных были недавно включены в платформу NLTK Python.
словари
-
Мнение Лексикона от Bing Liu
-
MPQA Субъективность Лексикон
-
SentiWordNet
-
Главный исследователь Гарварда
-
Лингвистический запрос и подсчет слов (LIWC)
-
Вейдерский словарь
Datasets
-
Наборы данных MPQA
-
Sentiment140 (твиты)
-
STS-Gold (твиты)
-
Набор данных для клиентов (Отзывы о продукции)
Включено в платформу Python NLTK
-
Плюсы и минусы Dataset (за и против)
Включено в платформу Python NLTK
-
Сравнительные предложения (обзоры)
Включено в платформу Python NLTK
-
Sanders Analytics Twitter Sentiment Corpus (твиты)
5513 ручные твиты по 4 разных тем. Из-за Twitters ToS для загрузки всех твитов включен небольшой Python script. Сама классификация чувств предоставляется бесплатно и без ограничений. Они могут использоваться для коммерческих продуктов. Они могут быть перераспределены. Они могут быть изменены.
-
Испанские твиты (твиты)
-
SemEval 2014 (твиты)
Вы НЕ ДОЛЖНЫ повторно распространять твиты, аннотации или полученный корпус (из файла readme)
-
Различные наборы данных (Отзывы)
-
Различные наборы данных # 2 (Отзывы)
Литература:
Ответ 3
Вот еще несколько:
http://inclass.kaggle.com/c/si650winter11
http://alias-i.com/lingpipe/demos/tutorial/sentiment/read-me.html
Ответ 4
Если у вас есть ресурсы (медиа-каналы, блоги и т.д.) о домене, который вы хотите изучить, вы можете создать свой собственный корпус.
Я делаю это в python:
- используя Beautiful Soup http://www.crummy.com/software/BeautifulSoup/ для анализа содержимого, которое я хочу классифицировать.
- отделяют эти предложения от положительных/отрицательных мнений о компаниях.
- Используйте NLTK для обработки этих предложений, токенизации слов, маркировки POS и т.д.
- Использовать PMI NLTK для вычисления битрамов или триграмм mos часто в одном классе
Создание corpus - это сложная работа по предварительной обработке, проверке, пометке и т.д., но имеет преимущества при подготовке модели для определенного домена во много раз, повышая точность. Если вы можете получить уже подготовленный корпус, просто продолжайте анализ настроений;)
Ответ 5
Я не знаю, какой такой корпус доступен, но вы можете попробовать неконтролируемый метод для немеченого набора данных.
Ответ 6
Вы можете получить большой выбор онлайн-отзывов от Datafiniti. Большинство обзоров поставляются с данными рейтинга, что обеспечило бы более гранулярность настроений, чем положительные/отрицательные. Здесь список предприятий с отзывами, а здесь список продуктов с отзывами.