Ответ 1
Kevin wordlists - лучшее, что я знаю только для списков слов.
WordNet лучше, если вы хотите узнать о существительных, глаголах и т.д., синонимах и т.д.
Мне нужен самый исчерпывающий английский список слов, который я могу найти для нескольких типов операций обработки языка, но я не мог найти что-либо в Интернете, которое имеет достаточно хорошее качество.
В английском языке есть 1 000 000 слов, включая иностранные и/или технические слова.
Не могли бы вы предложить такой источник (или близко к 500 тыс. слов), который можно загрузить из Интернета, который, возможно, немного классифицирован? Какой вклад вы используете для своих приложений для обработки языков?
Kevin wordlists - лучшее, что я знаю только для списков слов.
WordNet лучше, если вы хотите узнать о существительных, глаголах и т.д., синонимах и т.д.
` "миллионное слово" обрушивается на, я вижу;-)
Как сделать списки слов более длинными: учитывая существительное, добавьте к нему любое из следующего: non, pseudo-, semi-, -arific, -geek,...; mutatis mutandis для глаголов и т.д.
Я проводил исследования для Purdue по контролируемой/естественной обработке знаний на английском и языке.
Я бы посмотрел на проект tryo: http://attempto.ifi.uzh.ch/site/description/, который является проектом, помогающим построить контролируемый естественный английский.
Вы можете загрузить весь лексикон слова: http://attempto.ifi.uzh.ch/site/downloads/files/clex-6.0-080806.zip у него есть ~ 100 000 естественных английских слов.
Вы также можете предоставить свой собственный лексикон для слов, относящихся к домену, это то, что мы сделали в наших исследованиях. Они предлагают веб-службы для анализа и форматирования естественного английского текста.
Кто сказал, что было 1 миллион слов? Согласно Wikipedia, в Оксфордском английском словаре всего 600 000. И OED пытается включить все используемые технические и сленговые термины.
Попробуйте прямо выдержки из Википедии: http://dbpedia.org
Не так много базовых слов (171k в соответствии с этим - oxford. Это то, что, как я помню, было сказано в моей CS программы в колледже. Но если они включают все формы слов, то это значительно возрастает.
Итак, почему бы не сделать это самостоятельно? Получите дамп Википедии и проанализируйте его и создайте набор всех токенов, с которыми вы сталкиваетесь.
Ожидайте орфографических ошибок, хотя, как и все источники толпы, будут ошибки.