Естественные слова на английском языке

Мне нужен самый исчерпывающий английский список слов, который я могу найти для нескольких типов операций обработки языка, но я не мог найти что-либо в Интернете, которое имеет достаточно хорошее качество.

В английском языке есть 1 000 000 слов, включая иностранные и/или технические слова.

Не могли бы вы предложить такой источник (или близко к 500 тыс. слов), который можно загрузить из Интернета, который, возможно, немного классифицирован? Какой вклад вы используете для своих приложений для обработки языков?

Ответы

Ответ 1

Kevin wordlists - лучшее, что я знаю только для списков слов.

WordNet лучше, если вы хотите узнать о существительных, глаголах и т.д., синонимах и т.д.

Ответ 2

` "миллионное слово" обрушивается на, я вижу;-)

Как сделать списки слов более длинными: учитывая существительное, добавьте к нему любое из следующего: non, pseudo-, semi-, -arific, -geek,...; mutatis mutandis для глаголов и т.д.

Ответ 3

Я проводил исследования для Purdue по контролируемой/естественной обработке знаний на английском и языке.

Я бы посмотрел на проект tryo: http://attempto.ifi.uzh.ch/site/description/, который является проектом, помогающим построить контролируемый естественный английский.

Вы можете загрузить весь лексикон слова: http://attempto.ifi.uzh.ch/site/downloads/files/clex-6.0-080806.zip у него есть ~ 100 000 естественных английских слов.

Вы также можете предоставить свой собственный лексикон для слов, относящихся к домену, это то, что мы сделали в наших исследованиях. Они предлагают веб-службы для анализа и форматирования естественного английского текста.

Ответ 4

Кто сказал, что было 1 миллион слов? Согласно Wikipedia, в Оксфордском английском словаре всего 600 000. И OED пытается включить все используемые технические и сленговые термины.

Ответ 5

Попробуйте прямо выдержки из Википедии: http://dbpedia.org

Ответ 6

Не так много базовых слов (171k в соответствии с этим - oxford. Это то, что, как я помню, было сказано в моей CS программы в колледже. Но если они включают все формы слов, то это значительно возрастает.

Итак, почему бы не сделать это самостоятельно? Получите дамп Википедии и проанализируйте его и создайте набор всех токенов, с которыми вы сталкиваетесь.

Ожидайте орфографических ошибок, хотя, как и все источники толпы, будут ошибки.