Как получить базу данных английского языка?
Мне нужна база данных каждого действительного слова на английском языке. Я проверил файл /usr/share/dict/words
, он содержит менее 100 тыс. Слов. Википедия говорит, что английский язык имеет 475 тыс. Слов. Где я могу получить полный список (американское правописание)?
Кроме того, есть ли один веб-сайт, который выдает слова для других языков, включая азиатские и европейские?
Изменить: Забыл добавить, мне не нужны имена и т.д., только правильные английские слова.
Ответы
Ответ 1
База данных WordNet может быть полезна. Я когда-то работал над дополнением Firefox, которое касается слов и всех видов простых и сложных ассоциаций между ними и другими. Похоже, WordNet будет очень полезен для вас.
Здесь он находится в формате MySQL. И эта (веб-архивная ссылка) использует данные Wordnet v3.0, а не более старые данные Wordnet 2.0.
Ответ 2
Вы можете найти то, что вам нужно на infochimps.org.
У них есть список из 350 000 простых (т.е. не связанных) слов, доступных для бесплатной загрузки.
Список слов - 350 000+ простых английских слов
Что касается других языков, вы можете захотеть совать в Викисловаре. Вот ссылка на все резервные копии резервных копий - информация не организована так сильно, но если у них есть язык, вы можете загрузить данные в формате SQL.
Ответ 3
Я не вижу http://wordlist.sourceforge.net/, но здесь я бы начал, если бы искал что-то вроде этого (и я был, когда я наткнулся на этот вопрос).
Если вы не можете найти то, что хотите, и что вы хотите, это список английских слов, то вам, вероятно, стоит потратить некоторое дополнительное время, описывая, как узнать, что именно вы хотите.
Ответ 4
Нет такой вещи, как "полный" список. У разных людей разные способы измерения - например, они могут включать сленг, неологизмы, многословные фразы, оскорбительные термины, иностранные слова, спряжения глаголов и т.д. Некоторые люди даже посчитали миллион слов! Поэтому вам нужно будет решить, что вы хотите в списке слов.
Ответ 5
Вы можете проверить *spell
en-GB словарь, используемый Mozilla, OpenOffice, много другого программного обеспечения.
Ответ 6
Вы не сказали, для чего вам нужен этот список. Если что-то, используемое в качестве черного списка для проверки пароля, достаточно cracklib, может быть полезно для вас. Он содержит более 1,5 М слов.