Где я могу получить английский словарь со структурированными данными?
Я хотел бы загрузить английский словарь - не только список слов - в структурированном формат, такой как TXT, XML или SQL.
В частности, мне нужно phonetic произношение и части речи (определение не требуется).
Удивительно, но я не могу найти этот сайт в любом месте. Wiktionary доступен для загрузки, но это это только статьи MediaWiki. Сканирование всех статей и извлечение фонетики и частей речи было бы огромным упражнением.
Доступно ли это в любом месте? Я не против платить.
Изменить: несколько человек спросили, что я хотел бы сделать. Моя непосредственная потребность - это просто любопытство, например "какие самые общие двусложные глаголы?". В конце концов, моя надежда была бы инструментом, который поможет вам найти доступные имена доменов, и делает это, соединяя правильные части речи с бонусами для фонетических матчей.
Примечание: перекрестная ссылка на Английский язык и использование.
Ответы
Ответ 1
Перейдите в http://www.speech.cs.cmu.edu/cgi-bin/cmudict, и вы найдете страницу загрузки для словаря слова https://cmusphinx.svn.sourceforge.net/svnroot/cmusphinx/trunk/cmudict/
Последняя версия в настоящее время cmudict.0.7a.
Это то, что я сейчас использую для реализации счетчика слога для http://www.haikuvillage.com. Это в Ruby, и я был бы рад открыть его для вас, если это поможет.
Ответ 2
Части словаря речи в общественном достоянии с высокоструктурированным форматом: http://icon.shef.ac.uk/Moby/mpos.html
Каждая строка представляет собой запись, разделенную ×, со значением слова слева и значением части речи (глаголом и т.д.) справа. Простой текстовый файл.
Ответ 3
Wordnet - один из лучших словарей, которые я знаю. Возможно, вы найдете что-то там:
http://wordnet.princeton.edu/wordnet/related-projects/
Ответ 4
Портман, в то время как я использовал инструмент SpellChecker от DevExpress Я знал, что существует словари OpenOffice Я уверен, что у них есть четко определенная структура данных. Я рекомендую вам использовать это в сочетании с любым бесплатным/платным текстовым инструментом.
Надеюсь, что это поможет,
Ответ 5
Это не прямой ответ на ваш вопрос, но алгоритм Double Metaphone очень хорош в поиске совпадений слов или фраз для серверов приложений поисковой системы (таких как Solr и другие).
Я не могу сказать, каково ваше намеренное использование, поэтому я не могу сказать, полезно ли мое предложение или нет. Если это близко к вашему предполагаемому использованию, на странице Википедии о Double Metaphone имеется список из десятков реализаций, которые могут стоить изучить.
http://en.wikipedia.org/wiki/Double_Metaphone