Ответ 1
WordNet - это супер классная база слов. Я сам это изучал. Я перечислил свои выводы ниже - и, надеюсь, это поможет вам лучше понять таблицы.
Таблица синхронизации Таблица synsets является одной из самых важных таблиц в базе данных. Он отвечает за размещение всех определений в WordNet. Каждая строка в таблице synset имеет synsetid, определение, pos (части речевого поля) и lexdomainid (которая ссылается на таблицу lexdomain) В базе данных WordNet имеется 117373 synsets.
Таблица слов WordNet также имеет таблицу слов, которая имеет только два поля: wordid и "lemma". Таблица слов отвечает за размещение всех лемм (базовых слов) в базе данных Wordnet. В этой таблице содержится 146625 записей.
Итак, как связаны эти две таблицы? Ответ? Таблица чувств!
Таблица ощущений
Таблица чувств отвечает за объединение слов (в таблице слов) с определениями (в таблице synset).
Записи в таблице чувств называются "парными словами" - потому что каждое спаривание словаря с синтаксисом - это один полный смысл слова - "смысл слова".
В базе данных WordNet содержится в общей сложности 206 354 слова.
Таблица Lexdomains Таблица Lexdomains ссылается на таблицу чувств и используется для определения того, к какой лексической области принадлежит слово-смысл. В таблице lexdomains имеется 45 лексических доменов. Таким образом, таблица lexdomain является способом WordNets для "маркировки" пары слов. Однако он довольно ограничен, потому что пара слов-чувств может принадлежать только ОДНОЙ лексической области.
В 45 лексических доменах входят:
прилагательные: все, pert
Наречия все
Существительные вершина, акт, животное, артефакт, атрибут, тело, познание, общение, событие, чувство, еда, группа, место, мотив, объект, лицо, явление, растение, владение, процесс, количество, linkdef, форма, состояние, время,
Глаголы тело, изменение, познание, общение, конкуренция, потребление, контакт, создание, эмоция, движение, восприятие, владение, социальная, статическая, погода, ppl
Таблица casedwords Некоторые слова в таблице слов, естественно, имеют первую букву, заглавную, т.е.: "A-team". Так как таблица слов хранит все слова как строчные, WordNet использует эту таблицу, чтобы указать прописную версию слова. В этой таблице содержится 40313 записей.
В базе данных WordNet есть много других таблиц, как только я их изучу, я отправлю сообщение еще раз.
Поиск синонимов Чтобы ответить на ваш вопрос относительно синонимов - вам нужно сделать следующее.
Скажем, вы хотите найти синонимы для слова "Carry". Чтобы сделать это, вы должны сначала найти таблицу слов для леммы, соответствующей слову "переносить". Это дало бы слово 21333. Затем вы бы искали таблицу чувств, чтобы найти все слова-пары для слова переноса. Это дает 41 результат - каждый результат перечисляет wordid 21253, а также сенсей (который является индексом пары слов и чувств) и synsetid.
Теперь вам нужно будет запросить таблицу sync для каждого из возвращенных synsetid, чтобы вы могли получить доступ к соответствующему полю определения в таблице synset.
Наконец, чтобы найти синонимы для каждого из перечисленных в списке синтаксисов, вам просто нужно будет искать таблицу чувств для других пар чувств, которые разделяют один и тот же синт.
Пример:
Ниже приведена одна из 41 пары слов-слов для слова "нести":
Если мы найдем определение этого синтаксиса 202083512, вы обнаружите, что "передаете или служат в качестве носителя для передачи"
Чтобы найти все синонимы этого определения, вы затем будете искать таблицу чувств для того же самого synsetid 202083512. Это дает синонимы: канал, поведение, передачу, передачу и передачу (обратите внимание: вам нужно будет вступить в таблицу слов, чтобы получить фактические леммы)
Надеюсь, это поможет вам демистифицировать WordNet.. Я нахожу, что это довольно круто...